TF-IDF-中文分词算法

  TF-IDF(term frequency–inverse document frequency)-中文分词算法在这里借用百科的一段解释来进行一个说明:是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。

  TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序

  其实百度百科解释太过于官方,专业术语了,简单来说,就是一个关键词在一个网页中出现的频率,频率越高,那么它的相关性就越强,给予的权重就会越高,同时这个关键词出现的频率也是有一定的限度的,当它出现太过频繁,反倒显得不重要

  下面我们来说说分词是怎么分的,打个比方:”苹果手机”这个词我有进行一个分词,它会分多少个词呢?如下:

  苹果

  手机

  手

  机

  苹果手机

  通过这样一个例子,我们就可以很好的理解中文分词, 并没有想象中那么复杂