自然语言处理之TF-IDF算法

TF-IDF

对于文档搜索中tf-idf应用非常广泛，甚至在es数据库中作为默认的检索方式，这里就简单介绍一个tf-idf算法。

首先思考一个问题，假如我们对一系列文章进行分词统计等操作，如果某个词出现的特别多，那么它是不是很重要呢？于是，我们进行"词频"（Term Frequency，缩写为TF）统计。

但是还有一个问题是，出现最多的词一定是"的"、“地”等词语，我们叫做"停用词"（stop words）表示对找到结果毫无帮助、必须过滤掉的词。
如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。
用统计学语言表达，就是在词频的基础上，要对每个词分配一个"重要性"权重。最常见的词（“的”、“是”、“在”）给予最小的权重，较少见的词（“蜜蜂”、“养殖”）给予较大的权重。这个权重叫做"逆文档频率"（Inverse Document Frequency，缩写为IDF），它的大小与一个词的常见程度成反比。
知道了"词频"（TF）和"逆文档频率"（IDF）以后，将这两个值相乘，就得到了一个词的TF-IDF值。
某个词对文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的几个词，就是这篇文章的关键词。

算法

了解了相关的概念，那咱们就来看看怎么计算和分配权重呢？

第一步，计算词频。

词频(TF)=某个词在文章的出现次数

考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

词频(TF)=\frac{某个词在文章的出现次数}{文章总词数}

或者

词频(TF)=\frac{某个词在文章的出现次数}{该文出现次数最多的的词的出现次数}

第二步，计算逆文档频率。

这时，需要一个语料库（corpus），用来模拟语言的使用环境。

逆文档频率(IDF)=\log(\frac{语料库的文档总数}{包含该词的文档数+1})

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

第三步，计算TF-IDF。

TF-IDF=TF \times IDF

可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

除了自动提取关键词，TF-IDF算法还可以用于许多别的地方。比如，信息检索时，对于每个文档，都可以分别计算一组搜索词（“中国”、“蜜蜂”、“养殖”）的TF-IDF，将它们相加，就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。

TF-IDF的优缺点

TF-IDF算法的优点是简单快速，结果比较符合实际情况。缺点是，单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。（一种解决方法是，对全文的第一段和每一段的第一句话，给予较大的权重。）

# 检索算法

支付宝捐赠