时间:2022-09-17
最近有一些朋友在QQ群里问,什么是TF-IDF,如何使用TF-IDF进行SEO。其实TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。(来源于百度百科对TF-IDF的释义)
由于各大搜索引擎也看到了它的潜力,开始使用此指标而不是关键字密度来评估内容优化,因为它有助于降低功能词的影响。所以才有越来悦动做SEO的人开始关注TF-IDF。
搜索引擎经常使用TF-IDF算法的不同变体作为其排名机制的一部分。通过为文档提供相关性分数,他们可以在几毫秒内提供“无垃圾”搜索结果。例如,TF-IDF长期以来一直是谷歌排名机制的一部分。谷歌使用TF-IDF通过分析一个术语在页面上出现的频率(术语频率 - TF)以及预期在平均页面上出现的频率来确定哪些术语与主题相关(或不相关),基于更大的一组文件(逆文件频率 - IDF)。为了确定给定页面的相关性,Google会根据其认为与查询相关的一些特定功能来分析其索引中的页面。由于大多数在线内容都是文本,因此这些功能很可能是页面上是否存在某些术语和短语。不仅是他们的存在,而且他们在这个页面上的突出位置,而不是网络上的其他页面。这就是TF-IDF算法可能派上用场的地方。它衡量整个网络上这个特定术语的平均使用频率,并设置一个基准来阻止词语提供更大的突出性。
到现在为止,你已经注意到这个概念中有两个术语。虽然术语频率或多或少清晰,但神秘的逆文档频率是多少呢?
看到这个公式,是不是有点儿慌?哈哈!别担心,你不必自己计算一切; 有工具可以帮到你。但是,在使用任何工具之前,您应该了解TF-IDF值不仅仅是一种狡猾的关键字密度形式。以下是它的工作原理:
看到这个公式,是不是有点儿慌?哈哈!别担心,你不必自己计算一切; 有工具可以帮到你。但是,在使用工具之前,您应该了解TF-IDF值不仅仅是一种关键字密度形式。以下是它的工作原理:
术语频率(TF)
乍一看,指标很明确:术语出现在文档中的频率。它是根据以下公式计算的(不用担心,我会为你做数学计算)
例如,如果您有一个1000字的页面,其中您的关键字出现10次,则其术语频率将为4.32/9.97 = 0.43。
如果您在同一文档中将关键字显示为两倍,则其术语频率不会发生太大变化,它将为5.32/9.97 = 0.53。
术语频率反映您是经常使用特定关键字,还是很少使用。然而,就其本身来说,它是无用的,因为你需要衡量术语的重要性,而不仅仅是它的使用频率。否则,关键词将“控制”搜索结果。为了防止它,我们需要IDF。
逆文档频率(IDF)
此指标有助于了解特定关键字的实际价值。它计算文档总数与实际包含此关键字的文档数量之比。公式如下:
如果关键字是常用词,则很可能它将用于大量文档中。因此,它的IDF值很小,如果我们将TF乘以它,那么该值就不会有太大变化。反之亦然,如果该术语仅在少数文档中找到,则其IDF值将更大,从而导致更大的TDF-IDF得分。因此,您可以看到,与关键字密度不同,它仅反映了您的文本与特定关键字的填充方式,TF-IDF是一种更高级,更复杂的指标,反映了给定关键字对给定网页的重要性。它缩小了不重要的单词和短语的重要性,而罕见的,有意义的术语在重要性上得到了扩展。
记住这个想法,让我们看看TF-IDF与SEO有什么关系。
一旦您需要在语义搜索中增加页面的相关性,TF-IDF就是一种秘密武器。怎么样?它有助于超越确切的关键字和内容,以确保它与被搜索的主题相关。
正如我之前提到的,尝试自己计算页面的TF-IDF是很疯狂的,使用工具可以毫不费力地完成这项工作。使用大多数TF-IDF工具,您可以分析自己关键字的排名靠前的搜索结果,并查看其中大多数使用的术语和短语以及您的网页为其执行的效果。
因此,您将拥有一个与您相关的热门相关关键字列表:
针对整个主题优化您的内容,而不是单个单词;
发现当前内容存在差距;
创建排名越来越高的新内容。
如果您想知道如何在您的SEO策略中加入TF-IDF,首先,尝试使用TF-IDF将为您带来最大收益的页面:
无法脱离第二页的高潜力内容:您在网站上停留了一段时间的内容,这些内容经过了优化并获得了大量授权。TF-IDF优化是将这些内容推送到第一页的好方法。
缓慢失去位置的高级内容:Google的算法不断变化,这会影响SERP每天的外观。TF-IDF将帮助这些页面保持相关性并保持其排名。
产品页面排名不高:如果您的产品页面难以按金额排名,那么TF-IDF可以帮助识别此页面中缺少的关键内容。
显然,TF-IDF不仅仅是一个好奇的缩写,它是内容开发策略的重要组成部分。
但是,尽量不要将其视为一种能够立即提高网页排名的神奇公式。
相反,将其视为一种更接近机器如何看待您的页面的方式,然后对这些知识进行反向工程以调整和改进您的内容。
内容参考来源:百家号小灰聊职场