【SEO算法实战】TF-IDF算法解析,根据TF-IDF算法模型来提升长尾关键词排名思路分享!

摘要

什么是TF-IDF算法?百科解释可能比较复杂,简单点来说,可以把TF-IDF简单理解为,“一个词语在一篇文章中浮上次数越多, 同时在所有文档中浮上次数越少, 越能够代表该文章”。

什么是TF-IDF算法?百科解释可能比较复杂,简单点来说,可以把TF-IDF简单理解为,“一个词语在一篇文章中浮上次数越多, 同时在所有文档中浮上次数越少, 越能够代表该文章”。TF-IDF算法源于搜索引擎中对于结果排序里最常见的词频与文档频率的一种统计算法,而这种百度算法尤其在百度SEO优化过程当中运用的尤为重要。

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。

TF(Term Frequency,词频)表示一个给定词语t在一篇给定文档d中出现的频率。TF越高,则词语t对文档d来说越重要,TF越低,则词语t对文档d来说越不重要。那是否可以以TF作为文本相似度评价标准呢?答案是不行的,举个例子,常用的中文词语如“我”,“了”,“是”等,在给定的一篇中文文档中出现的频率是很高的,但这些中文词几乎在每篇文档中都具有非常高的词频,如果以TF作为文本相似度评价标准,那么几乎每篇文档都能被命中。

词频TF计算公式

IDF(Inverse Document Frequency,逆向文件频率)的主要思想是:如果包含词语t的文档越少,则IDF越大,说明词语t在整个文档集层面上具有很好的类别区分能力。IDF说明了什么问题呢?还是举个例子,常用的中文词语如“我”,“了”,“是”等在每篇文档中几乎具有非常高的词频,那么对于整个文档集而言,这些词都是不重要的。对于整个文档集而言,评价词语重要性的标准就是IDF。

逆文档频率IDF计算公式

如果要想详细的分析搜索引擎对于TF-IDF算法的实战运用,首先要思考出一个问题点,叫做URL信任值,也可以称为我们所谓的权重。对于SEO排名来说,既然有降权那么同样就有提权,而提权可以简单的理解为搜索引擎对于某个网页的一种信任度递增,这里需要注意的是该递增是针对某个网页里面出现的所有词的频次进行加权计算,而不是像用户点击那样仅仅是提升了单个词的点击提权。

不管是老域名,还是新域名,每一个URL都有一次所谓的初始评级,而正常的初始评级是搜索整个标题在首页第一位,这种情况属于信任度稳定状态,如果搜索标题不再第一位或者在第二位甚至更后面,那么该页面的信任度属于0以下。但是如果整个标题你翻了20页都不一定找到,那么说明该页面评级属于降权状态,也是未建库状态,可以理解为-1,反之提权则是正1+的,在数学里面有正无穷大可以用来阐述这个点。

TF-IDF算法应该怎么运用

大多数情况下,不管是老域名还是新域名其实收录的那一刻站点是归零的状态,也就是搜索标题一律正常,而往往很多人优化后就有了两种结果,一种是标题搜索不到触发降权,而另外一种则是提权。本文不讨论降权,我们仅仅是根据TF-IDF算法来进行提权的一种表述,理解TF-IDF算法的朋友都知道TF-IDF算法虽然我们改变不了逆文档频率,但是我们可以左右站点页面的TF频次数值。如陈年SEO网站的核心关键词是SEO培训,我们暂且不考虑所谓的指数词排名,只考虑一种,就是能够搜索到的所有核心关键词。通过时间轴(该纬度可以不断的来影响网页的基础评分,老域名的优势这是这个点所体现出来的)来进行一些词的排名提升。

根据TF-IDF算法的频次计算也就是淘宝客关键词为零,一旦为零,搜索引擎会结合站点的信任度指标从1到0,如果思考到位的话,就自然知道如何利于算法去进行大量的长尾关键词优化和扩展,很多时候,你看到的算法都是没有通过数据分析和实验测试的,但是一旦真正的往下研究就可以发现很多奥秘!

目前评论:1 条

  1. 专业seo培训
    回复 2020-02-15 15:52  沙发

    文章写的还不错

发表评论