关键词提取

摘要

关键词提取大多数网站都以html格式存在。对于索引,只需要处理文本信息。因此,有必要从网页中提取内容,过滤一些脚本如JS和其他广告形式的内容,并记录文本的布局格式信息

关键词提取

大多数网站都以html格式存在。对于索引,只需要处理文本信息。因此,有必要从网页中提取内容,过滤一些脚本如JS和其他广告形式的内容,并记录文本的布局格式信息。网页处理主要包括四个方面:关键词提取、重复、消除重印、链接分析、计算网页的重要性、如何提取关键词,由于HTML网页来源的多样性,内容比较随意,新手SEO不注重标准化和整洁。它包含许多不相关的信息,如广告、导航和版权描述。为了找到有用的内容,有必要从网页的源文件中提取包含在代表性内部部分中的关键词。中文网页使用字典和分词软件,它们不应该出现在文本中,叫做停止词,有效词应该保证在200左右

目前评论:0 条

发表评论