搜索引擎机器人介绍

摘要

蜘蛛网新网站不需要“提交”给搜索引擎来注册列表。一个来自其他网站的简单链接将使搜索引擎访问新网站并开始“抓取”网站内容。从这样一个已经建立的网站获得链接可能需

蜘蛛网

新网站不需要“提交”给搜索引擎来注册列表。一个来自其他网站的简单链接将使搜索引擎访问新网站并开始“抓取”网站内容。从这样一个已经建立的网站获得链接可能需要几天甚至几周的时间,并使所有主要的搜索引擎开始访问和索引新网站。一旦搜索引擎发现一个新网站,它通常会访问并开始索引该网站,直到所有标准的a href超链接都被链接的网页索引。蜘蛛机器人可能找不到只能通过闪存或JavaScript访问的链接。当搜索引擎的蜘蛛机器人在一个站点上爬行时,它取决于相当多的不同因素,并且站点的许多页面可能直到它们的页面级别、链接或流量增加到一定程度才被索引。从站点的根到页面的距离,以及其他权重考虑,也可以决定是否检索到页面。Cho等人描述了哪些页面将被访问,哪些将被包括在搜索引擎索引中。站长可以指示蜘蛛机器人不要通过域根目录中的标准robots.txt文件来索引某些文档或目录。该标准的实施要求是,搜索引擎在访问该域时应该参考该文件,尽管搜索引擎的蜘蛛机器人在访问网站页面时会保留该文件的缓存副本,并且更新速度不如网站管理员快。网站开发人员可以使用此功能来防止某些页面(如购物车或其他动态和用户特定的内容)出现在搜索引擎结果中,并防止机器人进入无尽的循环和其他机器人陷阱。对于一些付费提交的搜索引擎来说,支付象征性的提交费用可能会节省一些时间,尽管雅虎的付费提交方案并不保证作者/公司会被包括在他们的搜索结果中。

目前评论:0 条

发表评论