机器人的常规书写

摘要

机器人协议的全称是“网络爬虫排除标准”,网站通过机器人协议告诉搜索引擎哪些页面可以被爬行,哪些页面不能被爬行。txt是一种协议,而不是命令。Robots.txt是在搜索引擎中访问网站时要查看的第一

机器人协议的全称是“网络爬虫排除标准”,网站通过机器人协议告诉搜索引擎哪些页面可以被爬行,哪些页面不能被爬行。txt是一种协议,而不是命令。Robots.txt是在搜索引擎中访问网站时要查看的第一个文件。Robots.txt文件告诉蜘蛛程序哪些文件可以在服务器上查看。那么站长们对机器人了解多少?你知道怎么写机器人文件吗?下面天骐网的小系列将为您介绍。

机器人协议原理

机器人协议是国际互联网社会的共同道德标准,它是基于以下原则建立的:

1.搜索技术应该为人类服务,同时尊重信息提供者的意愿并保护他们的隐私权;

2.网站有义务保护用户的个人信息和隐私不受侵犯。

机器人功能

机器人协议用于告诉搜索引擎哪些页面可以被抓取,哪些页面不能被抓取。它可以阻止网站上的一些大文件,如图片、音乐、视频等。节省服务器带宽;你可以在网站上屏蔽一些死链接。方便搜索引擎抓取网站内容;建立网站地图连接,方便引导蜘蛛抓取网页。

文件写作

用户代理: *这里*代表所有种类的搜索引擎,并且*是一个通配符。

如何编写机器人文件

不允许: /admin/此处的定义是禁止对管理目录下的目录进行爬网。

不允许:/要求/此处的定义是禁止对要求目录下的目录进行爬网。

禁止:/作业成本法/此处的定义是禁止在作业成本法目录下对目录进行爬网。

Disallow: /cgi-bin/*。htm禁止访问所有带后缀'的URL。/cgi-bin/目录中的“htm”。

不允许: /*?*禁止访问网站中包含问号的所有网址。

不允许: /。禁止抓取所有图片。网页上的jpg格式。

禁用:/ab/ADC . html禁止对ab文件夹下的adc.html文件进行爬网。

这里的定义是允许对cgi-bin目录下的目录进行爬网。

这里定义了Allow: /tmp,允许对tmp的整个目录进行爬网。

Allow:只有带后缀'的网址。允许访问“htm”。

Allow:gif$允许对网页和gif格式的图片进行爬网。

网站地图:网站地图告诉爬虫这个页面是一个网站地图。

robots.txt文件的编写在这里为大家分享。当搜索蜘蛛访问一个站点时,它将首先检查robots.txt是否存在于该站点的根目录中。如果它存在,搜索机器人将跟踪文件的内容。确定访问范围;如果文件不存在,所有搜索蜘蛛将能够访问网站上不受密码保护的所有页面。天骐seo Optimization边肖提醒每个人,当你的网站包含不想被搜索引擎收录的内容时,你只需要使用robots.txt文件。如果你想让搜索引擎包含网站上的所有内容,不要创建robots.txt文件。

目前评论:0 条

发表评论