搜索引擎抓取原理

摘要

搜索引擎爬网:1.蜘蛛(SPider)是一种爬虫,它沿着网页中的超链接在互联网上查找和收集网页信息2.蜘蛛抓取的方式1)深抓

搜索引擎爬网:

1.蜘蛛(SPider)是一种爬虫,它沿着网页中的超链接在互联网上查找和收集网页信息

2.蜘蛛抓取的方式

1)深抓

2)广度捕捉

3.不利于识别蜘蛛的内容

Js代码、iframe框架代码机制、图片、flash、只能在登录后获取的页面信息、嵌套表等。

网站结构:主页——栏页面——内容详细信息页面

目前评论:0 条

发表评论