搜索引擎有很多,每个搜索引擎都有蜘蛛去爬取网页信息,我们在网站日志中就能看到蜘蛛的访问记录,下面介绍下各大搜索引擎的蜘蛛名称。
1、百度蜘蛛:Baiduspider
百度蜘蛛名称为Baiduspider。日志中还发现Baiduspider-render这个百度渲染蜘蛛,是百度专门用来抓取网页上的CSS、Javascript代码的蜘蛛UA,通常被俗称为高级爬虫。
常见百度旗下同类型蜘蛛还有这些:
网页搜索 Baiduspider
无线搜索 Baiduspider
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
竞价蜘蛛 Baiduspider-sfkr
2、谷歌蜘蛛:Googlebot
3、360蜘蛛:360Spider
4、SOSO蜘蛛:Sosospider
5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!
名称中带“Slurp”和空格,名称有空格robots里名称可以使用“Slurp”或者“Yahoo”单词描述
6、有道蜘蛛:YoudaoBot,YodaoBot
两个名字都有,中文拼音少了个U字母
7、搜狗蜘蛛:Sogou News Spider
搜狗蜘蛛还包括如下这些产品:
Sogou web spider
Sogou inst spider
Sogou spider2
Sogou blog
Sogou News Spider
Sogou Orion spider
8、MSN蜘蛛:msnbot,msnbot-media
9、必应蜘蛛:bingbot
10、一搜蜘蛛:YisouSpider
11、Alexa蜘蛛:ia_archiver
12、宜sou蜘蛛:EasouSpider
13、即刻蜘蛛:JikeSpider
根据上述蜘蛛中选择几个常用的允许抓取,其余的都可以通过robots屏蔽抓取,这样可以缓解服务器压力。
另外还发现了如 YandexBot、AhrefsBot和ezooms.bot这些蜘蛛,据说这些都是进口蜘蛛,对中文网站用处很小。那不如就节省资源吧。
参考一些网站的robots文件,也可以获取搜索引擎的名称,
比如百度的robots.txt ,http://www.baidu.com/robots.txt