这是你所用电脑或网络的管理者设置的防火墙。重点是防止爬虫翻墙。主要有两个方法解除:
一、在网站管理工作中,robots文件常常是站长容易忽略的地方。如果robots限制生效了,那么,我们应该如何去解除robots限制呢?
1、修改robots限制语句,确认蜘蛛有权限访问网站内部路径,文档改成:
User-agent: *
Allow: /
2、登陆站长平台,手动更新robots文件,也就是通知蜘蛛,“我的robots文件修改啦,赶紧来看看!”
3、等待蜘蛛正式来访;实际上蜘蛛来过以后,得知了robots限制已经解除,但百度服务器很多,并没有那么快全部同步,需要等待一定实际的。
4、后续需要监控spider的访问情况,如果一两个月后还是没有动静,要注意了解还有没有其它地方有robots限制。
以上就是解除robots限制的具体流程。
二、在百度上输入你要打开网页的名称搜索后,
点了解详情进入站长工具,
在Robots工具下面点生成robots.txt 然后再空白处以/开头输入你要打开网页的网址点创建就OK了