大众点评网能防止火车?
在浏览器查看源代码都是正常的,一进到火车里,采集就变成了404页面了。http://www.dianping.com/shop/507742
<html><head><meta http-equiv="content-type" c><title>dianping.com</title><meta name="robots" c /></head><body>大众点评网(<a href="http://www.dianping.com">http://www.dianping.com</a>)<br />Response 404.</body></html> 那还有办法搞定么? 注册的问题~只要登陆就可以了 .........
不要乱说.
前些天我还采了点评网. 我昨夜还能采集,今天就不行了,然后我把规则发给一个朋友,他能采集,我想可能我被封了。
然后我又把规则发给另一个朋友,他也不行,把我搞乱套了,唉
回复 6楼 的帖子
发个给我试试。。 估计是被封IP或者其它的。不可能的
我们一直用的,只要先登录一次就好啦 上面的都说的不对。如果爬虫爬的频繁,点评网会禁止掉爬虫的IP。
这是终极的防采策略,甚至会屏蔽到真正的搜索引擎。
但是如果能搞定这个采集,就相当于给搜索引擎面前增加了自己的原创内容(因为原出处搜索引擎访问不到),超级无敌。目前的火车是没办法解决的,我通过第三方软件和火车头结合找到一套解决方案,但是效率不高,还在研究中。。。 终极办法就是 火车中可以循环使用代理服务器。 目前火车只支持单个代理服务器,不支持多代理循环使用,不然的话,设置成 下载一页,换一个代理,这个网再怎么牛,也不能屏蔽的
页:
[1]
2