庚辛 发表于 2009-5-30 00:57:02

这种防采集的网站怎么办?

当很高兴写好采集规则的时候,
   才发现有时候能采集,有时候读不了二级页面的地址。
http://www.zikao365.com/web/bjcj_njjl/more.asp?page=3

这个网站估计是防止采集的。
只能采集第一列表页的内容。

版主帮忙想想办法啊,有时候连内容页的网址都读不出来。

写规则的时候有时候很正常的啊

rq204 发表于 2009-5-30 09:43:03

有时候采不了,你可以试着采慢一些.

庚辛 发表于 2009-5-30 16:44:52

a href="/html/2005\7\wa472157535851750023477.html" target=_blank>




有道理,可能是这样,但为什么呢,



这是采集到的地址



www.zikao365.com/html/2005\7\wa472157535851750023477.html



这是把采集到的地址放到地址栏中自动变化成下面这个地址



http://www.zikao365.com/html/2005/7/wa472157535851750023477.html



说明他采用的防采集办法是通过URL来设置,
这里搜索到一个文章,版主帮忙想想办法啊?
http://bbs.foosun.net/showtopic-12495-2.html
我看不懂

庚辛 发表于 2009-5-30 16:45:32

最难的是读不出网址。

kjmdiba 发表于 2009-5-31 13:51:42

<li>·<a href="/new/2_17__/2009_4_1_li95180437114900215480.shtml">09年自考管理系统中计算机应用简答</a><span></span></li>
<li>·<a href="/new/2_17__/2009_4_1_li73014450711490029936.shtml">09年自考管理系统中计算机应用名词解释</a><span></span></li>

网址都很正常啊.

zhouchanglin 发表于 2009-5-31 15:19:54

要用到多页中的正则,希望高手能写下正则,想学习一下正则是怎么回事,希望高手能写下正则

学而时习之 发表于 2009-5-31 20:59:42

采集到的地址正确可读。
另外,你可以测试第二页的地址,将序号改为第一页,应能解决。
页: [1]
查看完整版本: 这种防采集的网站怎么办?