这种防采集的网站怎么办？

庚辛发表于 2009-5-30 00:57:02

当很高兴写好采集规则的时候，
才发现有时候能采集，有时候读不了二级页面的地址。
http://www.zikao365.com/web/bjcj_njjl/more.asp?page=3

这个网站估计是防止采集的。
只能采集第一列表页的内容。

版主帮忙想想办法啊，有时候连内容页的网址都读不出来。

写规则的时候有时候很正常的啊

rq204 发表于 2009-5-30 09:43:03

有时候采不了,你可以试着采慢一些.

庚辛发表于 2009-5-30 16:44:52

a href="/html/2005\7\wa472157535851750023477.html" target=_blank>

有道理，可能是这样，但为什么呢，

这是采集到的地址

www.zikao365.com/html/2005\7\wa472157535851750023477.html

这是把采集到的地址放到地址栏中自动变化成下面这个地址

http://www.zikao365.com/html/2005/7/wa472157535851750023477.html

说明他采用的防采集办法是通过URL来设置，
这里搜索到一个文章，版主帮忙想想办法啊？
http://bbs.foosun.net/showtopic-12495-2.html
我看不懂

庚辛发表于 2009-5-30 16:45:32

最难的是读不出网址。

kjmdiba 发表于 2009-5-31 13:51:42

<li>·<a href="/new/2_17__/2009_4_1_li95180437114900215480.shtml">09年自考管理系统中计算机应用简答</a><span></span></li>
<li>·<a href="/new/2_17__/2009_4_1_li73014450711490029936.shtml">09年自考管理系统中计算机应用名词解释</a><span></span></li>

网址都很正常啊.

zhouchanglin 发表于 2009-5-31 15:19:54

要用到多页中的正则，希望高手能写下正则，想学习一下正则是怎么回事，希望高手能写下正则

学而时习之 发表于 2009-5-31 20:59:42

采集到的地址正确可读。
另外，你可以测试第二页的地址，将序号改为第一页，应能解决。

页: [1]

火车采集器软件交流官方论坛's Archiver

这种防采集的网站怎么办？