这种防采集的网站怎么办?
当很高兴写好采集规则的时候,才发现有时候能采集,有时候读不了二级页面的地址。
http://www.zikao365.com/web/bjcj_njjl/more.asp?page=3
这个网站估计是防止采集的。
只能采集第一列表页的内容。
版主帮忙想想办法啊,有时候连内容页的网址都读不出来。
写规则的时候有时候很正常的啊
有时候采不了,你可以试着采慢一些. a href="/html/2005\7\wa472157535851750023477.html" target=_blank>
有道理,可能是这样,但为什么呢,
这是采集到的地址
www.zikao365.com/html/2005\7\wa472157535851750023477.html
这是把采集到的地址放到地址栏中自动变化成下面这个地址
http://www.zikao365.com/html/2005/7/wa472157535851750023477.html
说明他采用的防采集办法是通过URL来设置,
这里搜索到一个文章,版主帮忙想想办法啊?
http://bbs.foosun.net/showtopic-12495-2.html
我看不懂 最难的是读不出网址。 <li>·<a href="/new/2_17__/2009_4_1_li95180437114900215480.shtml">09年自考管理系统中计算机应用简答</a><span></span></li>
<li>·<a href="/new/2_17__/2009_4_1_li73014450711490029936.shtml">09年自考管理系统中计算机应用名词解释</a><span></span></li>
网址都很正常啊. 要用到多页中的正则,希望高手能写下正则,想学习一下正则是怎么回事,希望高手能写下正则 采集到的地址正确可读。
另外,你可以测试第二页的地址,将序号改为第一页,应能解决。
页:
[1]