火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3227|回复: 6

这种防采集的网站怎么办?

[复制链接]
发表于 2009-5-30 00:57:02 | 显示全部楼层 |阅读模式
当很高兴写好采集规则的时候,
     才发现有时候能采集,有时候读不了二级页面的地址。
http://www.zikao365.com/web/bjcj_njjl/more.asp?page=3

这个网站估计是防止采集的。
只能采集第一列表页的内容。

版主帮忙想想办法啊,有时候连内容页的网址都读不出来。

写规则的时候有时候很正常的啊

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2009-5-30 09:43:03 | 显示全部楼层
有时候采不了,你可以试着采慢一些.
 楼主| 发表于 2009-5-30 16:44:52 | 显示全部楼层
a href="/html/2005\7\wa472157535851750023477.html" target=_blank>




有道理,可能是这样,但为什么呢,



这是采集到的地址



www.zikao365.com/html/2005\7\wa472157535851750023477.html



这是把采集到的地址放到地址栏中自动变化成下面这个地址



http://www.zikao365.com/html/2005/7/wa472157535851750023477.html



说明他采用的防采集办法是通过URL来设置,
这里搜索到一个文章,版主帮忙想想办法啊?
http://bbs.foosun.net/showtopic-12495-2.html
我看不懂
 楼主| 发表于 2009-5-30 16:45:32 | 显示全部楼层
最难的是读不出网址。
发表于 2009-5-31 13:51:42 | 显示全部楼层
<li>·<a href="/new/2_17__/2009_4_1_li95180437114900215480.shtml">09年自考管理系统中计算机应用简答</a><span>[2009-4-1]</span></li>
<li>·<a href="/new/2_17__/2009_4_1_li73014450711490029936.shtml">09年自考管理系统中计算机应用名词解释</a><span>[2009-4-1]</span></li>

网址都很正常啊.
发表于 2009-5-31 15:19:54 | 显示全部楼层
要用到多页中的正则,希望高手能写下正则,想学习一下正则是怎么回事,希望高手能写下正则
发表于 2009-5-31 20:59:42 | 显示全部楼层
采集到的地址正确可读。
另外,你可以测试第二页的地址,将序号改为第一页,应能解决。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-20 05:36

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表