火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4260|回复: 4

火车采集的几个BUG

[复制链接]
发表于 2007-2-7 16:12:37 | 显示全部楼层 |阅读模式
前几天刚开始接触火车,首先感谢麦兜的点醒.采了几十万条内容后.也发现了几个设计不足,现提出,希望火车越办越好

以论坛为例:

http://www.xxxxx.com/thread-htm-fid-72-search--page-1.html



http://www.xxxxx.com/thread-htm-fid-72.html


这两页在论坛中显示的内容都一样.而火车确当成2个页面处理.所以会早成采集目标重复.

第二种情况是,当目标回复超过2页,和上面原理一样.火车也会多处理一个第一页面.造成采集重复


我尝试试用文章页面必须保函:read-htm-tid-(*).html  不保函 -search--page-  情况略有改善,但还是会出现重复

经过分析火车返回信息发现.火车目前逻辑应该是.读取目标地址--获取全部连接--分析连接--比对是否符合保函不保函规则--如果以上符合--那么开始采集--检验是否标题内容为空--如果不是则发布.

这个逻辑是很严谨的,完全可以保证发布的质量. 但是通过返回信息发现,目标内容为空占了绝大多数.点击详细信息进入后可看到为空的连接多为无用的.并非我们需要的内容.那么就可证明.火车的第一步比对是否保函存在问题.对方连接已经不包含我们规定的连接 确还要耗费了大量时间去运算,检验连接.还以论坛为例,论坛一个页面会有上百连接.而火车全要分析.这样无疑耗费了大量CPU及内存.

以另一个采集程序规则为例: 他的方法很简单.通过列举连接格式来判断是否为需要内容
<span class="tpc_title">[标题]</span><br />

这样就保证了内容的锁定及唯一性, 不用浪费大量的时间在检验对方标题内容是否为空上.当然办法还有很多.


在内容排除上,也有同样问题. 即以在排除列表.却无法排除.


最后问一下火车的论坛采集什么时侯出.很感兴趣.希望可参加测试.

[ 本帖最后由 huoyue 于 2007-2-7 16:16 编辑 ]
发表于 2007-2-7 19:59:59 | 显示全部楼层
不用重复采集,你在规则里可以做出来,只采集一个就好了!PW和DZ的规则我都给客户写过的,保证可以只采一次!!
发表于 2007-2-7 20:44:20 | 显示全部楼层
规则没做好,搜下论坛,以前有人问过的,已回复过怎么排除了
发表于 2007-2-7 21:16:38 | 显示全部楼层
:)
发表于 2007-2-8 15:26:21 | 显示全部楼层
就是呀,规则问题
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 04:35

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表