火车采集的几个BUG

huoyue · 发表于 2007-2-7 16:12:37

前几天刚开始接触火车,首先感谢麦兜的点醒.采了几十万条内容后.也发现了几个设计不足,现提出,希望火车越办越好

以论坛为例:

http://www.xxxxx.com/thread-htm-fid-72-search--page-1.html

http://www.xxxxx.com/thread-htm-fid-72.html

这两页在论坛中显示的内容都一样.而火车确当成2个页面处理.所以会早成采集目标重复.

第二种情况是,当目标回复超过2页,和上面原理一样.火车也会多处理一个第一页面.造成采集重复

我尝试试用文章页面必须保函:read-htm-tid-(*).html 不保函 -search--page- 情况略有改善,但还是会出现重复

经过分析火车返回信息发现.火车目前逻辑应该是.读取目标地址--获取全部连接--分析连接--比对是否符合保函不保函规则--如果以上符合--那么开始采集--检验是否标题内容为空--如果不是则发布.

这个逻辑是很严谨的,完全可以保证发布的质量. 但是通过返回信息发现,目标内容为空占了绝大多数.点击详细信息进入后可看到为空的连接多为无用的.并非我们需要的内容.那么就可证明.火车的第一步比对是否保函存在问题.对方连接已经不包含我们规定的连接确还要耗费了大量时间去运算,检验连接.还以论坛为例,论坛一个页面会有上百连接.而火车全要分析.这样无疑耗费了大量CPU及内存.

以另一个采集程序规则为例: 他的方法很简单.通过列举连接格式来判断是否为需要内容
<span class="tpc_title">[标题]</span><br />

这样就保证了内容的锁定及唯一性, 不用浪费大量的时间在检验对方标题内容是否为空上.当然办法还有很多.

在内容排除上,也有同样问题. 即以在排除列表.却无法排除.

最后问一下火车的论坛采集什么时侯出.很感兴趣.希望可参加测试.

[ 本帖最后由 huoyue 于 2007-2-7 16:16 编辑 ]

xyyfx · 发表于 2007-2-7 19:59:59

不用重复采集，你在规则里可以做出来，只采集一个就好了！PW和DZ的规则我都给客户写过的，保证可以只采一次！！

netdream · 发表于 2007-2-7 20:44:20

规则没做好，搜下论坛，以前有人问过的，已回复过怎么排除了

xyyfx · 发表于 2007-2-7 21:16:38

rq204 · 发表于 2007-2-8 15:26:21

就是呀，规则问题

帐号		自动登录	找回密码
密码			加入会员

火车采集的几个BUG

浏览过的版块