|
前几天刚开始接触火车,首先感谢麦兜的点醒.采了几十万条内容后.也发现了几个设计不足,现提出,希望火车越办越好
以论坛为例:
http://www.xxxxx.com/thread-htm-fid-72-search--page-1.html
http://www.xxxxx.com/thread-htm-fid-72.html
这两页在论坛中显示的内容都一样.而火车确当成2个页面处理.所以会早成采集目标重复.
第二种情况是,当目标回复超过2页,和上面原理一样.火车也会多处理一个第一页面.造成采集重复
我尝试试用文章页面必须保函:read-htm-tid-(*).html 不保函 -search--page- 情况略有改善,但还是会出现重复
经过分析火车返回信息发现.火车目前逻辑应该是.读取目标地址--获取全部连接--分析连接--比对是否符合保函不保函规则--如果以上符合--那么开始采集--检验是否标题内容为空--如果不是则发布.
这个逻辑是很严谨的,完全可以保证发布的质量. 但是通过返回信息发现,目标内容为空占了绝大多数.点击详细信息进入后可看到为空的连接多为无用的.并非我们需要的内容.那么就可证明.火车的第一步比对是否保函存在问题.对方连接已经不包含我们规定的连接 确还要耗费了大量时间去运算,检验连接.还以论坛为例,论坛一个页面会有上百连接.而火车全要分析.这样无疑耗费了大量CPU及内存.
以另一个采集程序规则为例: 他的方法很简单.通过列举连接格式来判断是否为需要内容
<span class="tpc_title">[标题]</span><br />
这样就保证了内容的锁定及唯一性, 不用浪费大量的时间在检验对方标题内容是否为空上.当然办法还有很多.
在内容排除上,也有同样问题. 即以在排除列表.却无法排除.
最后问一下火车的论坛采集什么时侯出.很感兴趣.希望可参加测试.
[ 本帖最后由 huoyue 于 2007-2-7 16:16 编辑 ] |
|