火车要提速,采集地址有待加强
采集一些多模板的站时遇到的问题,本人对采集条件作了许多限制,采集时会产生大量“采集结果不得为空或条件不符的”内容。火车头对这些网址没有处理功能,只有一个已采和已发。重新采集时,还会将这些网址重新再踩一遍(pageurl里面有的),浪费时间呀。每次处理几千条不满足条件的网址累人呀,在已踩字段设-1不说还要在已发同时处理。
我觉的应该在加一个字段,踩过一遍的不管成功失败与否,已踩字段均应该变为-1,采集结果不得为空或条件不符的应该新加字段(成功采集否)上有所标注,发布内容对这些自动跳过。
用户处理起来也方便,自己需要重踩的,可以通过查询快速指定。
在线发布也有同样的问题,由于敏感词汇或者没有得到成功标记(其实已经发布)导致发布不成功,以后每次发布系统还要再发一边,也很烦人。建议在此方面做做改进,宁可错杀一万不可放过一个的规则,对火车头来说严重影响效率。失败就放弃吧,文章千千万,何必那么执著呢 LZ是个看得开的人! 你采发一次不就得了,失败或成功,以后不再动它,效果和你说的没什么两样. 你采发一次不就得了,失败或成功,以后不再动它,效果和你说的没什么两样.
rq204 发表于 2009-6-25 16:04 http://bbs.locoy.com/images/common/back.gif
当然不一样,影响效率,每次采集火车都要把那堆内容不符合条件的网址再踩一边。我要人工将他们标为已采已发后,火车头才不去管它。
不信管理员试试看,随便踩个站,标签指定必须包含“我爱版主”等内容,失败后。再踩一次看看,后车头还要把那些失败的网址采一遍,当然结果还是失败 将失改的改成成功不就OK了,自己去数据据里批量改咯 又是只回答一次.... 和你们一块学习。。。
页:
[1]