|
采集一些多模板的站时遇到的问题,本人对采集条件作了许多限制,采集时会产生大量“采集结果不得为空或条件不符的”内容。
火车头对这些网址没有处理功能,只有一个已采和已发。重新采集时,还会将这些网址重新再踩一遍(pageurl里面有的),浪费时间呀。每次处理几千条不满足条件的网址累人呀,在已踩字段设-1不说还要在已发同时处理。
我觉的应该在加一个字段,踩过一遍的不管成功失败与否,已踩字段均应该变为-1,采集结果不得为空或条件不符的应该新加字段(成功采集否)上有所标注,发布内容对这些自动跳过。
用户处理起来也方便,自己需要重踩的,可以通过查询快速指定。
在线发布也有同样的问题,由于敏感词汇或者没有得到成功标记(其实已经发布)导致发布不成功,以后每次发布系统还要再发一边,也很烦人。建议在此方面做做改进,宁可错杀一万不可放过一个的规则,对火车头来说严重影响效率。失败就放弃吧,文章千千万,何必那么执著呢 |
|