火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3998|回复: 6

火车要提速,采集地址有待加强

[复制链接]
发表于 2009-6-25 14:37:30 | 显示全部楼层 |阅读模式
采集一些多模板的站时遇到的问题,本人对采集条件作了许多限制,采集时会产生大量“采集结果不得为空或条件不符的”内容。
火车头对这些网址没有处理功能,只有一个已采和已发。重新采集时,还会将这些网址重新再踩一遍(pageurl里面有的),浪费时间呀。每次处理几千条不满足条件的网址累人呀,在已踩字段设-1不说还要在已发同时处理。

我觉的应该在加一个字段,踩过一遍的不管成功失败与否,已踩字段均应该变为-1,采集结果不得为空或条件不符的应该新加字段(成功采集否)上有所标注,发布内容对这些自动跳过。

用户处理起来也方便,自己需要重踩的,可以通过查询快速指定。

在线发布也有同样的问题,由于敏感词汇或者没有得到成功标记(其实已经发布)导致发布不成功,以后每次发布系统还要再发一边,也很烦人。建议在此方面做做改进,宁可错杀一万不可放过一个的规则,对火车头来说严重影响效率。失败就放弃吧,文章千千万,何必那么执著呢
发表于 2009-6-25 15:57:30 | 显示全部楼层
LZ是个看得开的人!
发表于 2009-6-25 16:04:49 | 显示全部楼层
你采发一次不就得了,失败或成功,以后不再动它,效果和你说的没什么两样.
 楼主| 发表于 2009-7-30 16:37:24 | 显示全部楼层
你采发一次不就得了,失败或成功,以后不再动它,效果和你说的没什么两样.
rq204 发表于 2009-6-25 16:04

当然不一样,影响效率,每次采集火车都要把那堆内容不符合条件的网址再踩一边。我要人工将他们标为已采已发后,火车头才不去管它。

不信管理员试试看,随便踩个站,标签指定必须包含“我爱版主”等内容,失败后。再踩一次看看,后车头还要把那些失败的网址采一遍,当然结果还是失败
发表于 2009-12-28 22:10:08 | 显示全部楼层
将失改的改成成功不就OK了,自己去数据据里批量改咯
发表于 2009-12-29 11:51:01 | 显示全部楼层
又是只回答一次....
发表于 2016-2-9 01:39:38 | 显示全部楼层
和你们一块学习。。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 20:53

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表