火车采集器V2008版更新[2008-08-08][火车车厢管理制度]论坛活跃、奖励计划http://domain.locoy.com火车采集器高级版本在线订购高级版本功能及技术支持列表
返回列表 回复 发帖

建议增加智能判断

我们做采集兼发布的时候,往往都是一条龙进行的。从而如果(因网络原因)采集步骤失败的话,那么发布内容步骤也不能通过;或者只做采集的话,如果入库失败,那么在数据库中就会留下一个空记录。当然有很多折中的办法,如总版写的火车头辅助工具,如直接操作数据库,将-1修改成0。

但这都不是最完美的办法,既然火车头已经采集了大部分内容,那么有没有可能做到更好呢?


一般,我们采集网页时,在分析网页前,火车头是不会处理网页上的图片的,也就死说,在分析入库之前,火车头只采集网页文本,而这个文本多的也不过10-20K,少的也就1-2K,从我做采集的经验来看,采集成功时,所有相目都按预定规则被分析出来;采集失败时,所有相目都没有记录,我至今也没有发现一例只采集和入库一半。

那么OK,也就是说,要成功,该条目所有项目都有值,要失败,该条目所有项目都无值。


目前火车头采取的判断是:当该条目采集(无论是否成功)以后,都会提示,“该条目采集成功,并入库”。实际上有很多未采集成功。

我的建议是增加一个入库后智能判断。增加一个可选相,包含如下内容:
a. {可选框}是否启用智能判断  如不选择,则后两条不可选;如选择,则后两条可选。
b. 认为  **** 项  有(无)值时成功  或为设置的特定值时成功   其中 ****为可选项,或者下拉菜单,值为 采集内容标签 的名称。
c. {单选框}重新采集  {单选框} 删除  {单选框} 不处置 失败的内容
[ 本帖最后由 sushy 于 2008-3-5 14:26 编辑 ]
附件: 您所在的用户组无法下载或查看附件
楼主也做程序的吧,界面设计得挺不错的
我只会写些网页代码,这个界面是我用fireword将论坛上的一些符号复制过来的,嘿嘿  ~~~·
标签包含和不包含考虑加入了
其实没有必要先写数据库,然后再读数据库,加以判断。可以在入库之前就判断好某个标签的是否有值。这样同时也可以减少数据库操作。
返回列表
售前客服QQ: 火车采集器客服 rq204, 火车采集器客服 飞越无限火车采集器客服 孤魂火车采集器客服 尘缘, 联系电话:0551-3495249(技术合作问题) 023-58436018 (08:00-20:00-客服),0752-2553545(09:00-20:00-客服)