火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3881|回复: 5

建议增加智能判断

[复制链接]
发表于 2008-3-5 14:03:03 | 显示全部楼层 |阅读模式
我们做采集兼发布的时候,往往都是一条龙进行的。从而如果(因网络原因)采集步骤失败的话,那么发布内容步骤也不能通过;或者只做采集的话,如果入库失败,那么在数据库中就会留下一个空记录。当然有很多折中的办法,如总版写的火车头辅助工具,如直接操作数据库,将-1修改成0。

但这都不是最完美的办法,既然火车头已经采集了大部分内容,那么有没有可能做到更好呢?


一般,我们采集网页时,在分析网页前,火车头是不会处理网页上的图片的,也就死说,在分析入库之前,火车头只采集网页文本,而这个文本多的也不过10-20K,少的也就1-2K,从我做采集的经验来看,采集成功时,所有相目都按预定规则被分析出来;采集失败时,所有相目都没有记录,我至今也没有发现一例只采集和入库一半。

那么OK,也就是说,要成功,该条目所有项目都有值,要失败,该条目所有项目都无值。


目前火车头采取的判断是:当该条目采集(无论是否成功)以后,都会提示,“该条目采集成功,并入库”。实际上有很多未采集成功。

我的建议是增加一个入库后智能判断。增加一个可选相,包含如下内容:
a. {可选框}是否启用智能判断  如不选择,则后两条不可选;如选择,则后两条可选。
b. 认为  **** 项  有(无)值时成功  或为设置的特定值时成功   其中 ****为可选项,或者下拉菜单,值为 采集内容标签 的名称。
c. {单选框}重新采集  {单选框} 删除  {单选框} 不处置 失败的内容

[ 本帖最后由 sushy 于 2008-3-5 14:26 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2008-3-5 16:20:15 | 显示全部楼层
楼主也做程序的吧,界面设计得挺不错的
 楼主| 发表于 2008-3-5 18:09:36 | 显示全部楼层
我只会写些网页代码,这个界面是我用fireword将论坛上的一些符号复制过来的,嘿嘿  ~~~·
发表于 2008-3-5 18:50:42 | 显示全部楼层
标签包含和不包含考虑加入了
 楼主| 发表于 2008-3-5 19:00:24 | 显示全部楼层
其实没有必要先写数据库,然后再读数据库,加以判断。可以在入库之前就判断好某个标签的是否有值。这样同时也可以减少数据库操作。
发表于 2016-2-10 08:54:11 | 显示全部楼层
爪,以后学习下。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 16:50

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表