sushy 发表于 2008-3-5 14:03:03

建议增加智能判断

我们做采集兼发布的时候,往往都是一条龙进行的。从而如果(因网络原因)采集步骤失败的话,那么发布内容步骤也不能通过;或者只做采集的话,如果入库失败,那么在数据库中就会留下一个空记录。当然有很多折中的办法,如总版写的火车头辅助工具,如直接操作数据库,将-1修改成0。

但这都不是最完美的办法,既然火车头已经采集了大部分内容,那么有没有可能做到更好呢?


一般,我们采集网页时,在分析网页前,火车头是不会处理网页上的图片的,也就死说,在分析入库之前,火车头只采集网页文本,而这个文本多的也不过10-20K,少的也就1-2K,从我做采集的经验来看,采集成功时,所有相目都按预定规则被分析出来;采集失败时,所有相目都没有记录,我至今也没有发现一例只采集和入库一半。

那么OK,也就是说,要成功,该条目所有项目都有值,要失败,该条目所有项目都无值。


目前火车头采取的判断是:当该条目采集(无论是否成功)以后,都会提示,“该条目采集成功,并入库”。实际上有很多未采集成功。

我的建议是增加一个入库后智能判断。增加一个可选相,包含如下内容:

a. {可选框}是否启用智能判断如不选择,则后两条不可选;如选择,则后两条可选。
b. 认为**** 项有(无)值时成功或为设置的特定值时成功   其中 ****为可选项,或者下拉菜单,值为 采集内容标签 的名称。
c. {单选框}重新采集{单选框} 删除{单选框} 不处置 失败的内容






[ 本帖最后由 sushy 于 2008-3-5 14:26 编辑 ]

rq204 发表于 2008-3-5 16:20:15

楼主也做程序的吧,界面设计得挺不错的

sushy 发表于 2008-3-5 18:09:36

我只会写些网页代码,这个界面是我用fireword将论坛上的一些符号复制过来的,嘿嘿~~~·

火车头 发表于 2008-3-5 18:50:42

标签包含和不包含考虑加入了

sushy 发表于 2008-3-5 19:00:24

其实没有必要先写数据库,然后再读数据库,加以判断。可以在入库之前就判断好某个标签的是否有值。这样同时也可以减少数据库操作。

lbjyuer 发表于 2016-2-10 08:54:11

爪,以后学习下。。
页: [1]
查看完整版本: 建议增加智能判断