建议增加智能判断
我们做采集兼发布的时候,往往都是一条龙进行的。从而如果(因网络原因)采集步骤失败的话,那么发布内容步骤也不能通过;或者只做采集的话,如果入库失败,那么在数据库中就会留下一个空记录。当然有很多折中的办法,如总版写的火车头辅助工具,如直接操作数据库,将-1修改成0。但这都不是最完美的办法,既然火车头已经采集了大部分内容,那么有没有可能做到更好呢?
一般,我们采集网页时,在分析网页前,火车头是不会处理网页上的图片的,也就死说,在分析入库之前,火车头只采集网页文本,而这个文本多的也不过10-20K,少的也就1-2K,从我做采集的经验来看,采集成功时,所有相目都按预定规则被分析出来;采集失败时,所有相目都没有记录,我至今也没有发现一例只采集和入库一半。
那么OK,也就是说,要成功,该条目所有项目都有值,要失败,该条目所有项目都无值。
目前火车头采取的判断是:当该条目采集(无论是否成功)以后,都会提示,“该条目采集成功,并入库”。实际上有很多未采集成功。
我的建议是增加一个入库后智能判断。增加一个可选相,包含如下内容:
a. {可选框}是否启用智能判断如不选择,则后两条不可选;如选择,则后两条可选。
b. 认为**** 项有(无)值时成功或为设置的特定值时成功 其中 ****为可选项,或者下拉菜单,值为 采集内容标签 的名称。
c. {单选框}重新采集{单选框} 删除{单选框} 不处置 失败的内容
[ 本帖最后由 sushy 于 2008-3-5 14:26 编辑 ] 楼主也做程序的吧,界面设计得挺不错的 我只会写些网页代码,这个界面是我用fireword将论坛上的一些符号复制过来的,嘿嘿~~~· 标签包含和不包含考虑加入了 其实没有必要先写数据库,然后再读数据库,加以判断。可以在入库之前就判断好某个标签的是否有值。这样同时也可以减少数据库操作。 爪,以后学习下。。
页:
[1]