|
  
- UID
- 73621
- 帖子
- 805
- 活跃度
- 1935 点
- 火车车厢
- 456 节
- 注册时间
- 2007-11-9
|
1楼
发表于 2008-3-5 14:03
| 只看该作者
建议增加智能判断
我们做采集兼发布的时候,往往都是一条龙进行的。从而如果(因网络原因)采集步骤失败的话,那么发布内容步骤也不能通过;或者只做采集的话,如果入库失败,那么在数据库中就会留下一个空记录。当然有很多折中的办法,如总版写的火车头辅助工具,如直接操作数据库,将-1修改成0。
但这都不是最完美的办法,既然火车头已经采集了大部分内容,那么有没有可能做到更好呢?
一般,我们采集网页时,在分析网页前,火车头是不会处理网页上的图片的,也就死说,在分析入库之前,火车头只采集网页文本,而这个文本多的也不过10-20K,少的也就1-2K,从我做采集的经验来看,采集成功时,所有相目都按预定规则被分析出来;采集失败时,所有相目都没有记录,我至今也没有发现一例只采集和入库一半。
那么OK,也就是说,要成功,该条目所有项目都有值,要失败,该条目所有项目都无值。
目前火车头采取的判断是:当该条目采集(无论是否成功)以后,都会提示,“该条目采集成功,并入库”。实际上有很多未采集成功。
我的建议是增加一个入库后智能判断。增加一个可选相,包含如下内容:a. {可选框}是否启用智能判断 如不选择,则后两条不可选;如选择,则后两条可选。
b. 认为 **** 项 有(无)值时成功 或为设置的特定值时成功 其中 ****为可选项,或者下拉菜单,值为 采集内容标签 的名称。
c. {单选框}重新采集 {单选框} 删除 {单选框} 不处置 失败的内容 [ 本帖最后由 sushy 于 2008-3-5 14:26 编辑 ] |
附件: 您所在的用户组无法下载或查看附件
|