火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2897|回复: 2

一级网址重复采集也读取其下二级网址

[复制链接]
发表于 2012-7-22 15:55:39 | 显示全部楼层 |阅读模式
第一、现在火车能采集多级网址,但是当上级网址重复的时候,他就不会去探测下级网址直接跳过了
这样就有一个问题,两级列表采集,当一级网址重复的时候,二级新增的内容就采集不到了
建议允许按需求设置是否在上级网址重复的情况下依旧读取下级网址
比如电视剧,电视剧一个列表,其下剧集又是一个列表,并且在不断更新
现在的情况是第一次采集能采集到已有的剧集,但是第二次采集的时候,因为电视剧URL重复,火车就不进下级去获取该电视剧新更新的剧集了,同样,小说采集也是这个情况

第二、现在能实现边采集边发布,但是这个时候数据不存库,就意味着不能通过火车带着数据跑了,用一次就要采集一次
最好是允许边采集边发布,同时数据入库备份采集数据方便某些特殊情况下的二次发布
发表于 2012-7-30 16:19:54 | 显示全部楼层
1.采集器采网址时对重复的检测是检查内容页网址,并不存在检查多页网址的功能,因此您的这种更新式采集功能不能支持。
2.现在的同时采集并发布时,数据是不保存的,只保存记录是否采集完成。该功能的初衷也是为了减少数据库的操作,而您现在的要求正和其相反,所以暂时也不会支持。
发表于 2016-2-10 18:39:22 | 显示全部楼层
爪,以后学习下。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-8-22 05:12

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表