火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2754|回复: 5

采集时遇到的问题

[复制链接]
发表于 2011-7-11 13:41:19 | 显示全部楼层 |阅读模式
采集地址100条,采集内容采集了50条,另外50条要换个规则,改了规则,再采集内容,1条也采集不到,这是为什么?

采集过程是不是这样的:
第一步:采集了100条地址,数据库里标识应该是未采集内容
第二步:采集内容50条,数据库里应该是50条标识为采集,另50条为未采集;
第三步:修改内容采集规则,再把剩下的50条内容也采集到数据库里

难道不是这样的吗?
发表于 2011-7-11 19:48:49 | 显示全部楼层
因为你采了站点地址库有地址了.地址一重复就采不了了.
 楼主| 发表于 2011-7-12 08:27:12 | 显示全部楼层
照你说的,地址已经有了,那我也是直接采集内容的呀,第一步采集了50条内容(对应50条地址),那还有50条地址的内容应该是未采集状态吧,那我第2次再采集那些未采集的内容,操作错了?

通常采集几千条信息以上的,规则肯定要变过的,因为被采集的网站也在改版的呀,采集标签什么的肯定要换一下的

我是这么理解的,比如先采集10000条URL,再采集内容,第一次如果采集到2000条内容,那么查看没有采集到的URL,修改内容采集规则,再从8000条里采集,依次来推,把所有URL的内容采集完,如果火车不是这样的,那我希望有这样的功能
 楼主| 发表于 2011-7-12 08:38:42 | 显示全部楼层
刚试了一下,的确火车把不符合内容采集规则的记录删除了,其实火车只要再增加一个内容采集的字段就可以,比如,URL采集好时,内容采集字段标识为0,该条URL内容采集成功,标识为1,不成功或未采集仍为0,这样也不影响入库,入库只要判断内容采集为1的好了
发表于 2011-7-12 09:13:40 | 显示全部楼层
采集规则 也还是要先看看网站每个页面的源码 ,有些网站 对于不同的会员 所指向的路径也不一样
必有有些是普通内容,有些是vip内容,这些可能都存在的 ,所以 你根据需要 采集就可以,做到100%采集到,难度还是比较大  呵呵个人观点,仅供参考。
发表于 2011-7-12 16:05:50 | 显示全部楼层
新人。。多看看。。支持下~~
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-12 23:31

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表