火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3531|回复: 8

采集器的几个问题请教大家(急,急,急)

[复制链接]
发表于 2008-3-15 13:06:13 | 显示全部楼层 |阅读模式
版本:火车采集器V3.2正式版SP5

描述:采集单个站点,单个任务,一次采集多个连续网址上的几个文本内容(0级深度),网址是有规律的,所以用通配符*设置,采集内容保存在系统自动生成的本地access数据库,不需要发布内容。

问题:1。好像必须先采集网址,全部网址都采集完之后才开始采集内容。请问,能不能采集一个网址,然后采集该网址的内容,然后采集下一条网址,再采集该网址内容,再下一条网址,内容。。。。。直到全部采集完。

2。网址设为3000左右(都为0级深度),可以正常运行,设为4000或以上,反应速度急剧下降。请问:如果想一次性采集几万条,要怎么办?


3。采集内容的线程设置过多或时间间隔设置过短,会被网站限制甚至封锁吗?应该怎么样才能既不让网站封锁又可以让速度尽量快??


4。该站点大部分时候很稳定,但有时会有短暂的访问缓慢,如果刚好遇到访问缓慢的时候,采集器会等采集完当前网址的内容再继续下一个,还是当前网址采集内容为空?就是说不管站点速度快慢,不管是否采集到内容,采集器都按照设定的时间间隔采集内容??能不能确保采集到内容之后才往下采集?(假定网址全部有效)


请大家指教,谢谢,谢谢!期待。。。。。。。
发表于 2008-3-15 13:23:01 | 显示全部楼层
这种方法倒没试过,一般是先列表,再内容.
发表于 2008-3-15 15:58:02 | 显示全部楼层
我不知道楼主要采完一个网址然后采内容,再接着采网址,再采内容这样有什么用,其实不管你是采网址后还是采内容后,你要的始终是内容,对吧.所以你说的那种根本是多余的,你所说的采集速度问题,你把线程设置成默认,最好是深夜采. 能不能确保采集到内容之后才往下采集?(假定网址全部有效)
去全局设置里设置标题为空,和内容就空
 楼主| 发表于 2008-3-15 20:45:26 | 显示全部楼层
谢谢上面的两位兄弟。继续期待其他人的指教!
 楼主| 发表于 2008-3-15 21:42:21 | 显示全部楼层
还有那么多高手呢???
发表于 2008-3-15 21:48:03 | 显示全部楼层
这些好像是根据你的PC 和 网速决定的

看了半天也没看明白你有什么问题

至于被目标网站封,99%不会,应该99%的网管不喜欢分析日志,剩下的那1%对于非法访问比较关注,采集一般没人管
发表于 2008-3-16 00:16:33 | 显示全部楼层
孤单成就优秀了,呵呵,,,阿Q在线来了,
发表于 2008-3-16 21:25:42 | 显示全部楼层
1。不能
2。分成几个任务进行
3。一般不会,具体请多测试.
4。请看系统全局设置,里边有重试次数.
 楼主| 发表于 2008-4-17 10:58:47 | 显示全部楼层
原帖由 rq204 于 2008-3-16 21:25 发表
1。不能
2。分成几个任务进行
3。一般不会,具体请多测试.
4。请看系统全局设置,里边有重试次数.

谢谢管理员的热心解答,全部明白了。期待能出可以采集需要登录的phpwind 6.0的采集器。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-18 21:04

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表