采集器的几个问题请教大家(急,急,急)
版本:火车采集器V3.2正式版SP5描述:采集单个站点,单个任务,一次采集多个连续网址上的几个文本内容(0级深度),网址是有规律的,所以用通配符*设置,采集内容保存在系统自动生成的本地access数据库,不需要发布内容。
问题:1。好像必须先采集网址,全部网址都采集完之后才开始采集内容。请问,能不能采集一个网址,然后采集该网址的内容,然后采集下一条网址,再采集该网址内容,再下一条网址,内容。。。。。直到全部采集完。
2。网址设为3000左右(都为0级深度),可以正常运行,设为4000或以上,反应速度急剧下降。请问:如果想一次性采集几万条,要怎么办?
3。采集内容的线程设置过多或时间间隔设置过短,会被网站限制甚至封锁吗?应该怎么样才能既不让网站封锁又可以让速度尽量快??
4。该站点大部分时候很稳定,但有时会有短暂的访问缓慢,如果刚好遇到访问缓慢的时候,采集器会等采集完当前网址的内容再继续下一个,还是当前网址采集内容为空?就是说不管站点速度快慢,不管是否采集到内容,采集器都按照设定的时间间隔采集内容??能不能确保采集到内容之后才往下采集?(假定网址全部有效)
请大家指教,谢谢,谢谢!期待。。。。。。。 这种方法倒没试过,一般是先列表,再内容. 我不知道楼主要采完一个网址然后采内容,再接着采网址,再采内容这样有什么用,其实不管你是采网址后还是采内容后,你要的始终是内容,对吧.所以你说的那种根本是多余的,你所说的采集速度问题,你把线程设置成默认,最好是深夜采. 能不能确保采集到内容之后才往下采集?(假定网址全部有效)
去全局设置里设置标题为空,和内容就空 谢谢上面的两位兄弟。继续期待其他人的指教! 还有那么多高手呢??? 这些好像是根据你的PC 和 网速决定的
看了半天也没看明白你有什么问题
至于被目标网站封,99%不会,应该99%的网管不喜欢分析日志,剩下的那1%对于非法访问比较关注,采集一般没人管 孤单成就优秀了,呵呵,,,阿Q在线来了, 1。不能
2。分成几个任务进行
3。一般不会,具体请多测试.
4。请看系统全局设置,里边有重试次数. 原帖由 rq204 于 2008-3-16 21:25 发表 http://bbs.locoy.com/images/common/back.gif
1。不能
2。分成几个任务进行
3。一般不会,具体请多测试.
4。请看系统全局设置,里边有重试次数.
谢谢管理员的热心解答,全部明白了。期待能出可以采集需要登录的phpwind 6.0的采集器。
页:
[1]