火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3259|回复: 3

登录问题和不采集重复内容的问题

[复制链接]
发表于 2010-8-26 11:20:47 | 显示全部楼层 |阅读模式
大家好,我刚接触火车头不久,感觉火车头还是很强大的,希望火车头可以成为数据采集方面的num1。
我现在有3个问题不太明天想请教下大家
1、我要采集数据的网页需要先登录才能进去,火车头带这个功能读到cookie后可以采集,但我是要一天12小时不间断采集,这样能不能保证一直可以采集到数据。
2、我需要采集数据的那个网页时分页的,但是内容是不断更新的,第一页会不断的出现新数据,那么检测网页重复这个是不能解决问题的,我如何才能不采集重复数据?只能到数据库后再操作吗?
3、我仿照一个网站做了一个类似的网站,火车头的旗舰版可以做到完全把那个网站的内容复制到我这边吗?
谢谢大家:)
发表于 2010-8-26 11:44:00 | 显示全部楼层
你好,首先感谢你对火车采集器的大力支持,我们会再接再厉,再创辉煌!
针对你的问题进行解答:
一:cookie值会在一定的时间内失效的,这主要看被采集的网站的设置了。如果发现采集不到数据重新获取下cookie值即可,当然在这之间你可以算下cookie值保存的时间。
二:采集的网页内容有分页,你只需要把规则设置好定时采集就可以获得更新的新数据啊,怎还用担心网址重复的问题呢?
三:火车头的旗舰版可以把你要的数据通过采集发布到你自己的网站上,但是不能保证把被采集网站的全部信息发布到你的网站上,因为这主要看你的网站模板和被采集网站模板的设置了。
 楼主| 发表于 2010-8-26 12:45:48 | 显示全部楼层
谢谢您的回答。
1、可以自动重新获取cookie吗?
2、因为那些信息是在一个时间段内不定时更新的,每次更新量也不定,加入我每次都抓取前10页的内容,这样会采集到上次已经采集到的信息,我是担心这个问题,火车头可以解决这个问题吗?
发表于 2010-8-26 14:21:11 | 显示全部楼层
不用客气。
1、采集器也可以自动获取cookie值,在采集网址的部分有个查看源代码功能,点击网址可以在这里获取。
2、在你事先不知道那些网页的信息要更新的话,你定时采集肯定会抓到重复的信息。这个问题采集器暂时还解决不了的。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

企业微信|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-5-3 18:34

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表