roy 发表于 2010-8-26 11:20:47

登录问题和不采集重复内容的问题

大家好,我刚接触火车头不久,感觉火车头还是很强大的,希望火车头可以成为数据采集方面的num1。
我现在有3个问题不太明天想请教下大家
1、我要采集数据的网页需要先登录才能进去,火车头带这个功能读到cookie后可以采集,但我是要一天12小时不间断采集,这样能不能保证一直可以采集到数据。
2、我需要采集数据的那个网页时分页的,但是内容是不断更新的,第一页会不断的出现新数据,那么检测网页重复这个是不能解决问题的,我如何才能不采集重复数据?只能到数据库后再操作吗?
3、我仿照一个网站做了一个类似的网站,火车头的旗舰版可以做到完全把那个网站的内容复制到我这边吗?
谢谢大家:)

lxy2010 发表于 2010-8-26 11:44:00

你好,首先感谢你对火车采集器的大力支持,我们会再接再厉,再创辉煌!
针对你的问题进行解答:
一:cookie值会在一定的时间内失效的,这主要看被采集的网站的设置了。如果发现采集不到数据重新获取下cookie值即可,当然在这之间你可以算下cookie值保存的时间。
二:采集的网页内容有分页,你只需要把规则设置好定时采集就可以获得更新的新数据啊,怎还用担心网址重复的问题呢?
三:火车头的旗舰版可以把你要的数据通过采集发布到你自己的网站上,但是不能保证把被采集网站的全部信息发布到你的网站上,因为这主要看你的网站模板和被采集网站模板的设置了。

roy 发表于 2010-8-26 12:45:48

谢谢您的回答。
1、可以自动重新获取cookie吗?
2、因为那些信息是在一个时间段内不定时更新的,每次更新量也不定,加入我每次都抓取前10页的内容,这样会采集到上次已经采集到的信息,我是担心这个问题,火车头可以解决这个问题吗?

lxy2010 发表于 2010-8-26 14:21:11

不用客气。
1、采集器也可以自动获取cookie值,在采集网址的部分有个查看源代码功能,点击网址可以在这里获取。
2、在你事先不知道那些网页的信息要更新的话,你定时采集肯定会抓到重复的信息。这个问题采集器暂时还解决不了的。
页: [1]
查看完整版本: 登录问题和不采集重复内容的问题