关于采集需要登录后查看内容的问题
本帖最后由 yrh 于 2012-7-16 11:04 编辑我采集了一个网站,需要登录后才能查看部分内容,把cookie都设置好了,测试可以采集到,没有问题
但是任务开始后,出现问题了,发现采集了一部分之后,就不能获取登录后查看的内容了,但是所有采集结果里不需登录查看的部分都采集的没问题,只是需要登录查看的部分只是开始几百条记录采集到了,后面的大部分都没有采集到
我猜测是不是cookie过一段时间,就自己失效了?所以导致后面采集失败?还有这个网站同一用户是不能同时登录的,就是我在火车里登录了,就不能再在IE里登录了,如果我在IE里登录一下,火车里就采集不到了又
有高手遇到过这样的问题吗?不知道有没有解决方法? 很多网站的COOKIE是有时效性的。过期了只能重新获取。 这样啊,那就很麻烦了啊,呵呵
不过我发现我采集的结果是这样的,前400条左右是正常的,总共是1W多条记录,但是400之后的中间稀稀拉拉有几条是正常的,但绝大部分是采集不到登录查看的内容的,这又怎么解释? 这样应该是COOKIE采集到400条后就失效了吧。 cookie失效了没有办法有从新登录 为嘛不能重新登陆呢?cookie失效了,重新登陆就行了吧。
页:
[1]