采集文献摘要，单网页成功，多网页采集失败？

fangpapa · 发表于 2017-1-19 17:24:00

做自然语言处理实验的软妹一枚，求各位大大解答问题～
我需要采集超星文献摘要，然后用火车头采集
网站采集测试没问题，成功爬取了每一个列表页下的25个url地址
然后做单个网页的采集测试也没问题
不知道为什么保存了任务之后运行，采集就无效，具体信息如下：

01/19 17:09:42:任务开始！

01/19 17:09:49:开始请求 http://ss.chaoxing.com/ncs?sw=%E ... sort=0&x=0_7209

01/19 17:09:50:获取到链接[25]个,重复[25]个,URL=http://ss.chaoxing.com/ncs?sw=%E7%BB%86%E8%83%9E&pages=1&strchannel=72&strclassfy=15_7&field=0&originalsw=%E7%BB%86%E8%83%9E&isort=0&x=0_7209

01/19 17:09:52:任务完成！采集到网址数量：0，内容数量：0，总共用时：00:00:09。

不知道为什么获取的是重复的25个，我检查之前的网址采集到的确实是25个不同的摘要地址。。
我的采集间隔设置的是7s，应该不会被判定为过快把。。
求各位大大解答～小女子感激不尽～

leweizxl · 发表于 2017-1-20 09:12:00

已经运行获取过了本地已经有网址了需要重新获取需要先清空网址

帐号		自动登录	找回密码
密码			加入会员