做自然语言处理实验的软妹一枚,求各位大大解答问题~
我需要采集超星文献摘要,然后用火车头采集
网站采集测试没问题,成功爬取了每一个列表页下的25个url地址
然后做单个网页的采集测试也没问题
不知道为什么保存了任务之后运行,采集就无效,具体信息如下:
01/19 17:09:42:任务开始! 01/19 17:09:50:获取到链接[25]个,重复[25]个,URL=http://ss.chaoxing.com/ncs?sw=%E7%BB%86%E8%83%9E&pages=1&strchannel=72&strclassfy=15_7&field=0&originalsw=%E7%BB%86%E8%83%9E&isort=0&x=0_7209 01/19 17:09:52:任务完成!采集到网址数量:0,内容数量:0,总共用时:00:00:09。
不知道为什么获取的是重复的25个,我检查之前的网址采集到的确实是25个不同的摘要地址。。
我的采集间隔设置的是7s,应该不会被判定为过快把。。
求各位大大解答~小女子感激不尽~
|