不想写code 发表于 2012-4-3 09:10:55

求助:如何重复运行任务

各位高人,我遇到了屏蔽ip的情况,希望通过重复运行任务来解决,可是任务似乎不能重复运行?恳请帮助,非常感谢。

问题描述:我的目标网站会屏蔽我的ip,如果一次性采集的页面过多。屏蔽之后,采集器只能采集空网页,当然就采不到内容了。我每次都是发现被屏蔽,暂停任务,修改ip,连网,再继续执行任务。可是从发现被屏蔽,到暂停任务,需要一些时间,每次等我发现的时候,好多页面都已经错过了。所以最后我得到的数据库,有全部的网址,却只有断断续续的内容。

我想通过再运行一次任务来补全那些漏掉的内容,可是我点”运行任务“的时候,火车采集器说“0级第0分页网址重复,共有0记录需要采集”。大概是因为数据库里面,网址已经存在了吧~

有没有办法使得采集器检测内容是否存在,若不存在则再次抓取呢?

提前说一声非常感谢~~

不想写code 发表于 2012-4-3 10:15:14

本帖最后由 不想写code 于 2012-4-3 10:17 编辑

木有人回啊,是因为我描述的太复杂了么?那换个说法:
如果上一次执行任务不彻底,采网址成功了,采内容却失败了。我不想删除数据库完全重头来,应该怎么办?

多谢~~

paul89114 发表于 2012-4-8 01:09:04

绑定,这两个问题我也想问~
页: [1]
查看完整版本: 求助:如何重复运行任务