ilgouli 发表于 2012-9-2 01:54:10

请问怎么对连接超时的页面重新抓取

我现在用的是校园网,经常掉线,然后采集器连接不到网站,就会给出操作超时的提示。我想对这些因为网络连接断开而没有成功抓取的网址进行重新采集,请问有什么方法可以实现吗?
另外,这些网址会不会存进数据库,然后标记为“未采”吗?

谢谢~{:soso_e100:}

303718 发表于 2012-9-2 07:56:30

重新采集一次就行了呢。火车头会自动排除重复的

ilgouli 发表于 2012-9-2 10:03:39

303718 发表于 2012-9-2 07:56 static/image/common/back.gif
重新采集一次就行了呢。火车头会自动排除重复的

但是这样还不是要对所有网页都重新下载一遍,跟完全重新开始新任务一样花这么多时间
页: [1]
查看完整版本: 请问怎么对连接超时的页面重新抓取