|
楼主 |
发表于 2011-7-10 12:40:33
|
显示全部楼层
本帖最后由 happydescant 于 2011-7-10 15:28 编辑
如果按照下面这样做可以吗?外部程序能让火车头开始采集吗? 有人能做一个这样通用的软件吗?
设置字段 地址 上次总页数 总页数 完成
假定要运行的任务为“任务A”
1 从“地址”中读取一条地址,“完成”标记=未执行
2 数据库Config,表job,jobname=“任务A”,PostPapeEnd=1,
3 运行任务
4 等待任务停止
5 查看数据库SpiderResult,content表,总页数字段(下面实际举例)
6 记录总页数=78,上次总页数为空,所以本次采集所有页面,PostPapeEnd=78,上次总页数也记录为78
7 执行 3
8 第二遍,若总页数为78,上次总页数也为78,则执行 1 ,
9 如果总页数=78,上次总页数=77,则PostPapeEnd=差值+1=2,执行3 |
|