一个采集问题
本帖最后由 happydescant 于 2011-7-8 20:22 编辑http://www.anccnet.com/productlist.aspx?f_id=F25F56A9F703ED74C88AA64403D14BE99A38FE6393D043674E6F04046E3A5C66
这是某个我要采集的页面,我要采集里面的每个商品的5项信息。这个已经做好了。
我的问题是,类似这样的要采集的页面有很多,而每个页面都是post方式采集,分页标签要设置不同的页数。
假如我有10万个这样要采集的页面,是不是只能是设置10万个采集页面了? 一般的POST只要弄一个就行了呢.
内容页好像要开什么订阅功能才看得到呢 本帖最后由 happydescant 于 2011-7-8 20:21 编辑
现在的页面就是采集页面,不用打开里面的链接。数据就在这页。这页的采集已经做好了。不要点这个页面的链接,不是我需要的。
http://www.anccnet.com/productlist.aspx?f_id=F25F56A9F703ED74C88AA64403D14BE99A38FE6393D043674E6F04046E3A5C66 要采集78页
http://www.anccnet.com/productlist.aspx?f_id=F25F56A9F703ED74AF2A2FEB85F895B37C8348F2B88773D6179A7DBDE59366F9 要采集1页
10万个这样的页面,要采集的页数不同,怎么办? 本帖最后由 happydescant 于 2011-7-10 15:28 编辑
如果按照下面这样做可以吗?外部程序能让火车头开始采集吗? 有人能做一个这样通用的软件吗?
设置字段 地址 上次总页数 总页数 完成
假定要运行的任务为“任务A”
1 从“地址”中读取一条地址,“完成”标记=未执行
2 数据库Config,表job,jobname=“任务A”,PostPapeEnd=1,
3 运行任务
4 等待任务停止
5 查看数据库SpiderResult,content表,总页数字段(下面实际举例)
6 记录总页数=78,上次总页数为空,所以本次采集所有页面,PostPapeEnd=78,上次总页数也记录为78
7 执行 3
8 第二遍,若总页数为78,上次总页数也为78,则执行 1 ,
9 如果总页数=78,上次总页数=77,则PostPapeEnd=差值+1=2,执行3
页:
[1]