happydescant 发表于 2011-7-8 20:05:24

一个采集问题

本帖最后由 happydescant 于 2011-7-8 20:22 编辑

http://www.anccnet.com/productlist.aspx?f_id=F25F56A9F703ED74C88AA64403D14BE99A38FE6393D043674E6F04046E3A5C66

这是某个我要采集的页面,我要采集里面的每个商品的5项信息。这个已经做好了。

我的问题是,类似这样的要采集的页面有很多,而每个页面都是post方式采集,分页标签要设置不同的页数。
假如我有10万个这样要采集的页面,是不是只能是设置10万个采集页面了?

303718 发表于 2011-7-8 20:14:15

一般的POST只要弄一个就行了呢.
内容页好像要开什么订阅功能才看得到呢

happydescant 发表于 2011-7-8 20:15:42

本帖最后由 happydescant 于 2011-7-8 20:21 编辑

现在的页面就是采集页面,不用打开里面的链接。数据就在这页。这页的采集已经做好了。不要点这个页面的链接,不是我需要的。

http://www.anccnet.com/productlist.aspx?f_id=F25F56A9F703ED74C88AA64403D14BE99A38FE6393D043674E6F04046E3A5C66 要采集78页

http://www.anccnet.com/productlist.aspx?f_id=F25F56A9F703ED74AF2A2FEB85F895B37C8348F2B88773D6179A7DBDE59366F9 要采集1页

10万个这样的页面,要采集的页数不同,怎么办?

happydescant 发表于 2011-7-10 12:40:33

本帖最后由 happydescant 于 2011-7-10 15:28 编辑

如果按照下面这样做可以吗?外部程序能让火车头开始采集吗? 有人能做一个这样通用的软件吗?

        设置字段 地址 上次总页数 总页数 完成

        假定要运行的任务为“任务A”
1        从“地址”中读取一条地址,“完成”标记=未执行
2        数据库Config,表job,jobname=“任务A”,PostPapeEnd=1,
3        运行任务
4        等待任务停止
5        查看数据库SpiderResult,content表,总页数字段(下面实际举例)
6        记录总页数=78,上次总页数为空,所以本次采集所有页面,PostPapeEnd=78,上次总页数也记录为78
7        执行 3
8        第二遍,若总页数为78,上次总页数也为78,则执行 1 ,
9        如果总页数=78,上次总页数=77,则PostPapeEnd=差值+1=2,执行3
页: [1]
查看完整版本: 一个采集问题