火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2425|回复: 3

一个采集问题

[复制链接]
发表于 2011-7-8 20:05:24 | 显示全部楼层 |阅读模式
本帖最后由 happydescant 于 2011-7-8 20:22 编辑

http://www.anccnet.com/productlist.aspx?f_id=F25F56A9F703ED74C88AA64403D14BE99A38FE6393D043674E6F04046E3A5C66

这是某个我要采集的页面,我要采集里面的每个商品的5项信息。这个已经做好了。

我的问题是,类似这样的要采集的页面有很多,而每个页面都是post方式采集,分页标签要设置不同的页数。
假如我有10万个这样要采集的页面,是不是只能是设置10万个采集页面了?
发表于 2011-7-8 20:14:15 | 显示全部楼层
一般的POST只要弄一个就行了呢.
内容页好像要开什么订阅功能才看得到呢
 楼主| 发表于 2011-7-8 20:15:42 | 显示全部楼层
本帖最后由 happydescant 于 2011-7-8 20:21 编辑

现在的页面就是采集页面,不用打开里面的链接。数据就在这页。这页的采集已经做好了。不要点这个页面的链接,不是我需要的。

http://www.anccnet.com/productlist.aspx?f_id=F25F56A9F703ED74C88AA64403D14BE99A38FE6393D043674E6F04046E3A5C66 要采集78页

http://www.anccnet.com/productlist.aspx?f_id=F25F56A9F703ED74AF2A2FEB85F895B37C8348F2B88773D6179A7DBDE59366F9 要采集1页

10万个这样的页面,要采集的页数不同,怎么办?
 楼主| 发表于 2011-7-10 12:40:33 | 显示全部楼层
本帖最后由 happydescant 于 2011-7-10 15:28 编辑

如果按照下面这样做可以吗?外部程序能让火车头开始采集吗? 有人能做一个这样通用的软件吗?

        设置字段 地址 上次总页数 总页数 完成

        假定要运行的任务为“任务A”
1        从“地址”中读取一条地址,“完成”标记=未执行
2        数据库Config,表job,jobname=“任务A”,PostPapeEnd=1,
3        运行任务
4        等待任务停止
5        查看数据库SpiderResult,content表,总页数字段(下面实际举例)
6        记录总页数=78,上次总页数为空,所以本次采集所有页面,PostPapeEnd=78,上次总页数也记录为78
7        执行 3
8        第二遍,若总页数为78,上次总页数也为78,则执行 1 ,
9        如果总页数=78,上次总页数=77,则PostPapeEnd=差值+1=2,执行3
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-19 01:23

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表