【建议】内容页中的内容分页超级多页时，火车头有奇怪现像

jeman · 发表于 2013-7-1 16:23:53

我一次性要采集的数据比较多，200多万条，页面结构：
起始网址：也就是产品的大类
多页网址获取：这里是获取小类，小类再通过js获取最终要采集的页面

如果上面的那些听不懂的话就算了，直接看下面吧
要采集的内容页：http://********/pro_list.php?catid=455&num=237276，内容是一个表格，也就是产品型号，价格等信息每页25条，分页形式是上页下页
http://********/pro_list.php?catid=455&num=237276&page=1
http://********/pro_list.php?catid=455&num=237276&page=2
.......................
http://********/pro_list.php?catid=455&num=237276&page=9492

仅这页就有 9492 条分页（=237276/25）
内容标签：该标签循环匹配，该标签在分页中匹配，标签循环处理：每一标签循环匹配项>添加为新记录，选用分隔符连接在上条后面，只能选添加为新记录，因为那么多页串起来存在一个字段，火车采集器就出错了，可能是超过了备注型字段的长度吧

循环匹配中的每项添加为新记录的话，存到数据库中的PageUrl值都一样，那么当程序采集出错退出时，就没有办法知道采集到第几页了，我现在只能通过再建个当前页标签，然后自己写程序从1-N循环判断，判断当前变量是否跟数据库存的当前页一样来分析某分布是否没有采集或所有内容分页是否全采集完

右下角弹出了任务采集完成，可是在采集运行框上面那行网址还在不断的变化，一直在走，此时要是关闭了的话那这个内容页的分页内容就根本没有采集完，要不要配图，不知道大伙能看懂不

303718 · 发表于 2013-7-1 18:17:41

这么多页的建议直接把这些页列为一级网址直接采集.

jeman · 发表于 2013-7-1 20:23:02

303718 发表于 2013-7-1 18:17
这么多页的建议直接把这些页列为一级网址直接采集.

不好弄吧，下面是目录结构
集成电路（IC) catalog/bid=1 一级分类
存储器       catalog/?bid=1&sid=1 二级
数模转换器  catalog/?bid=1&sid=2 二级
.......
光电元件 catalog/?bid=2
红外发射极 catalog/?bid=2&sid=2
离散式光纤发射器 catalog/?bid=2&sid=2
........
============================================================
二级分类进去后显示的内容：
一个表格，然后显示产品相关参数
型号厂商描述单价包装......
然后要取这页里面的一个js代码，就能得到内容页 onclick="location=''这里就是内容页地址"
===========================================================
内容页结构，也是一个表格，我要把表格整块取来，然后自己再写网页程序，提取表格每行每列数据
型号厂商描述单价包装......
f11  f12 f13  f14 f15
f21  f22  f23  f24  f25
.......一页25行，即25个产品

1/9492页上页下页
==========================================================

lbjyuer · 发表于 2016-2-10 16:02:51

爪，以后学习下。。

帐号		自动登录	找回密码
密码			加入会员