火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3243|回复: 2

多页多数据采集时的问题

[复制链接]
发表于 2007-12-5 19:14:47 | 显示全部楼层 |阅读模式
当每个分页有多个数据项(比如我们要同时提取“作者”和“作品”两个数据项),且多条数据(比如每页有K个作者,K个作品)时。这个软件就出很大的问题。假设页面的内容如下:

第一页:
作者 a11 作品 b11
作者 a12 作品 b12
...
作者 a1k 作品 b1k

第二页:
作者 a21 作品 b21
作者 a22 作品 b22
...
作者 a2k 作品 b2k


...

第N页:
作者 an1 作品 bn1
作者 an2 作品 bn2
...
作者 ank 作品 bnk

分页测试,采集的数据项循环匹配,测试结果如下:
测试得到的结果,如果提取标签为 “作者”,“作品” ,提取到的结果如下:
作者: a11
作品: b11
作者: a12
作品: b12
...
作者: a1k
作品: b1k
也就是说,只能提取第一页的内容,后面的页面全丢了!!!


如果提取 “内容”(实际上提取作者),“作品” 提取出来的内容如下:
内容:a11a21a31...an1
作品:b11
内容:a12
作品:b12
...
内容:a1k
作品:b1k
也就是说,这个软件提取了完整的第一页,从第二页开始,就只提取第一项,且不分项重列


如果提取 “内容”(实际上提取作者),测试结果如下:
内容:a11a21a31...an1
内容:a12
...
内容:a1k


这个软件是哪些大虾们的作品啊。你们软件的逻辑是不是这样的啊?

我希望能快点解决这个问题。:)

[ 本帖最后由 oceany 于 2007-12-5 19:16 编辑 ]
发表于 2007-12-5 19:38:30 | 显示全部楼层
给个地址吧,火车有这个功能,但不是很强大
 楼主| 发表于 2007-12-5 20:01:13 | 显示全部楼层
我要做一个C2C网上销售的课题研究,
是在抓取每一个卖家的销售记录时出错的。
比如下面的这个网页:
http://my.taobao.com/mytaobao/rate/rate.htm?user_id=260e011b5bb44df8ea44a28331d4080f&buyer_or_seller=0&received_or_posted=0&good_neutral_or_bad=&time_line=&detailed=&current_page=2&snap_id=0#RateType

同时抓取卖家id和买家id,分页抓取,就出错了
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-10-6 19:44

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表