多页多数据采集时的问题

oceany · 发表于 2007-12-5 19:14:47

当每个分页有多个数据项（比如我们要同时提取“作者”和“作品”两个数据项），且多条数据（比如每页有K个作者，K个作品）时。这个软件就出很大的问题。假设页面的内容如下：

第一页：
作者 a11 作品 b11
作者 a12 作品 b12
...
作者 a1k 作品 b1k

第二页：
作者 a21 作品 b21
作者 a22 作品 b22
...
作者 a2k 作品 b2k

...

第N页：
作者 an1 作品 bn1
作者 an2 作品 bn2
...
作者 ank 作品 bnk

分页测试，采集的数据项循环匹配，测试结果如下：
测试得到的结果，如果提取标签为 “作者”，“作品” ，提取到的结果如下：
作者： a11
作品： b11
作者： a12
作品： b12
...
作者： a1k
作品： b1k
也就是说，只能提取第一页的内容，后面的页面全丢了！！！

如果提取 “内容”（实际上提取作者），“作品” 提取出来的内容如下：
内容：a11a21a31...an1
作品：b11
内容：a12
作品：b12
...
内容：a1k
作品：b1k
也就是说，这个软件提取了完整的第一页，从第二页开始，就只提取第一项，且不分项重列

如果提取 “内容”（实际上提取作者），测试结果如下：
内容：a11a21a31...an1
内容：a12
...
内容：a1k

这个软件是哪些大虾们的作品啊。你们软件的逻辑是不是这样的啊？

我希望能快点解决这个问题。：）

[ 本帖最后由 oceany 于 2007-12-5 19:16 编辑 ]

vus520 · 发表于 2007-12-5 19:38:30

给个地址吧，火车有这个功能，但不是很强大

oceany · 发表于 2007-12-5 20:01:13

我要做一个C2C网上销售的课题研究，
是在抓取每一个卖家的销售记录时出错的。
比如下面的这个网页：
http://my.taobao.com/mytaobao/rate/rate.htm?user_id=260e011b5bb44df8ea44a28331d4080f&buyer_or_seller=0&received_or_posted=0&good_neutral_or_bad=&time_line=&detailed=&current_page=2&snap_id=0#RateType

同时抓取卖家id和买家id，分页抓取，就出错了

帐号		自动登录	找回密码
密码			加入会员