oceany 发表于 2007-12-5 19:14:47

多页多数据采集时的问题

当每个分页有多个数据项(比如我们要同时提取“作者”和“作品”两个数据项),且多条数据(比如每页有K个作者,K个作品)时。这个软件就出很大的问题。假设页面的内容如下:

第一页:
作者 a11 作品 b11
作者 a12 作品 b12
...
作者 a1k 作品 b1k

第二页:
作者 a21 作品 b21
作者 a22 作品 b22
...
作者 a2k 作品 b2k


...

第N页:
作者 an1 作品 bn1
作者 an2 作品 bn2
...
作者 ank 作品 bnk

分页测试,采集的数据项循环匹配,测试结果如下:
测试得到的结果,如果提取标签为 “作者”,“作品” ,提取到的结果如下:
作者: a11
作品: b11
作者: a12
作品: b12
...
作者: a1k
作品: b1k
也就是说,只能提取第一页的内容,后面的页面全丢了!!!


如果提取 “内容”(实际上提取作者),“作品” 提取出来的内容如下:
内容:a11a21a31...an1
作品:b11
内容:a12
作品:b12
...
内容:a1k
作品:b1k
也就是说,这个软件提取了完整的第一页,从第二页开始,就只提取第一项,且不分项重列


如果提取 “内容”(实际上提取作者),测试结果如下:
内容:a11a21a31...an1
内容:a12
...
内容:a1k


这个软件是哪些大虾们的作品啊。你们软件的逻辑是不是这样的啊?

我希望能快点解决这个问题。:)

[ 本帖最后由 oceany 于 2007-12-5 19:16 编辑 ]

vus520 发表于 2007-12-5 19:38:30

给个地址吧,火车有这个功能,但不是很强大

oceany 发表于 2007-12-5 20:01:13

我要做一个C2C网上销售的课题研究,
是在抓取每一个卖家的销售记录时出错的。
比如下面的这个网页:
http://my.taobao.com/mytaobao/rate/rate.htm?user_id=260e011b5bb44df8ea44a28331d4080f&buyer_or_seller=0&received_or_posted=0&good_neutral_or_bad=&time_line=&detailed=&current_page=2&snap_id=0#RateType

同时抓取卖家id和买家id,分页抓取,就出错了
页: [1]
查看完整版本: 多页多数据采集时的问题