多页多数据采集时的问题
当每个分页有多个数据项(比如我们要同时提取“作者”和“作品”两个数据项),且多条数据(比如每页有K个作者,K个作品)时。这个软件就出很大的问题。假设页面的内容如下:第一页:
作者 a11 作品 b11
作者 a12 作品 b12
...
作者 a1k 作品 b1k
第二页:
作者 a21 作品 b21
作者 a22 作品 b22
...
作者 a2k 作品 b2k
...
第N页:
作者 an1 作品 bn1
作者 an2 作品 bn2
...
作者 ank 作品 bnk
分页测试,采集的数据项循环匹配,测试结果如下:
测试得到的结果,如果提取标签为 “作者”,“作品” ,提取到的结果如下:
作者: a11
作品: b11
作者: a12
作品: b12
...
作者: a1k
作品: b1k
也就是说,只能提取第一页的内容,后面的页面全丢了!!!
如果提取 “内容”(实际上提取作者),“作品” 提取出来的内容如下:
内容:a11a21a31...an1
作品:b11
内容:a12
作品:b12
...
内容:a1k
作品:b1k
也就是说,这个软件提取了完整的第一页,从第二页开始,就只提取第一项,且不分项重列
如果提取 “内容”(实际上提取作者),测试结果如下:
内容:a11a21a31...an1
内容:a12
...
内容:a1k
这个软件是哪些大虾们的作品啊。你们软件的逻辑是不是这样的啊?
我希望能快点解决这个问题。:)
[ 本帖最后由 oceany 于 2007-12-5 19:16 编辑 ] 给个地址吧,火车有这个功能,但不是很强大 我要做一个C2C网上销售的课题研究,
是在抓取每一个卖家的销售记录时出错的。
比如下面的这个网页:
http://my.taobao.com/mytaobao/rate/rate.htm?user_id=260e011b5bb44df8ea44a28331d4080f&buyer_or_seller=0&received_or_posted=0&good_neutral_or_bad=&time_line=&detailed=¤t_page=2&snap_id=0#RateType
同时抓取卖家id和买家id,分页抓取,就出错了
页:
[1]