wootin 发表于 2011-9-6 16:52:45

3个连续深入的页面,多页采集的问题

现有A页面,要采集A页面上的数据
然后通过A页面获取 B页面的URL,并且采集B页面的数据
再通过B页面获取 C页面的URL,并且采集C页面的数据

简单来说,A、B、C3个页面上面的数据都是要采集的,并且B、C两个页面的URL只能分别通过上级页面的源代码里获取

请求各位帮助!万分感谢

303718 发表于 2011-9-6 19:11:44

用多页采集也搞不定吗?

303718 发表于 2011-9-6 19:14:34

用多页采集也搞不定吗?

zhouchanglin 发表于 2011-9-6 20:46:13

如你说的,A页面--------列表页,可以通过自定义标签,获取列表页里的需要的标签
B页面-------------内容页,通过列表页获取

c页面-------------------通过B页面获取,就是一个多页

这样就可以采集了

发下网址吧?

wootin 发表于 2011-9-7 19:46:01

回复 4# zhouchanglin

感谢回复,
大体是这样的
【A页面】是个人资料页,包含了相册的url(B页面)
【B页面】是相册列表,包含了照片列表的url(C页面),有些用户不一定有相册。可能为空
【C页面】是照片列表   

按照你说的方法,用深度1?那只能采集到内容页B和多页C啊,A采集不到
A页面的自定义标签是匹配默认页还是A页面,如果是A页面,那也得用多页的方法来获取吗?

谢谢

zhouchanglin 发表于 2011-9-7 21:26:11

回复 5# wootin


    提供采集的地址吧,这么说不清楚

wootin 发表于 2011-9-7 21:35:17

回复 6# zhouchanglin


A:http://u.discuz.net/home/space-1269734.html
B:http://u.discuz.net/home/space-1269734-do-album-id-10268.html
C:http://u.discuz.net/home/space-1269734-do-album-picid-168350.html


比如
我要一起采集 A 页面的【性别】
             B 页面的 照片缩略图      
             c 页面每个照片的 照片上传时间
页: [1]
查看完整版本: 3个连续深入的页面,多页采集的问题