lfcnc 发表于 2008-12-16 13:12:20

求高人帮我看看这个怎么采集,谢谢!!

我要采集的目标站是IT168,采集的内容为产品的参数规格。
但是我发现产品的首页不是我要采集的最终目标,产品的规格参数是另外一个名称的页面,不知道如何采集了,求教一下高人,有知道的告诉我一下
列表页:http://product.it168.com/list/b/03010112_1.shtml
内容页:http://product.it168.com/detail/doc/209874/index.shtml
采集页:http://product.it168.com/detail/doc/209874/detail.shtml

传统的采集都是设置一个列表页代码和内容页代码,但是我要采集的是内容页上的其中一个分支页面,不知道这个该如何设置了。

lfcnc 发表于 2008-12-17 18:28:34

没有人知道怎么采集么?

fireye 发表于 2008-12-17 18:32:00

看来,楼主玩火车相当的不熟悉,你这个问题火车头早就为我们想到了。请看多页面采集里的动态帮助

“对于同时一个下载内容页和在新窗口打开的下载地址页这种情况的采集,
还有如一个电脑产品的参数,图片,商家,价格,评论等存在于不同的页面的情况均应在这里定义。
比如我们采集的主内容页面是:http://product.it168.com/detail/doc/158347/detail.shtml
而价格页是:http://product.it168.com/detail/doc/158347/price.shtml,图片页是:http://product.it168.com/detail/doc/158347/pic.shtml
定义一个价格页和图片页,相应的替换detail为price或pic即可,
最后在定义标签的时候选择采集采集的内容属于哪个页面

上面的多页面可以直接通过定义获得,还有一种情况:对于和默认页网址没有任何关系的多页链接,需要通过采集默认页内容才能得到,选第二种方式,定义在默认页源代码中采集该地址的首末字符串”
页: [1]
查看完整版本: 求高人帮我看看这个怎么采集,谢谢!!