火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 1509|回复: 2

求高人帮我看看这个怎么采集,谢谢!!

[复制链接]
发表于 2008-12-16 13:12:20 | 显示全部楼层 |阅读模式
我要采集的目标站是IT168,采集的内容为产品的参数规格。
但是我发现产品的首页不是我要采集的最终目标,产品的规格参数是另外一个名称的页面,不知道如何采集了,求教一下高人,有知道的告诉我一下
列表页:http://product.it168.com/list/b/03010112_1.shtml
内容页:http://product.it168.com/detail/doc/209874/index.shtml
采集页:http://product.it168.com/detail/doc/209874/detail.shtml

传统的采集都是设置一个列表页代码和内容页代码,但是我要采集的是内容页上的其中一个分支页面,不知道这个该如何设置了。
 楼主| 发表于 2008-12-17 18:28:34 | 显示全部楼层
没有人知道怎么采集么?
发表于 2008-12-17 18:32:00 | 显示全部楼层
看来,楼主玩火车相当的不熟悉,你这个问题火车头早就为我们想到了。请看多页面采集里的动态帮助

“对于同时一个下载内容页和在新窗口打开的下载地址页这种情况的采集,
还有如一个电脑产品的参数,图片,商家,价格,评论等存在于不同的页面的情况均应在这里定义。
比如我们采集的主内容页面是:
http://product.it168.com/detail/doc/158347/detail.shtml
而价格页是:
http://product.it168.com/detail/doc/158347/price.shtml,图片页是:http://product.it168.com/detail/doc/158347/pic.shtml
定义一个价格页和图片页,相应的替换detail为price或pic即可,
最后在定义标签的时候选择采集采集的内容属于哪个页面

上面的多页面可以直接通过定义获得,还有一种情况:对于和默认页网址没有任何关系的多页链接,需要通过采集默认页内容才能得到,选第二种方式,定义在默认页源代码中采集该地址的首末字符串”
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-17 01:01

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表