火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4336|回复: 7

如果有谁被火车的"同时采集多页面"忽悠了,请看!

[复制链接]
发表于 2008-2-18 11:46:12 | 显示全部楼层 |阅读模式
之前一直以为第一个规则 “依据对默认地址生成新地址....” 用正则,以为是抓取页面的某条地址来取数据,跟孤魂同学研究了一下正则,结果出来的地址跟原地址一样,好像一点反映都没有。还以为这个功能是白搭的。

然后一直在研究这段帮助:

  1. 对于同时一个下载内容页和在新窗口打开的下载地址页这种情况的采集,
  2. 还有如一个电脑产品的参数,图片,商家,价格,评论等存在于不同的页面的情况均应在这里定义。
  3. 比如我们采集的主内容页面是:http://product.it168.com/detail/doc/158347/detail.shtml
  4. 而价格页是:http://product.it168.com/detail/doc/158347/price.shtml,图片页是:http://product.it168.com/detail/doc/158347/pic.shtml
  5. 定义一个价格页和图片页,相应的替换detail为price或pic即可,
  6. 最后在定义标签的时候选择采集采集的内容属于哪个页面
复制代码


唉,结果发现可能是自己语文水平不好, 相应的替换detail为price或pic即可  发现这一句才是关键。

例如原地址
http://data.movie.xunlei.com/movie/37814
但是迅雷的关于明晰的介绍其实在
http://movie.xunlei.com/movie/37814/****  下面

其实规则就是
http://data.(.*)
替换成 http://$1/feature

测试一下
结果出来 http://movie.xunlei.com/movie/37814/]http://movie.xunlei.com/movie/37814/feature]http://movie.xunlei.com/movie/37814/feature
就这么简单,别想得太复杂了

评分

2

查看全部评分

发表于 2008-2-19 15:20:38 | 显示全部楼层
问题的关键是很多朋友并不知道$1的这种用法,我前天花了两天时间终于在遨游广告过滤论坛中学到了这个$1 -$10,如果够强,可以设定10个变量一起跑,那才叫强大。
发表于 2008-2-19 15:22:44 | 显示全部楼层
实践出真知
发表于 2008-7-13 08:37:04 | 显示全部楼层
但果如果是"在默认页源代理中获得地址"呢?

因为后面有不是一样的.

http://www.114dy.net/downinfo/5425.html  介绍地址

http://www.114dy.net/ViewDownloadUrl.asp?ID=5425  下载页面地址
发表于 2008-7-16 14:11:02 | 显示全部楼层
发表于 2008-7-16 16:14:20 | 显示全部楼层

回复 5楼 的帖子

两个地址在哪里有联系呢?
发表于 2008-7-16 17:54:19 | 显示全部楼层
回五楼:

其实是由这个地址
http://b2b.hc360.com/supplyself/42068543.html

得到

http://lwpk.b2b.hc360.com/   


再在上面地址通过  查看详细介绍...


得到

http://lwpk.b2b.hc360.com/shop/show.html


也就是多了一个中间地址



这样可以采集吗???
发表于 2008-7-16 18:53:02 | 显示全部楼层

太多了吧,起点小说如何采呢

起点小说如何采呢
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-19 15:11

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表