发新话题
打印

[3.2版] 如果有谁被火车的"同时采集多页面"忽悠了,请看!

如果有谁被火车的"同时采集多页面"忽悠了,请看!

之前一直以为第一个规则 “依据对默认地址生成新地址....” 用正则,以为是抓取页面的某条地址来取数据,跟孤魂同学研究了一下正则,结果出来的地址跟原地址一样,好像一点反映都没有。还以为这个功能是白搭的。

然后一直在研究这段帮助:
复制内容到剪贴板
代码:

对于同时一个下载内容页和在新窗口打开的下载地址页这种情况的采集,
还有如一个电脑产品的参数,图片,商家,价格,评论等存在于不同的页面的情况均应在这里定义。
比如我们采集的主内容页面是:http://product.it168.com/detail/doc/158347/detail.shtml
而价格页是:http://product.it168.com/detail/doc/158347/price.shtml,图片页是:http://product.it168.com/detail/doc/158347/pic.shtml
定义一个价格页和图片页,相应的替换detail为price或pic即可,
最后在定义标签的时候选择采集采集的内容属于哪个页面
唉,结果发现可能是自己语文水平不好, 相应的替换detail为price或pic即可  发现这一句才是关键。

例如原地址
http://data.movie.xunlei.com/movie/37814
但是迅雷的关于明晰的介绍其实在
http://movie.xunlei.com/movie/37814/****  下面

其实规则就是
http://data.(.*)
替换成 http://$1/feature

测试一下
结果出来 http://movie.xunlei.com/movie/37814/]http://movie.xunlei.com/movie/37814/feature]http://movie.xunlei.com/movie/37814/feature
就这么简单,别想得太复杂了
本帖最近评分记录
  • rq204 活跃度 +10 好好看说明,没什么不可以的 2008-2-18 12:05
  • rq204 火车车厢 +3 好好看说明,没什么不可以的 2008-2-18 12:05
  • 火车头 火车车厢 +10 嘿嘿,就是这样用的 2008-2-18 11:57

TOP

问题的关键是很多朋友并不知道$1的这种用法,我前天花了两天时间终于在遨游广告过滤论坛中学到了这个$1 -$10,如果够强,可以设定10个变量一起跑,那才叫强大。

TOP

实践出真知
火车头商业版购买咨询:,火车头商业版售后服务:
提供高难度特殊采集,完美全站采集入库服务。
火车头采集器采集规则定制:[50/个,质量保证]
火车头采集器发布模块定制:[80/个,质量保证]
火车头采集器高级接口定制:[200/个,功能全面]
支付宝担保安全交易:→点击进入安全交易←       [推荐国内精彩漫像]

QQ:11351936(人数已满),QQ:494839368 (技术咨询),QQ:948423048 (常年在线),QQ:839461016 (售前客服)

TOP

但果如果是"在默认页源代理中获得地址"呢?

因为后面有不是一样的.

http://www.114dy.net/downinfo/5425.html  介绍地址

http://www.114dy.net/ViewDownloadUrl.asp?ID=5425  下载页面地址

TOP

TOP

回复 5楼 的帖子

两个地址在哪里有联系呢?

TOP

回五楼:

其实是由这个地址
http://b2b.hc360.com/supplyself/42068543.html

得到

http://lwpk.b2b.hc360.com/   


再在上面地址通过  查看详细介绍...


得到

http://lwpk.b2b.hc360.com/shop/show.html


也就是多了一个中间地址



这样可以采集吗???

TOP

太多了吧,起点小说如何采呢

起点小说如何采呢
承接火车头采集任务  模块规则定制
348587412    月色湾     两棵树

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.197525 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-12-2 01:53 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档