小东 发表于 2009-6-6 01:53:21

既是学习也是疑惑--关于同时采集多页

本帖最后由 小东 于 2009-6-6 01:55 编辑

刚接触火车头,学习遇到疑惑
求解惑



站点和任务结构图

采集的电影分类

要采集的电影页面

制作采集网址规则

采集到所有电影页面的连接

测试采集电影页面的内容

获取播放连接真实下在地址的配置



论坛上图片大小编辑挺麻烦的,想调成原始大小的还挺困难的为难大伙眼睛了我遇到的问题主要在 图6、测试采集电影页面的内容.GIF
采集出来的内容有点问题1、采集出来的内容没有根据我[页面内容自定义]标签名的排序去排列
2、采集出来的[电影介绍]标签所对应的内容,存在很多回车,想去掉
3、也是我最头疼的问题
我想采集
【播放连接对应真实播放地址】: http://video.sina.com.cn/deco/2008/1118/flvPlayer1218.swf?vid=17137705
但是不知道如何让他循环采集下去
可能我用的方法不是很好,我只是想采集页面中所有真实的视频地址。
希望论坛上的心肠热、技术好的朋友可以为我解答。谢谢。


备注:【播放连接对应真实播放地址】这个标签里采集到的视频播放地址是想和[电影播放连接]中的连接指想的视频页面一一对应的。

kjmdiba 发表于 2009-6-6 11:49:59

1. 程序是这样的, 这个跟发布没关系.
2.回车多用内容替换吧,方法很多.
3.标签有一个循环匹配选项, 用这个可以获得页面全部匹配的内容.

小东 发表于 2009-6-6 14:16:00

1. 程序是这样的, 这个跟发布没关系.
2.回车多用内容替换吧,方法很多.
3.标签有一个循环匹配选项, 用这个可以获得页面全部匹配的内容.
kjmdiba 发表于 2009-6-6 11:49 http://bbs.locoy.com/images/common/back.gif

谢谢您的回答,
标签中循环匹配我试了,还是无法循环获得页面中其他需要采集出来的内容


感觉迷糊
A 是电影列表页
我能用火车头从A 页面中列举所有电影页面的地址 B

但是B 中又多个内容是包含 C 页面中的

呵呵,到现在还没找出解决方法
请您再帮忙看看把,谢谢了。

小东 发表于 2009-6-8 15:14:24

再次请教帮忙,问题仍没解决,期待各位达人帮忙

langford 发表于 2009-6-9 00:05:09

对应问题的说明如下:

1.目前火车头确实没有按照对应的标签名排序的!!好像这个地方没用!!不知是否正确的!!
2.存在很多回车,想去掉->在html排除中选中Tab|换行即可
3.可能需要写外部编程接口的,常规方式没有找到方法!!

1G空间100元 发表于 2009-6-9 15:26:56

ali56ls看看
好好的学习下
页: [1]
查看完整版本: 既是学习也是疑惑--关于同时采集多页