火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3464|回复: 5

关于采集规则在指定范围内前后截取的功能建议。单个标签的采集范围的前后限定

[复制链接]
发表于 2013-7-30 20:57:21 | 显示全部楼层 |阅读模式
本帖最后由 caijihome 于 2013-8-29 22:32 编辑

发现论坛很多这样的需求帖子,可是没有见过技术人员考虑过。
http://bbs.locoy.com/forum.php?mod=viewthread&tid=133497
http://bbs.locoy.com/forum.php?mod=viewthread&tid=132582
http://bbs.locoy.com/forum.php?mod=viewthread&tid=132346
http://bbs.locoy.com/forum.php?mod=viewthread&tid=132145
http://bbs.locoy.com/forum.php?mod=viewthread&tid=132144
http://bbs.locoy.com/forum.php?mod=viewthread&tid=131007
http://bbs.locoy.com/forum.php?mod=viewthread&tid=33942
http://bbs.locoy.com/forum.php?mod=viewthread&tid=25267

个别情况下, 这个功能还是有点重要的,虽然说可以用其他整理的方法实现,还是希望如果简单增加下。

http://www.soku.com/detail/show/XMzEyMTQw
比如这个网址,我只想要第三个视频站,或者第四个视频站 里面的播放列表网址。



火车头处理 起来非常麻烦,整理半天!
如图,土豆的我整理出来了,整理了半天。里面的换行还不对,欲哭无泪。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2013-7-30 21:07:31 | 显示全部楼层
 楼主| 发表于 2013-7-30 21:09:15 | 显示全部楼层
比如搜酷的soku.com,今天朋友说采集搜酷, 采集第一个播放网站的 播放列表,单又不想要搜狐的,于是就出现上面的问题。
 楼主| 发表于 2013-8-29 22:22:50 | 显示全部楼层
本帖最后由 caijihome 于 2013-8-29 22:25 编辑

希望网址无限级采集可以应用到数据无限级采集。采集到的数据范围进行3-4次采集。多次采集。

比如 我要采集某一个网页  固定区域里面 所有  除了.BMP格式以外图片地址。
第一 我要 设置区域范围。
第二 我要循环采集到所有图片或正则直接得到结果。
第三。正则筛选或替换。

我上面说的要求还算是简单的! 就要二次采集,采集2-3次。

希望火车头能把多层网址采集,应用到 多层数据  范围抓取采集,以得到有效准确的数据。


复杂的例子很容易列举。

比如一个软件的下载页面。

对方提供了 国内跟国外的  下载地址。

下载地址又分了 电信和网通的。

我只需要国内 电信部分的 下载地址。跟多级网址一个道理

我是不是需要多级采集?此种情况一般都是复杂页面,并不能直接通过循环获取。
 楼主| 发表于 2013-8-29 22:28:41 | 显示全部楼层
增量网页(多页)
增量数据 (增量采集)
增次采集(范围采集)

采集的时候各种各样的情况。希望火车头在处理数据方面更专业。
发表于 2016-2-10 12:49:28 | 显示全部楼层
历史帖子回顾中。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-4-5 09:00

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表