caijihome 发表于 2013-7-30 20:57:21

关于采集规则在指定范围内前后截取的功能建议。单个标签的采集范围的前后限定

本帖最后由 caijihome 于 2013-8-29 22:32 编辑

发现论坛很多这样的需求帖子,可是没有见过技术人员考虑过。
http://bbs.locoy.com/forum.php?mod=viewthread&tid=133497
http://bbs.locoy.com/forum.php?mod=viewthread&tid=132582
http://bbs.locoy.com/forum.php?mod=viewthread&tid=132346
http://bbs.locoy.com/forum.php?mod=viewthread&tid=132145
http://bbs.locoy.com/forum.php?mod=viewthread&tid=132144
http://bbs.locoy.com/forum.php?mod=viewthread&tid=131007
http://bbs.locoy.com/forum.php?mod=viewthread&tid=33942
http://bbs.locoy.com/forum.php?mod=viewthread&tid=25267

个别情况下, 这个功能还是有点重要的,虽然说可以用其他整理的方法实现,还是希望如果简单增加下。

http://www.soku.com/detail/show/XMzEyMTQw
比如这个网址,我只想要第三个视频站,或者第四个视频站 里面的播放列表网址。



火车头处理 起来非常麻烦,整理半天!
如图,土豆的我整理出来了,整理了半天。里面的换行还不对,欲哭无泪。

caijihome 发表于 2013-7-30 21:07:31

http://bbs.locoy.com/spider-132145-1-1.html

caijihome 发表于 2013-7-30 21:09:15

比如搜酷的soku.com,今天朋友说采集搜酷, 采集第一个播放网站的 播放列表,单又不想要搜狐的,于是就出现上面的问题。

caijihome 发表于 2013-8-29 22:22:50

本帖最后由 caijihome 于 2013-8-29 22:25 编辑

希望网址无限级采集可以应用到数据无限级采集。采集到的数据范围进行3-4次采集。多次采集。

比如 我要采集某一个网页固定区域里面 所有除了.BMP格式以外图片地址。
第一 我要 设置区域范围。
第二 我要循环采集到所有图片或正则直接得到结果。
第三。正则筛选或替换。

我上面说的要求还算是简单的! 就要二次采集,采集2-3次。

希望火车头能把多层网址采集,应用到 多层数据范围抓取采集,以得到有效准确的数据。


复杂的例子很容易列举。

比如一个软件的下载页面。

对方提供了 国内跟国外的下载地址。

下载地址又分了 电信和网通的。

我只需要国内 电信部分的 下载地址。跟多级网址一个道理

我是不是需要多级采集?此种情况一般都是复杂页面,并不能直接通过循环获取。

caijihome 发表于 2013-8-29 22:28:41

增量网页(多页)
增量数据 (增量采集)
增次采集(范围采集)

采集的时候各种各样的情况。希望火车头在处理数据方面更专业。

lbjyuer 发表于 2016-2-10 12:49:28

历史帖子回顾中。
页: [1]
查看完整版本: 关于采集规则在指定范围内前后截取的功能建议。单个标签的采集范围的前后限定