关于采集规则在指定范围内前后截取的功能建议。单个标签的采集范围的前后限定
本帖最后由 caijihome 于 2013-8-29 22:32 编辑发现论坛很多这样的需求帖子,可是没有见过技术人员考虑过。
http://bbs.locoy.com/forum.php?mod=viewthread&tid=133497
http://bbs.locoy.com/forum.php?mod=viewthread&tid=132582
http://bbs.locoy.com/forum.php?mod=viewthread&tid=132346
http://bbs.locoy.com/forum.php?mod=viewthread&tid=132145
http://bbs.locoy.com/forum.php?mod=viewthread&tid=132144
http://bbs.locoy.com/forum.php?mod=viewthread&tid=131007
http://bbs.locoy.com/forum.php?mod=viewthread&tid=33942
http://bbs.locoy.com/forum.php?mod=viewthread&tid=25267
个别情况下, 这个功能还是有点重要的,虽然说可以用其他整理的方法实现,还是希望如果简单增加下。
http://www.soku.com/detail/show/XMzEyMTQw
比如这个网址,我只想要第三个视频站,或者第四个视频站 里面的播放列表网址。
火车头处理 起来非常麻烦,整理半天!
如图,土豆的我整理出来了,整理了半天。里面的换行还不对,欲哭无泪。
http://bbs.locoy.com/spider-132145-1-1.html 比如搜酷的soku.com,今天朋友说采集搜酷, 采集第一个播放网站的 播放列表,单又不想要搜狐的,于是就出现上面的问题。 本帖最后由 caijihome 于 2013-8-29 22:25 编辑
希望网址无限级采集可以应用到数据无限级采集。采集到的数据范围进行3-4次采集。多次采集。
比如 我要采集某一个网页固定区域里面 所有除了.BMP格式以外图片地址。
第一 我要 设置区域范围。
第二 我要循环采集到所有图片或正则直接得到结果。
第三。正则筛选或替换。
我上面说的要求还算是简单的! 就要二次采集,采集2-3次。
希望火车头能把多层网址采集,应用到 多层数据范围抓取采集,以得到有效准确的数据。
复杂的例子很容易列举。
比如一个软件的下载页面。
对方提供了 国内跟国外的下载地址。
下载地址又分了 电信和网通的。
我只需要国内 电信部分的 下载地址。跟多级网址一个道理
我是不是需要多级采集?此种情况一般都是复杂页面,并不能直接通过循环获取。
增量网页(多页)
增量数据 (增量采集)
增次采集(范围采集)
采集的时候各种各样的情况。希望火车头在处理数据方面更专业。 历史帖子回顾中。
页:
[1]