haifding 发表于 2012-1-31 23:34:58

v7.0 test 采集网址规则 和 附加参数 建议

本帖最后由 haifding 于 2012-1-31 23:42 编辑



建议一:把蓝色框的那部分划归到“网址获取方式”栏目下面,而不是一直固定在那里。
理由:1.这个“选定区域、结果过滤”部分只对“网址获取”起作用,跟其他的视乎没有关系。
      2.可以给“Http请求方式”“列表分页获取”“附加参数”腾出更多布局空间来。
      3.咋一看,容易混淆,因为我自己一开始用的时候就弄糊涂了。
      

建议二:附加参数这个功能是不是也应该有个区域选择啊?而且可以有多个附加标签(每个标签有自己的代码区域)。

    这个功能我一直没有使用成功过,我取“选定区域中提取网址”里面和外面的代码都不起作用,采集不到东西。
    按照官方设计思路我觉得这是个非常有用的东西,因为它可以给每个列表页自动加该栏目的特有标签,以区分类别/栏目。换句话说你可以不用分栏目做采集了,夸张点可以一个任务采集一个站的所有东西(栏目列表页要类似,再配合无极限多页采集模式)。再配合SQL的存储过程做判断,完全可以实现分栏目自动导入自己站的数据库(这个想法是不是夸张了点?{:soso_e112:} )。如果使用WEB发布这个方法无效,必须有多少个栏目建多少个任务。

    如果这个功能能实现,那就有可能做到一个任务采集一个整站,并进行完美的发布了。当然对“图片站和软件站”可能不行,有可能出现一个文件夹下有超级多张图片或者附件,或者一个文件夹下有超级多个子文件夹。这样估计操作系统会受不了。


    以上2点只是我的想法,是否可行还请甄拙。

haifding 发表于 2012-2-1 14:46:41

附加参数这个功能到底怎么用?我取“选定区域中提取网址”外面的代码不起作用,采集不到东西。
里面的代码好像也没用!

不知道如何用!~~

fzs888 发表于 2012-2-9 16:00:29

学习了。支持。好好学下。

suhate 发表于 2012-2-24 13:45:56

同上 我采集页面必含的html 也没有采集到任何东西

fzs888 发表于 2012-2-24 21:23:12

这个建议二:附加参数这个功能是不是也应该有个区域选择啊?而且可以有多个附加标签(每个标签有自己的代码区域)。

    这个功能我一直没有使用成功过,我取“选定区域中提取网址”里面和外面的代码都不起作用,采集不到东西。
    按照官方设计思路我觉得这是个非常有用的东西,因为它可以给每个列表页自动加该栏目的特有标签,以区分类别/栏目。换句话说你可以不用分栏目做采集了,夸张点可以一个任务采集一个站的所有东西(栏目列表页要类似,再配合无极限多页采集模式)。再配合SQL的存储过程做判断,完全可以实现分栏目自动导入自己站的数据库(这个想法是不是夸张了点? )。如果使用WEB发布这个方法无效,必须有多少个栏目建多少个任务。

    如果这个功能能实现,那就有可能做到一个任务采集一个整站,并进行完美的发布了。当然对“图片站和软件站”可能不行,有可能出现一个文件夹下有超级多张图片或者附件,或者一个文件夹下有超级多个子文件夹。这样估计操作系统会受不了。
我试验好多次,没有成功。

onekey32 发表于 2012-3-19 03:46:24

不错学习了。我正在使用这个附加参数功能。试试看。

tiger3k 发表于 2012-3-22 22:22:08

附加参数这个应该设置成每个子页可以获取上一页相应位置对应的标签,比如在第一页,每个图片对应一个地址,那么使用附加参数采集出来的应该是每个图片对应一个地址,而现在采集到的是所有地址都对应的是第一个获取到的一个图片,:(:Q

lbjyuer 发表于 2016-2-10 20:39:41

爪,以后学习下。。
页: [1]
查看完整版本: v7.0 test 采集网址规则 和 附加参数 建议