程序建议增加如下三项功能[重要]

collins 发表于 2012-9-4 19:58:31

本帖最后由 collins 于 2012-9-8 14:12 编辑

1、在实际采集时，会经常遇到一个文章列表的列表样式有变化，并且在采集文章时，文章页的模板也有几种模板。导致采集的时候只能采集到部分文章。
因此，建议在采集网址规则的时候增加一个并行处理机制（例如编辑多级网址规则时有一个并行选项，并可选择与其并行的规则），例如多级网址有 3个规则A和B、C， A规则和B规则互为并行规则，在获取多级网址的时候，当使用规则A取不到一级数据时，会再次使用B规则去获取一级网址列表，处理完后，得出的结果再套用C规则获取二级网址列表

2、同样，在采集文章内容或者其它标签时，也增加一个并行处理规则，即当A规则采集不到内容时，再采用B规则来处理，最好可以无限级增加并行规则。

3、目前程序无法增量采集论坛回复，程序只是以网址来判断是否采集过，从而选择是否跳过该网址，问题出现了：一般的论坛回复数是10个，当回复小于10时，例如只有1时，程序会采集该页，但是会自动把该页的网址设为已经采集，那当有回复2－9时，由于该网址已经被设定为已采集，程序就不会被采集剩下的2－9条回复到，因此会被漏掉。
因此，需要程序在重复采集的时候，强制重新采集状态为已采集的最后一页，因此建议在网址采集页里增加一个选项：是否强制采集已经采集的最后一页

不知道这样说版主明白不。

===========================================

看了下二楼的建议，正则已经学会了。但是第三个问题还是不能很好的解决。还是建议在软件采集网址处增加一个选项：强制采集最后一页

Quella 发表于 2012-9-4 22:29:06

1、2这种情况建议使用正则表达式, 可以匹配多模版
可以看看火车头早期做的一个教程:http://bbs.locoy.com/spider-19720-1-6.html

3. 建议使用火车采集器有另外一个产品论坛采集器专家(http://b.locoy.com/)

collins 发表于 2012-9-6 01:24:16

本帖最后由 collins 于 2012-9-6 01:49 编辑

看了下那个论坛采集器，功能不强。

例如不能只采集楼主一个人发的帖子。

lbjyuer 发表于 2016-2-10 18:19:35

历史帖子回顾中。

页: [1]

火车采集器软件交流官方论坛's Archiver

程序建议增加如下三项功能[重要]