程序建议增加如下三项功能[重要]
本帖最后由 collins 于 2012-9-8 14:12 编辑1、在实际采集时,会经常遇到一个文章列表的列表样式有变化,并且在采集文章时,文章页的模板也有几种模板。导致采集的时候只能采集到部分文章。
因此,建议 在采集网址规则的时候 增加一个并行处理机制(例如编辑多级网址规则时有一个并行选项,并可选择与其并行的规则),例如多级网址 有 3个规则A和B、C, A规则和B规则互为并行规则,在获取多级网址的时候,当使用规则A取不到一级数据时,会再次使用B规则去获取一级网址列表,处理完后,得出的结果再套用C规则获取二级网址列表
2、同样,在采集文章内容或者其它标签时,也增加一个并行处理规则,即当A规则采集不到内容时,再采用B规则来处理,最好可以无限级增加并行规则。
3、目前程序无法增量采集论坛回复,程序只是以网址来判断是否采集过,从而选择是否跳过该网址,问题出现了:一般的论坛回复数是10个,当回复小于10时,例如只有1时,程序会采集该页,但是会自动把该页的网址设为已经采集,那当有回复2-9时,由于该网址已经被设定为已采集,程序就不会被采集剩下的2-9条回复到,因此会被漏掉。
因此,需要程序在重复采集的时候,强制重新采集状态为已采集的最后一页,因此建议在网址采集页里增加一个选项: 是否强制采集已经采集的最后一页
不知道这样说版主明白不。
===========================================
看了下二楼的建议,正则已经学会了。但是第三个问题还是不能很好的解决。还是建议在软件采集网址处增加一个选项:强制采集最后一页 1、2这种情况建议使用正则表达式, 可以匹配多模版
可以看看火车头早期做的一个教程:http://bbs.locoy.com/spider-19720-1-6.html
3. 建议使用火车采集器有另外一个产品 论坛采集器专家(http://b.locoy.com/) 本帖最后由 collins 于 2012-9-6 01:49 编辑
看了下那个论坛采集器,功能不强。
例如不能只采集楼主一个人发的帖子。 历史帖子回顾中。
页:
[1]