speculator 发表于 2007-5-12 18:12:57

建议:火车头下一个版本的改进建议

1、内容标签重复多次,既采集一个叶面中多个帖子的时候,中间的连接符目前是|||||,以后应该可以自定义,比如自定义为换行符<br>
2、可以将某个标签的采集特性复制到新建标签或者其他标签,或者其他任务的标签;
可以导出某个标签的过滤规则并导入到其他标签。
3、html过滤的时候,好像只能过滤前半部分,后半部分比如</a>没法自动过滤
4、地址采集、文章采集与入库三者分开,方便选择、编辑或者整理,
暂时这么多,以后补充。

speculator 发表于 2007-5-12 18:15:02

5、可以针对文章列表里面的文章名称里的某些关键词或html标志进行过滤,比如只采集标有"精华"
的帖子。

rq204 发表于 2007-5-12 19:13:18

5、可以针对文章列表里面的文章名称里的某些关键词或html标志进行过滤,比如只采集标有"精华"的帖子。

:L 只采精华的话还用加。。

speculator 发表于 2007-5-12 20:06:32

内容分页采集可以设定匹配次数,比如只采集1-13页,或者只采集带某个标记的分页

speculator 发表于 2007-5-13 01:16:42

增加作者功能。采集论坛的帖子的时候,有时候需要只采集搂主的发言,这就需要能自动识别第一个作者的名称,并自动匹配所有这个搂主在这个的发言。
页: [1]
查看完整版本: 建议:火车头下一个版本的改进建议