speculator
发表于 2007-5-13 22:44:45
1、内容标签重复多次,既采集一个叶面中多个帖子的时候,中间的连接符目前是|||||,以后应该可以自定义,比如自定义为换行符<br>
2、可以将某个标签的采集特性复制到新建标签或者其他标签,或者其他任务的标签;
可以导出某个标签的过滤规则并导入到其他标签。
3、html过滤的时候,好像只能过滤前半部分,后半部分比如</a>没法自动过滤
4、地址采集、文章采集与入库三者分开,方便选择、编辑或者整理,
暂时这么多,以后补充。
5、可以针对文章列表里面的文章名称里的某些关键词或html标志进行过滤,比如只采集标有"精华"的帖子,比如只采集标题里标有“原创”的帖子。
6、增加作者功能。采集论坛的帖子的时候,有时候需要只采集搂主的发言,这就需要能自动识别第一个作者的名称,并自动匹配所有这个搂主在这个帖子的发言。
maya0457
发表于 2007-5-13 23:44:49
什么时候能采集论坛的一个栏目啊,就是完整复制,还有支持换用户名发到,弄个3000个用户名随机发表。
fyouck
发表于 2007-5-15 11:55:48
用javascript或者页面用隐藏参数提交表单来实现翻页的采集问题,一定要想办法解决啊
happyfish
发表于 2007-5-15 17:54:08
期盼中啊
laoxizi
发表于 2007-5-16 07:43:58
老大,我使用现在的版本时候遇到一个问题,就是有些网站限制浏览页面数量,请问用什么方法能在下一个版本中解决呢?谢谢~
破裤男人
发表于 2007-5-17 20:51:03
强......不知道什么时候发布
zzsf
发表于 2007-5-18 14:15:35
:( :( :( :(
我来几天了,到现在还一点不会..郁闷....:L :L :L :L
whoamixp
发表于 2007-5-18 16:22:29
什么时候能出呀,6.1?
deman
发表于 2007-5-18 17:22:02
采集下载图片地址的时候希望区分下大小写
yelp
发表于 2007-5-18 23:28:19
希望html代码增加大小写忽略
现在用3.1的版本,在采集一些网站时,如果网站的html代码写得不规范,有些页面是大写html标签,而有些却是小写标签,就不能一次采集,需要写两次规则。
页:
1
2
3
4
[5]
6
7
8
9
10
11
12
13
14