火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
楼主: rq204

火车采集器2011版功能建议帖

[复制链接]
发表于 2011-4-10 13:48:13 | 显示全部楼层
我也来提个建议
采集层次太少了好像就3层把?希望可以自己定义层数
现在电影站什么的都是4-5层了把?
也建议标签可以灵活调用
先怎么多其实很多想法就不多说了
说多就像火车就成站群了

评分

1

查看全部评分

发表于 2011-4-11 11:05:22 | 显示全部楼层
图片目录问题,希望能自动生成目录,采集的时候可以根据采集对象的目录来放置采集下来的图片等文件。

评分

1

查看全部评分

发表于 2011-4-13 14:28:00 | 显示全部楼层
1,感觉一些标准版功能可以放到免费版了,现在单纯以软件做卖点的很少了,

用户买软件实际上是购买一个的扩展的售后服务。

2,现在的ocr功能相对太弱了,如果能内置一些成熟的识别组件或引擎,效果会更好,

论坛上有会员发布的一些

3,使用Nosql性能上可能会好些,但Mongodb好像不大成熟,而且32位下最大2G

评分

1

查看全部评分

发表于 2011-4-14 10:16:47 | 显示全部楼层
1,采集顺序: 设置自上向下,或自下向上
2,采集条目数量: 全部/数字/随机
3,标题字数采集控制【过长的文章标题的不采集】
4,标题敏感词过滤功能
5,图片水印
6,发布模块的post取消原来的值方式,用一个变量一个值的方式会不会好些,用的人更通俗易懂,
暂时就这些,可能有些和商业版已经有,本人用的是免费版,说的不好请见谅!

评分

1

查看全部评分

发表于 2011-4-15 10:09:47 | 显示全部楼层
建议开发计划加入这3个我认为比较重要的功能:)

1、“链轮”功能

现在网站之间,用老站提拔新站是趋势,我们火车头如果支持“轮链”,就可以在网站之间相互传导权重了!

在每个采集后的URL,都记录到“链轮记录器”里面,如果想要做网站与网站之间的互链轮就自己设置下:)

现在的虫虫,甚至一些垃圾站群软件都支持链轮功能了,我们火车头也考虑下老站带新站的这种轮链的意义吧


2、“英译中”功能

呵呵,没错是采集英文再翻译成中文,这种应用,我这里不是为了建垃圾站,而是要采集google一些学术专业的医用文章,自动翻译过来,带给用户价值,并且保留英文版权申明。

其实,和大家汇报下,“英译中”功能真实应用案例,比如我要原创很多“隆鼻”文章怎么办?很专业不会写啊!实际是这样做的:用“隆鼻”》翻译成英文单词》再用这个词搜索大量英文文章》再翻译成中文文章,后这样专业内容,可读性竟然相当的高,解决了大家一直困扰的,专业领域文章原创的问题。所以强烈建议火车头加上这个小小的“英译中”功能:)


3、在内容采集时,也加上“页面内选定区域采集”从_____到______

这样在做内容采集规则时,我们就可以自由告诉火车头,要采集的标签是从哪段代码开始采,采到哪里结束,而不是让火车头通篇判断后,再由我们规则识别后去掉。 小小的建议,一定要加上哦:)


支持火车头,强烈建议加上这些改版计划:)

评分

1

查看全部评分

发表于 2011-4-17 10:01:41 | 显示全部楼层
建议添加以下小功能:
发布完成后清空采集数据 清空任务地址库的复选框
有这两个功能的活,自动运行的任务可以实现更多的功能。比如抓取最新的回复

评分

1

查看全部评分

发表于 2011-4-20 20:20:15 | 显示全部楼层
增加一个动态换ip,adsl换ip,在采集期间。方式可以按时间,或者是按采集多少条后,换ip
发表于 2011-4-21 23:37:49 | 显示全部楼层
增加一个动态换ip,adsl换ip,在采集期间。方式可以按时间,或者是按采集多少条后,换ip
xizhengchao 发表于 2011-4-20 20:20


这是个实用的功能啊。可以加 adsl换ip,或导入代理,自动更换代理。采集。这样就可以破除IP限制了。

    一定要加上POST方式采集啊,这两个可是采集的核心功能。


  发布模块中,要加上自动登录。不然每次发布时,要去点一下登陆获取COOKies很麻烦。
发表于 2011-4-22 08:21:18 | 显示全部楼层
http  ip代理,火车已经有了,但是这个不稳定,速度慢,adsl换ip,如果加上,绝对强悍。
发表于 2011-4-26 17:41:24 | 显示全部楼层
列表地址能不能增加个替换功能

如我只能采集到
http://www.xxxxx.com/user/2424.htm
实际地址是
http://www.xxxxx.com/2424.htm

需要将采集到的地址再替换加工才能得到真实地址。

评分

1

查看全部评分

您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-3-31 13:08

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表