rq204 发表于 2008-7-18 09:12:42

火车采集器2008版意见征集帖

新版本现在正在进行紧张的测试工作,新版修正了以前发现的BUG,并新添了许多功能。针对大家的需求,大家可以在下边提出你在使用中最想得到什么,可以就帮助文件,模块种类或是数量及其它问题提出您的意见或建议,问题或建议越详细越好。这个帖子跟帖要严肃,灌水或发无关帖者将被禁言。大家可以将自己最关心的问题提出
来,我会第一时间回复并处理。谢谢。

注意,每人只能占一楼。

先回复3楼:

1.暂不说
2.目前可以使用缩略图来获得相关数据,也就是在网址那块只有一个标签可以获得网址页里的内容。相当于一个标签。
3.这个新版在测试时可以看到分页结果
4.多页采集时的循环问题也解决了
5.输入法我这里测试一直没问题,有时也和使用的操作系统有关,可能是什么精简版本会出这问题
6.还相当于一个标签,只不过更容易操作
7.已经换了.sqllite
8.新版有post采集功能,可以采一些只能查询的数据库。但采集时同时post没多大必要,要采回复的话可以先回复所有要回复的帖,再采集。
9.新版有ftp功能了。
10.这个使用倒是不多,保留。
11.这个得具体情况具体分析了。
12.已提交
13.新版可以完美采集51job搜索结果
14.该条已提交


回复2楼:

1.这个再看一下需求的人数。
2.不一定是空格,有些制表符也是占一些位置,但是空的。正则考虑下。
3.无限深度,看下能实现不。
4.这主要是系统的问题,目前还没有好的解决方法。
5.一个个复制也很快呀
6.目前的版本最多可以在办公室和家里用,要更多的话只能购买企业版了。
7.这个没法做,人家能导入难道就不能导出了,一般规则的话你可以先让付款的.



回复4楼:

目前是每个依次发布相同的数据。要实现不同的发布配置发布不同的文章,目前还不行


回复5楼:

FTP同时上传并采集,会增加程序的资源使用,暂不加入。


回复6楼:

加文本重排功能,这个新版有外部程序接口,你可以通过接口实现你想要的任何效果。


回复7楼:

新版已解决分页时的循环。


回复8楼:

这个不是火车采集器的功能范围。


回复9楼:

这个可以使用导出导入等方法以达到更深度的网址采集,一般的深度也只有1或2层而已,深度越深,网址的提取和过滤也就麻烦,到不如分解到多个小的网址。


回复10楼:

正在处理中,具体原因正在找...


回复11楼:

已做好,可以自由组合


回复12楼:

1.不过标签那里也就是选个开头结尾的,一般也不存在很多的代码,影响不是很大。
2.这个暂时不回答
3.新版已加上了
4.谢谢支持


回复13楼

新版中有模块开发人员手册,针对DedeCms 5.1 和phpwind 6.3.2模块制作作了说明,可以参考,做模块更方便。


回复14楼

1.sy_标签的循环调用,这个待定
2.目前总的是每个任务都可以显示,可以考虑做成日志形式,记录每天采集发信信息。
3.这个有程序接口,你可以自行处理
4.这个不好判断,待定
5.你可以生成随机数,就时间戳的形式,也可以达到这结果。


回复15楼
1.这个功能我提交一下。
2.站点规则批量替换?什么意思?对于相同标签名的一次性更新吗?
3.这个在写规则时可以做到,同样,模块里也是可以自由组合的。


回复16楼
已解决


回复17楼
新版中将自动运行做为一个单独的模块分开来,使用更简单高效。


回复18楼
1.最上边的是公告,一般很少能注意到的.
2.这个是要改进.
3.可以.
4.你这个标准版,可以用外部接口的,很容易实现这功能.
5.现搞成sqlite了.


回复19楼
目前的就可以实现.更改模块或是规则


回复20楼
1.但 ajax不傻瓜呀,每个情况都可能不同的.
2.测试中.


回复21楼
1.同18楼2一样,是要改进.
2.测试中.



回复22楼
1.如果循环,那就规则明显了,采集应不会有很大问题
2.新版已完成
3.考虑下.


回复23楼
你用替换也可以呀,如果有什么特殊的用途,你可以使用处部接口,可以购买标准版,里边有.



回复24楼
是非常重要,提交


回复25楼
1.新版已可以采.
2.看看需要的人多不
3.这个在解决
4.新版有接口,你想怎么对采集的数据进行处理就怎么弄.
5.新版为参数
6.新版可以post数据,采返回结果
7.使用sqlite
8.这个用自动更新就可以了
9.你的什么规则?
10.那个是文件不存在时产生,解决中
11.这个方便,提交



回复26楼
1.功能强大不会使使用难度加大,因为你只用一小部分,不可能每个规则你什么功能都用上.
2.精简了最常用的功能,这不叫精简版.


回复27楼
1.提交.
2.新版可排列标签顺序.



回复28楼
内容摘要不一定完全一样吧.你也可以在数据库里过滤或CMS里设置下不同名.



回复29楼
1.目前有这功能,在全局设置里,高级版可以自定义.标题可以采集含有或不含有的内容.
2.功能多是多,但一般不会全用,只用一部分也可以.
3.新版面的是可以自动读取浏览器cookies的.



回复30楼
1.这别人很早发现了哈.
2.这个不是bug,网址采集你可以放灵活些.


回复31楼
1.目前不行,你只能改你的正则表达式了.或者购买标准版,自己加接口处理.
2.举个例子.
3.这个没多大必要,就是全保护我也可以轻松知道里边的内容.
4.有导入和导出功能,结合使用,一般都可以解决.
5.?


回复32楼
1.这个有些复杂.
2.目前转换是非常简单的,当购买或升级服务后,客服会告诉你方法.


回复33楼
1.我问下能破解不.
2.非常好的,提交下,主要是很多用户从不看模块说明.
3.新版有自动运行管理器.
4.PM下
5.整理界面比以前要亮多了.
6.已实现
7.内容可以随机发布
8.有接口,可以自己任意处理


回复34楼
最简单的就是做个接口,上传到网站,不用登陆,直接发布.



回复35楼
什么意思,不明白.


回复36楼
1.有的附件是一定要在采集散时下载的.
2.新版有自定义接口,可以自己编程对数据处理.使用也不难.
3.新版的新添了网络验证.换硬件一般不会影响很大,只要大件不换,都可以重新获得授权.购买后可以在家和单位用的.
4.批量是不方便,改进下.
5.PM我.
6.有接口的.新版本.




回复37楼
1.以前我查过Google,对于频繁的查询,会出验证码的.
2.目前还是只能在采集时处理,编码的话是采集到后再可视化编辑.



回复38楼
我建议下.



回复39楼
无法打开,不过新版有接口的,你可以自动获取.



回复40楼
标准版一直就有这功能,你可以联系我购买.



回复41楼

这个不好判断,具体要换什么不好分析.



回复42楼
新版有


回复43楼
1.没有多大用处,模块这里我在新版里会做一些教程
2.这个考虑一下.


回复44楼
目前版本还不能支持,不过肯定是要针对这方面做工作的


回复45楼
1.这个的话就要你自己写接口程序了,官方也可以做,但是收费的服务,如果需要,您可以支持一下我们工作.
2.这个目前版本可以实现
3.目前不做WEB采集器


回复46楼
我们会制作目前流行的主要的系统的模块免费提供给大家,是因为每个人使用的系统不一样,能很多我们也没听说过的或是大家自己开发的,我们不可能对每个系统都去研究一下.时,就需要你来自己动手做了,我们会提供相关的手册在新版里,您如果想节省时间,也可以联系我们定制.


回复47楼
这个工作在采集时不好做,你完全可以在数据里轻松的处理.


回复48楼
免费版本不支持此功能.


回复49楼
1.新版的不存在这问题
2.同上
3.这个具体情况请发bug区,谢谢
4.这个目前不会做大的更改,请问一下你具体要实现什么样的功能。
5.新版用的就是slite
6.已去.
7.这个功能开发目前还没纳入范围
8.目前是不会开发其它版本的.

回复50楼
目前火车的采集测试应是按部就班来的,和一般采集软件的步骤也是差不多的.


回复51楼
目前这功能只在标准版里.


回复52楼
1.如果全相等,那就不是随机了.
2.新版没有这问题,配置不会出错.
3.这个目前不考虑,只能是采集后再做处理了.



回复53楼
1.正则你肯定有自己的正则工具的,测试好了,接粘一下就OK
2.这个目前的只考虑实用性
3.同上一条.

回复54楼
要有具体的环境才可以,不然没法确定


回复55楼
你那多少的?我建议下,因为一般用的是很少的表.


回复56楼
1.这个存在程序分包的问题.如果全去.工作量大且易出错.
2.入库工具是需要购买的.
3.程序一直没有停止优化.
4.目前还没法细分,也就是完全的自由选择,只能定制.


回复57楼
请删除站点任务地址库


回复58楼
1.N个也可以
2.你设置成固定值不就可以了
3.没多大用处
4.你用正则
5.这看你有逻辑顺序没了
6.不明白你什么意思
7.刷一下没什么影响
8.你要网址时,编码有什么用?

回复59楼
标准版有

回复60楼
没有

回复61楼
接口不好做的


回复62楼
默认读取本地cookies,可以自行设定


回复63楼
1.下载图片这块一般的都没问题,有的其它工具也下不了,可能做过防盗工作
2.自动更新功能重写了,更好用



回复64楼
拖动那个任务栏的最右边的那个竖线

ghostscat 发表于 2008-7-18 09:21:55

1、图片(附件)本地化的时候,自动重命名应该可以自定义路径自定义命名规则,最好是内置ftp同步上传
2、标签内容过滤html标签全选后,还是有很多没过滤的如:空格,内容排除也加上正则支持吧。
3、多页面采集地址无限深度,有些是多页面采集地址里面的地址还要采集出来再获取内容。
4、发布模块支持多用户登陆,现在是接口文件实现的,现在碰到分类信息之类的系统是要前台登陆发布的,像5d6d这样空间不能上传接口文件就无法实现多用户发布。
5、标签批量复制功能。跨任务复制(任务规则里复制一个标签到站点规则里就会不正常,不知道是不是个别现象)

6、正版验证不绑定机子,用户名登陆或者其他验证都行,一天在三四台电脑间轮流用,实在没办法固定。这点是最希望改进的,也是因为这点我还没成为VIP版用户,目前价格都能承受。

7、火车头官方能否考虑下规则模块的版权问题?如试用几次后自动失效,现在给别人定制服务真难做啊...一发出去什么保障都没了。

[ 本帖最后由 ghostscat 于 2008-7-21 12:25 编辑 ]

adminkk 发表于 2008-7-18 09:33:41

1.内容标签采集的内容可以标签与标签内互相调用
2.第一采集设置自定义采集规则时可以除采集缩略图外,可以自己定义标签
3.多页采集能更灵活.比如测试多地址外可以测试多页内容
4.多页循环与多页标签循环问题
5.输入法问题
6.任务内直接定义的参数,可在任务列表树中的右键菜单中快捷修改,该标签可直接用在WEB发布和数据库发布模块中使用,并在发布时替换为该处定义的值
这个不明白什么意思
7.本身采集数据库AC.太慢
8.最近能采集内容时也可以post数据设置.这样就可以采集要回复的贴子了

补充:
9.定时上传Ftp加水印功能.
10.任务拷贝功能.不能从这个任务的标签拷贝到别一个任务内.
11.两任务发布功能.也就是说小说封面与章节分步发布问题.第一个任务与第二个任务可以建里关系.如:人才网数据. 采集企业信息.及企业发布的人才数据.应该是两个任务才能完成的关系.能否通过一个标签相互关联
12.增加采集js页的内容及XML页的内容
13.增加采集AJAX页的内容.采集时可以有post选择.如采集51job搜索结果
想到一个重要的功能
14:一个标签如果没有采集到相关内容
让它用设定好的一个默认值作为这个内容的值(默认值自己可以设定)这样发布就不会出错了

[ 本帖最后由 adminkk 于 2008-7-20 22:44 编辑 ]

gototo 发表于 2008-7-18 12:10:27

把[每次发布最大记录条数]设为10,发布模块添加了5个,能不能使每个模块轮流或同时发10条不重复的内容.不想发相同内容到其它模块里了.

[ 本帖最后由 gototo 于 2008-7-18 12:58 编辑 ]

mr3gz 发表于 2008-7-18 12:51:39

强烈支持加上内置的FTP上传功能,这样可以实现定时采集,定时上传。

学而时习之 发表于 2008-7-18 14:01:18

原帖由 rq204 于 2008-7-18 09:12 发表 http://bbs.locoy.com/images/common/back.gif
新版本现在正在进行紧张的测试工作,新版修正了以前发现的BUG,并新添了许多功能。针对大家的需求,大家可以在下边提出你在使用中最想得到什么,可以就帮助文件,模块种类或是数量及其它问题提出您的意见或建议, ...
建议增加SEO优化功能,将原标准版内的转换英文、提取关键词等放在一起;
建议增加文本重排功能,可以将文字按段落或标点,随机重新排版,主要用于SEO。

soarb 发表于 2008-7-18 18:49:28

火车头对我来说是一个很强大的辅助工具!目前80%会员反映的问题我都能自行diy解决!

希望下版中增加更多的协议.
多面采集与循环就不说了.

其它的问题都不是问题.

gghggh 发表于 2008-7-18 19:13:08

2008版有没有“创建模板,本地自动生成列表,生成网站”这个功能?

yangkang 发表于 2008-7-18 20:03:15

采集深度,参加点吧!

smj328 发表于 2008-7-18 20:25:00

有没有解决sql入库分次发布是总是出错,总是要重启火车头以后才可以再次发布?
页: [1] 2 3 4 5 6 7 8
查看完整版本: 火车采集器2008版意见征集帖