sengl 发表于 2008-7-21 20:13:38

自动分词功能在3.2版里不好用.在内容分词里总是第一句话分开做词.没有实现分词效果.新版里不知改进没有.
还有全局替换功能.   开起后.在采集测试里看到替换成功.   发布后没有替换.

sushy 发表于 2008-7-21 20:57:08

1. 建议采集内容部分,能像采集网址一样,采集从*****到*****的内容。然后对这块的内容进行循环采集。这样就可以过滤无效信息。

2. 建议采集分页的地方能增加一个显示分页列表功能。这样点击一下,就可以查看自己采集的分页列表是否正确。接下来再采集分页内容就更easy。现在是不给看分页列表,写规则后直接测试分页内容。错了得话,明知道分页列表可能不正确,但是不知道为什么不正确。

3. 建议在采集的时候也能像发布的时候一样,增加一个自动登陆功能。原因很简单,比如我采集某论坛,该板块需要高级权限。3.2版要手动打开内置浏览器登陆后才能采集。如果我把火车开为自动档,很明显就会采集错误。既然发布都可以自动登陆,自动发布。那么为什么采集不做自动登陆模块呢?

jjamw 发表于 2008-7-21 22:50:49

在采集内容页时,能不能给我几个设备加广告的位置??

linyuan 发表于 2008-7-22 00:05:33

我的建议:
问题是这样,我们常常遇到网点的页面结构发生变化,这个时候我们已经设置好的任务采集规则也需要调整,目前的版本只能是站点下的任务逐个逐个手工调整,好烦啊。
我有个站点下面有50个栏目,每个栏目的规则都要手工调整一次,烦到手软啊。
能否在站点那里设置好,然后同一个站点的下的任务能全部更新呢?

不知道我的描述你能否理解,但是这个功能真的很重要,对于效率非常要紧,非常使用。

fireye 发表于 2008-7-22 01:14:27

1.希望能加强论坛分页的采集,目前火车只能采到第一页,
2.火车能任务能批量导出与导入,火车任务能复制到另外一列火车上,而不是只能在本列.
3.希望新版能很好的解决 &变成26%的问题,这个问题困惑我很久了.
4.希望火车规则能加上,一些算法,比如,加减乘除,比如,我价的是价格,我想价格采集时火车能进行折扣计算.方便我入库到一些网店中.
5.火车分页功能希望能加上[参数],并且能更加灵活的运用,
6.网址采集一级不能POST数据的问题,希望火车新版能够解决.
7.火车任务能否使用mhysql数据库,传统的MDB数据库容易出错,特别任务N多的时候,想双击某个任务时,往往不是你要双击的,比较郁闷.
8.自动更新任务能否监视目标站,实惠实时同步更新,呵呵 .
9.是否能解决火车目前下载图片时自动退出的问题.
10.新版是否彻底解决了火车下载图片产生N多垃圾文件夹的问题?
11.火车发布时右边产生错误的日志路径能否不在先停止任务后用手功拖过去复制才能打开,能不能直接点击就能查看.

piggie 发表于 2008-7-22 22:30:05

功能我倒是觉得非常强大了,就是稳定性有待提高。

而且使用复杂度也越来越高,所以用也用得有点辛苦呢。

我建议搞个精简版,超快速度的那种。不提供什么图片下载这些功能,只提供简单采集,入大库和提供翻译功能就行。

zengfenghua 发表于 2008-7-23 10:43:30

火车中有导出 CSV文件 的功能,在采集数据是国外的网站,比如:韩文,虽然数据在ACCESS中显示正常,但是导出的CSV文件打开后是乱码【PS:韩文的编码是euc-kr】,估计是编码的问题!
1 增加自定义编码导出CSV文件,解决国外网站数据导出CSV文件乱码的问题!
2 在导出CSV文件前,可以在采集好的ACCESS中选择,按标记好的"列顺序",导出制定列的数据!

datoulab 发表于 2008-7-23 12:12:21

建议多站采集类似内容过滤重复内容

为了使站点内容更多,往往从多站采集同类内容,而这几个网站上的内容大部分文章相同,不同的只有一部分,都采集发布会有很多重复!
建议根据内容摘要过滤重复的文章!

sesxc 发表于 2008-7-23 13:31:26

1. 希望能增加一个"中间过滤规则" 用于负责过滤所有站点任务下的通用不良词汇,而不用每个都单独去设置.
另外在中间过滤规则中对标题和内容中有不良词汇的,自动拦截其发布出去.同时记录下,下次发布时跳过这些内容.(此功能还能在只采集符合要求主题时发挥过滤作用,比如在采集一个美剧和港剧混杂的论坛,而站长只需要港剧,那么只要在中间过滤规则中设定美剧为过滤词.采集器便会剔出美剧,采到站长需要的港剧资源) 能大大简化过滤环境,不在需要为此而用正则或是SQL数据库后期处理了.

2.希望能简化部分采集操作.尽可能的降低站长在制作采集调试规则时的步骤,

3. 在登陆网站采集时,cookie的作用时间很短,往往数分钟过后就失效了,又要重新登陆,特别是在采DZ类论坛搜索界面时,经常间隔性访问.希望能将保留DZ 的cookie 时间设定到火车头里.

datoulab 发表于 2008-7-23 14:59:21

发现两个bug

1、标签循环匹配时,只有内容页第一页循环匹配,分页却只匹配一次;
2、采集网址为二级深度时,分类列表只能采集第一页,无法采集分页。
页: 1 2 [3] 4 5 6 7 8
查看完整版本: 火车采集器2008版意见征集帖