fillins 发表于 2008-7-23 16:33:04

1.能否实现正则和标记结合使用?即可以匹配指定区域的正则表达式
2.有某些论坛(或其他程序),总无法登录,cookie总显示为空,希望可以解决
3.模块能否推出某些机制,即部分核心内容无法变更,由密码保护,其他可以随意修改?(最好把模块的版权性变强一些,比如模块作者是不能去掉的~)
4.二级网址功能太弱,能否加强?
5.希望可以解决不关闭任务,无法变更目标站分类的bug.
先提这五个,想起来再说

[ 本帖最后由 fillins 于 2008-7-23 16:34 编辑 ]

xiaozhang 发表于 2008-7-23 17:32:15

强列建议增加同义词替换功能

最好能有智能分词功能的出现。

并且好做出选择是对标题进行替换,还是全文,还是两个一起替换。

2、转移功能,就是原来我是用的免费版 ,后来用的企业版,如果快速的把原来的数据与规则什么的都转移到企业版中去。

今天又发现一个问题,希望能得到解决:sy_摘要这个标签没有过滤或替换功能。 问题是,当以规定的字符数截取内容标签的前多少字时,有可能正好截取到“?”,就容易形成 <meta name="description" content=" 火车采集器|信息数据采集论坛 火车头采集器,网页内容采集及处理软件,可以在线发布实时发布到网站,也可以直接更新到数据库?> 这最后的?>就与PHP语法对应起来,网页就出错了。

[ 本帖最后由 xiaozhang 于 2008-8-5 15:33 编辑 ]

vus520 发表于 2008-7-23 20:20:43

大家都说得差不多了,有几点要提一下。

1,关于下载附件的命名问题,这个问题急需解决;
   由于迅雷和快车两个组件导入列表时不支持目录存放功能,所以这个地方还是有比较大的难度的。从目前来看,迅雷的数据库是否可以破解一下,火车的下载列表直接保存为迅雷的数据库。

2,在模块制作与规则制作这两个功能,应该好好结合一下,我已经提过很多次了。模块做好以后,里面已经定义好了很多标签,用户建立规则的时候,就需要手动建立这些标签,目前,火车制作规则是和模块分开的,能不能这样设计,用户下载或者先做好模块,这里就已经定义好了我们需要的标签,制作规则时,选择我们需要的模块,程序自动读取出模块里的标签并自动建立。
       这样可以解决三个问题,制作规则不用再看模块,不会出现发布的内容中还含有[标签XXXX],保护和强化模块加密这个功能。

3,建议火车增加一个外部调用的功能,比如命名行调用参数,使用任务计划启动火车某个任务,以弥补现行火车自动化功能的不足。

4,火车还不支持ESC等这些常见快捷键,不方便操作。

5,火车的界面确实有待大幅提升一下,文本输入框最好能自定宽度和高度,现在的框框真是太小了。

6,已采集数据的编辑功能应该加强一下,可视化编辑与批量编辑(查找替换,删除)功能。

7,增加内容随机发布时间,间隔为自定义的随机值。

8,目前的SY_一类的标签,最好是可以改一下,可以对本标签和其它标签内容进行数据处理。

覃生 发表于 2008-7-23 20:54:38

内容发布,还不够傻瓜式,比较难用,
我一下子就学会采集了,
但是在一些系统里发布,老是学不会,假如是大家都用的系统,还好,
要是没什么人用的系统,比如是用了一些层啊,或者用了AJAX技术的,
基本上,不会发布了,
不知,能不能,发布内容的功能,做得更加傻瓜式,
比如,可以做成,
在火车头的一个特殊浏览器里,打开发布内容的页面,
火车头特殊浏览器把网页按实际情况切成一块一块的标签块,
用户,根据提示,选择哪一块是属于标题,哪一块是放内容的,等等,
火车头特殊浏览器分析,用户的选择,最后,保存,这样,应该人人都会发布了,哈哈。。。
假如是做成这样,那么方便多,傻瓜式多咯
不知,能不能实现,谢谢了。

[ 本帖最后由 覃生 于 2008-7-23 20:57 编辑 ]

xioayao 发表于 2008-7-23 21:42:24

一个小建议,
对于内容替换与内容排除选项是不是可以添加一个暂停的小功能

indiboy 发表于 2008-7-24 04:09:19

一、能不能附件下载和采集任务分开?采集的时候不要下载附件,到最后统一下载。这样采集时不至于太卡了

二、还有就是增加SY的一些运算符,+ - x 除,这样采集的时候自动归类有好处比如说采集ID,1,2,3 顺序排列,而你的是 4,5,6 这样原来的数字+3就可以了。呵呵

三、上面已经提过的商业版的验证问题,能不能帐号的方式(CDkey),网络验证,而不是现在的硬件绑定,现在是想买不敢买,首先是机器想换,换机器了前就没有了,或者想升级硬件什么的,超级不爽,其次是一般人都是单位家里跑,总不能买两个吧,并且单位的机器流动性比较大。最后就是做IT的一般都是到处跳槽,呵呵

四、替换和全局替换的问题,能不能换一种方式?

例如:一下内容放在一个框里面,最好存文本,

前字符|后字符
前字符|后字符
前字符|后字符
前字符|后字符

或者类似?这样输入什么的都方便,现在一个一个加累死人,鼠标都点坏了。

五、采集来源页面的问题。 我再采集elong.cn的时候,采集的时候需要来源页面,没有来源页面采集到的内容一样,好像是POST数据,采集不到分页

六、能不能给火车更大的开放性,比如说提供一个外挂的接口,可以基于接口开发外挂。


其他的想起来再编辑

[ 本帖最后由 indiboy 于 2008-7-24 04:27 编辑 ]

sushy 发表于 2008-7-24 08:43:50

对翻译功能的一点建议

这个功能我没有用过。

不过昨天测试了几个高校的校名,和我想象中的相差甚多。

火车虽然自带了几M的中英文数据库,但语法结构的翻译和词汇的数量上,显然还是不够的。

既然是一款采集软件,我们能否充分利用采集功能,使用那里主义。

google 翻译
http://www.google.cn/language_tools
http://translate.google.com/translate_t?sl=zh-CN&tl=en

yahoo翻译
http://fanyi.cn.yahoo.com/translate_txt

通联免费在线翻译网站
http://www.onlinetranslation.cn/


金桥翻译
http://trans.netat.net/index.php

微软翻译:
http://www.windowslivetranslator.com/Default.aspx

worldingo:
http://www.worldlingo.com/en/products_services/worldlingo_translator.html



另外,建议能对已采集的内容进行再编辑。就有点类似于现在的翻译成拼音功能。

比如我现在有 A 标签,采集的内容我觉得很满意。现在想在A标签的基础上制作一个B标签,内容从A标签内根据一定的规则获得。

sushy 发表于 2008-7-24 08:54:41

关于对第22楼第一条建议的解释:

http://daxue.baidu.com/

这个页面中,如果我要采集当前页 的大学名称和网址,其中,只采集以 D 开头的部分。那么这个功能就好用了。

首先用 <a name=D></a> 到</ul> 将 D 部分切割出来,然后再循环采集切割出来的内容。

sunray 发表于 2008-7-24 10:59:39

目前的火车分词技术只能分词标题,
管理员看看 discuz 的这个连接 ,他们的自动获取tags就是这个分词页。
http://keyword.discuz.com/related_kw.html?title=$subjectenc&content=$messageenc&ics=$charset&ocs=$charset
建议增加远程获取关键词接口的功能,这样对关键词的获取可以扩大到内容里

[ 本帖最后由 sunray 于 2008-7-24 11:01 编辑 ]

datoulab 发表于 2008-7-24 11:52:11

关于SEO优化的一点建议

我们知道,为了让百度收录更多的内容,就是保持你的站点活跃,每日更新,如果我们一次采集N多文章更新的话,百度可能会知道你采集而K站。
我们一般都是发现一个站点就能采集N多文章,要是一次都发布出去收录效果不好还可能会被K。采集完一个站点后没有新的站点要采集,几天可能就不更新。
建议将采集来的内容定时定量的发布,可以设置每天发布多少文章,这样就可以保持站点活跃了,也不用每天都采集了!
页: 1 2 3 [4] 5 6 7 8
查看完整版本: 火车采集器2008版意见征集帖