火车采集器2008版意见征集帖 - 第4页 - 站务管理 - 火车采集器软件交流官方论坛

fillins 发表于 2008-7-23 16:33:04

1.能否实现正则和标记结合使用？即可以匹配指定区域的正则表达式
2.有某些论坛(或其他程序),总无法登录,cookie总显示为空,希望可以解决
3.模块能否推出某些机制,即部分核心内容无法变更,由密码保护,其他可以随意修改？(最好把模块的版权性变强一些,比如模块作者是不能去掉的~)
4.二级网址功能太弱,能否加强？
5.希望可以解决不关闭任务,无法变更目标站分类的bug.
先提这五个,想起来再说

[ 本帖最后由 fillins 于 2008-7-23 16:34 编辑 ]

xiaozhang 发表于 2008-7-23 17:32:15

强列建议增加同义词替换功能

最好能有智能分词功能的出现。

并且好做出选择是对标题进行替换，还是全文，还是两个一起替换。

2、转移功能，就是原来我是用的免费版，后来用的企业版，如果快速的把原来的数据与规则什么的都转移到企业版中去。

今天又发现一个问题，希望能得到解决：sy_摘要这个标签没有过滤或替换功能。问题是，当以规定的字符数截取内容标签的前多少字时，有可能正好截取到“？”，就容易形成 <meta name="description" content=" 火车采集器|信息数据采集论坛火车头采集器，网页内容采集及处理软件，可以在线发布实时发布到网站，也可以直接更新到数据库？> 这最后的？>就与PHP语法对应起来，网页就出错了。

[ 本帖最后由 xiaozhang 于 2008-8-5 15:33 编辑 ]

vus520 发表于 2008-7-23 20:20:43

大家都说得差不多了，有几点要提一下。

1，关于下载附件的命名问题，这个问题急需解决;
由于迅雷和快车两个组件导入列表时不支持目录存放功能，所以这个地方还是有比较大的难度的。从目前来看，迅雷的数据库是否可以破解一下，火车的下载列表直接保存为迅雷的数据库。

2，在模块制作与规则制作这两个功能，应该好好结合一下，我已经提过很多次了。模块做好以后，里面已经定义好了很多标签，用户建立规则的时候，就需要手动建立这些标签，目前，火车制作规则是和模块分开的，能不能这样设计，用户下载或者先做好模块，这里就已经定义好了我们需要的标签，制作规则时，选择我们需要的模块，程序自动读取出模块里的标签并自动建立。
这样可以解决三个问题，制作规则不用再看模块，不会出现发布的内容中还含有[标签XXXX]，保护和强化模块加密这个功能。

3，建议火车增加一个外部调用的功能，比如命名行调用参数，使用任务计划启动火车某个任务，以弥补现行火车自动化功能的不足。

4，火车还不支持ESC等这些常见快捷键，不方便操作。

5，火车的界面确实有待大幅提升一下，文本输入框最好能自定宽度和高度，现在的框框真是太小了。

6，已采集数据的编辑功能应该加强一下，可视化编辑与批量编辑（查找替换，删除）功能。

7，增加内容随机发布时间，间隔为自定义的随机值。

8，目前的SY_一类的标签，最好是可以改一下，可以对本标签和其它标签内容进行数据处理。

覃生发表于 2008-7-23 20:54:38

内容发布，还不够傻瓜式，比较难用，
我一下子就学会采集了，
但是在一些系统里发布，老是学不会，假如是大家都用的系统，还好，
要是没什么人用的系统，比如是用了一些层啊，或者用了AJAX技术的，
基本上，不会发布了，
不知，能不能，发布内容的功能，做得更加傻瓜式，
比如，可以做成，
在火车头的一个特殊浏览器里，打开发布内容的页面，
火车头特殊浏览器把网页按实际情况切成一块一块的标签块，
用户，根据提示，选择哪一块是属于标题，哪一块是放内容的，等等，
火车头特殊浏览器分析，用户的选择，最后，保存，这样，应该人人都会发布了，哈哈。。。
假如是做成这样，那么方便多，傻瓜式多咯
不知，能不能实现，谢谢了。

[ 本帖最后由覃生于 2008-7-23 20:57 编辑 ]

xioayao 发表于 2008-7-23 21:42:24

一个小建议，
对于内容替换与内容排除选项是不是可以添加一个暂停的小功能

indiboy 发表于 2008-7-24 04:09:19

一、能不能附件下载和采集任务分开？采集的时候不要下载附件，到最后统一下载。这样采集时不至于太卡了

二、还有就是增加SY的一些运算符，+ - x 除，这样采集的时候自动归类有好处比如说采集ID，1，2，3 顺序排列，而你的是 4，5，6 这样原来的数字+3就可以了。呵呵

三、上面已经提过的商业版的验证问题，能不能帐号的方式（CDkey），网络验证，而不是现在的硬件绑定，现在是想买不敢买，首先是机器想换，换机器了前就没有了，或者想升级硬件什么的，超级不爽，其次是一般人都是单位家里跑，总不能买两个吧，并且单位的机器流动性比较大。最后就是做IT的一般都是到处跳槽，呵呵

四、替换和全局替换的问题，能不能换一种方式？

例如：一下内容放在一个框里面，最好存文本，

前字符|后字符
前字符|后字符
前字符|后字符
前字符|后字符

或者类似？这样输入什么的都方便，现在一个一个加累死人，鼠标都点坏了。

五、采集来源页面的问题。我再采集elong.cn的时候，采集的时候需要来源页面，没有来源页面采集到的内容一样，好像是POST数据，采集不到分页

六、能不能给火车更大的开放性，比如说提供一个外挂的接口，可以基于接口开发外挂。

其他的想起来再编辑

[ 本帖最后由 indiboy 于 2008-7-24 04:27 编辑 ]

sushy 发表于 2008-7-24 08:43:50

对翻译功能的一点建议

这个功能我没有用过。

不过昨天测试了几个高校的校名，和我想象中的相差甚多。

火车虽然自带了几M的中英文数据库，但语法结构的翻译和词汇的数量上，显然还是不够的。

既然是一款采集软件，我们能否充分利用采集功能，使用那里主义。

google 翻译
http://www.google.cn/language_tools
http://translate.google.com/translate_t?sl=zh-CN&tl=en

yahoo翻译
http://fanyi.cn.yahoo.com/translate_txt

通联免费在线翻译网站
http://www.onlinetranslation.cn/

金桥翻译
http://trans.netat.net/index.php

微软翻译：
http://www.windowslivetranslator.com/Default.aspx

worldingo：
http://www.worldlingo.com/en/products_services/worldlingo_translator.html

另外，建议能对已采集的内容进行再编辑。就有点类似于现在的翻译成拼音功能。

比如我现在有 A 标签，采集的内容我觉得很满意。现在想在A标签的基础上制作一个B标签，内容从A标签内根据一定的规则获得。

sushy 发表于 2008-7-24 08:54:41

关于对第22楼第一条建议的解释：

http://daxue.baidu.com/

这个页面中，如果我要采集当前页的大学名称和网址，其中，只采集以 D 开头的部分。那么这个功能就好用了。

首先用 <a name=D></a> 到</ul> 将 D 部分切割出来，然后再循环采集切割出来的内容。

sunray 发表于 2008-7-24 10:59:39

目前的火车分词技术只能分词标题，
管理员看看 discuz 的这个连接，他们的自动获取tags就是这个分词页。
http://keyword.discuz.com/related_kw.html?title=$subjectenc&content=$messageenc&ics=$charset&ocs=$charset
建议增加远程获取关键词接口的功能，这样对关键词的获取可以扩大到内容里

[ 本帖最后由 sunray 于 2008-7-24 11:01 编辑 ]

datoulab 发表于 2008-7-24 11:52:11

关于SEO优化的一点建议

我们知道，为了让百度收录更多的内容，就是保持你的站点活跃，每日更新，如果我们一次采集N多文章更新的话，百度可能会知道你采集而K站。
我们一般都是发现一个站点就能采集N多文章，要是一次都发布出去收录效果不好还可能会被K。采集完一个站点后没有新的站点要采集，几天可能就不更新。
建议将采集来的内容定时定量的发布，可以设置每天发布多少文章，这样就可以保持站点活跃了，也不用每天都采集了！

页: 1 2 3 [4] 5 6 7 8

火车采集器软件交流官方论坛's Archiver

强列建议增加同义词替换功能

对翻译功能的一点建议

关于SEO优化的一点建议