发新话题
打印

火车采集器2008版意见征集帖

本主题由 rq204 于 2008-7-18 09:14 设置高亮
在”采集内容规则》同时采集多个页面“的页面地址,希望有更加灵活的功能!比如:不单单只能采集源代码中“新页面”的URL地址,而且可以根据采集的参数,自由组织新页面
URL的格式!
原来的程序功能页面:


改进”采集内容规则》同时采集多个页面“功能 可以参考火车原来就有的功能,如图:


不知说清楚没有!保持关注........
附件: 您所在的用户组无法下载或查看附件
本帖最近评分记录
  • rq204 火车车厢 +4 谢谢您的提议 2008-7-19 16:52
  • rq204 活跃度 +10 谢谢您的提议 2008-7-19 16:52

TOP

1。对标签地址等编辑窗口优化下咯,希望可以随内容数据而增大,这样可以更为清楚的编辑某些数据(特别是列表地址使用正则方法时)
2。在编辑站点中,实现继承的图片保存文件夹(地址),和继承的发布模块
3、增加规则的 自增ID参数   就可以避免增加标签寻找内容变量的麻烦了,
4。待增加,顺便支持下火车技术!

[ 本帖最后由 花子 于 2008-7-19 17:08 编辑 ]
本帖最近评分记录
  • rq204 火车车厢 +4 谢谢支持 2008-7-19 16:56
  • rq204 活跃度 +8 谢谢支持 2008-7-19 16:56

TOP

建议在模块制作中把抓包工具和转换乱码工具集成进去!
同时希望模块工具能更人性化,更简单易用
本帖最近评分记录
  • rq204 活跃度 +4 谢谢您的建议 2008-7-20 08:41
  • rq204 火车车厢 +2 谢谢您的建议 2008-7-20 08:41

TOP

设置标签顺序 SY_1 SY_2   两标签 SY_2对SY_1进行分词

统计 总数量 每天的采集数 发布数 失败量  

翻译/增加插件  运行在采集内容之后发布之前 对内容进行处理   SY_分词标题/翻译/替换(可保存原内容)等等

添加删除新标签为使已采集的内容消失  希望能保留数据,在保留数据前题下如增加 重新采集某一标签 功能

在web发布和mysql发布里添加 随机取 两时间段内时间    还有一个记不大清楚了     [时间转化:发布时的当前时间(不是标签),yyyy-MM-dd]好像没有这个功能吧   [系统时间戳]可以取发布时的当前时间不过好像不能转化格式

======================暂时只想到这些
本帖最近评分记录
  • rq204 火车车厢 +5 谢谢您的意见 2008-7-20 08:49
  • rq204 活跃度 +10 谢谢您的意见 2008-7-20 08:49

TOP

1.能否加上站点规则一键继承,来快速应对目标站点改版造成的无法采集
2.站点规则批量替换
3.各标签发布到某一字段任意组合
现想到这么多,以后添想到添加
本帖最近评分记录
  • rq204 火车车厢 +3 谢谢您的建议 2008-7-20 08:55
  • rq204 活跃度 +6 谢谢您的建议 2008-7-20 08:55

TOP

多页循环与多页标签循环问题
输入法问题
本帖最近评分记录
  • rq204 火车车厢 +2 谢谢支持,已解决 2008-7-20 08:56
  • rq204 活跃度 +4 谢谢支持,已解决 2008-7-20 08:56

TOP

实现真正无人值守、自动运行

还要解决无缘无故自动退出的问题
本帖最近评分记录
  • rq204 火车车厢 +2 谢谢提议,新版已改进 2008-7-20 19:59
  • rq204 活跃度 +4 谢谢提议,新版已改进 2008-7-20 19:59

TOP

1。希望把3.2做上边那个不停滚动的框框去掉,实在要是愿意呆着,那稍微弄好看点也可以接受。还有像合作伙伴基本上不应该出现在软件里边,因为客户买的软件,还要不停的看广告,有点反感,建议花钱的版本里边弄得干净点,让人心里舒服,纯属个人意见,意见不同可以略过。。。。。。当俺没说。。。。

2。关键词部分只是分析开头部分觉得不好,因为关键词不可能是在最前边几个词啊,不过要是全文分词,然后再分析词出现的密度,确定关键词,个人觉得有点难度,建议:个人可以编辑关键词库(每个网站的关键词可能不一样),然后遍历文章,可以选择出现次数超过X(可自己设定)次后,自动匹配为关键词,不太清楚这么弄得话资源消耗是不是很夸张。。。。。

3。下载地址如果是迅雷、快车的,支持自动或选择转换为实际下载地址,这个实现起来应该没有难度

4。还有部分采集的内容可能内容为空,可能内容为空,可能标题为空,现在的编辑处理起来不太方便,建议添加采集字段的时候加个选项,如果当前字段为空则为特殊处理,编辑里边只出现那些正常采集下来的,添加一个 特殊处理 按钮,再另外的窗口里处理这些采集不全的 。

5。SpiderResult 建议是不是搞成直接mssql的,呵呵

总的来说,这个软件很强,这也是我买的最贵的一个软件了。。。。。。

[ 本帖最后由 fearwall 于 2008-7-20 20:51 编辑 ]
本帖最近评分记录
  • rq204 活跃度 +10 您的建议已提交 2008-7-21 08:44
  • rq204 火车车厢 +5 您的建议已提交 2008-7-21 08:44

TOP

我只希望能增加一个功能,呵呵,总体采集后分类发布到网站上!
本帖最近评分记录
  • rq204 火车车厢 +1 目前的就可以实现 2008-7-21 08:45
  • rq204 活跃度 +2 目前的就可以实现 2008-7-21 08:45
www.jt4771.com(世纪钱沿电子商务网)欢迎您!!!

TOP

希望能够傻瓜式的采集 ajax分页的列表吗?

再报告个bug,[采集页地址] 这里如果地址中带& 这个符号,就自动截断了。
本帖最近评分记录
  • rq204 火车车厢 +2 谢谢您的建议 2008-7-22 09:16
  • rq204 活跃度 +5 谢谢您的建议 2008-7-22 09:16
做英文模块

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.197253 second(s), 8 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-12-2 00:17 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档