zengfenghua 发表于 2008-7-19 15:27:07

在”采集内容规则》同时采集多个页面“的页面地址,希望有更加灵活的功能!比如:不单单只能采集源代码中“新页面”的URL地址,而且可以根据采集的参数,自由组织新页面
URL的格式!
原来的程序功能页面:


改进”采集内容规则》同时采集多个页面“功能 可以参考火车原来就有的功能,如图:


不知说清楚没有!保持关注........

花子 发表于 2008-7-19 15:32:43

1。对标签地址等编辑窗口优化下咯,希望可以随内容数据而增大,这样可以更为清楚的编辑某些数据(特别是列表地址使用正则方法时)
2。在编辑站点中,实现继承的图片保存文件夹(地址),和继承的发布模块
3、增加规则的 自增ID参数   就可以避免增加标签寻找内容变量的麻烦了,
4。待增加,顺便支持下火车技术!

[ 本帖最后由 花子 于 2008-7-19 17:08 编辑 ]

chyy 发表于 2008-7-19 20:15:40

建议在模块制作中把抓包工具和转换乱码工具集成进去!
同时希望模块工具能更人性化,更简单易用

hjb1 发表于 2008-7-19 21:21:58

设置标签顺序 SY_1 SY_2   两标签 SY_2对SY_1进行分词

统计 总数量 每天的采集数 发布数 失败量

翻译/增加插件运行在采集内容之后发布之前 对内容进行处理   SY_分词标题/翻译/替换(可保存原内容)等等

添加删除新标签为使已采集的内容消失希望能保留数据,在保留数据前题下如增加 重新采集某一标签 功能

在web发布和mysql发布里添加 随机取 两时间段内时间    还有一个记不大清楚了   [时间转化:发布时的当前时间(不是标签),yyyy-MM-dd]好像没有这个功能吧   [系统时间戳]可以取发布时的当前时间不过好像不能转化格式

======================暂时只想到这些

lating 发表于 2008-7-19 23:38:49

1.能否加上站点规则一键继承,来快速应对目标站点改版造成的无法采集
2.站点规则批量替换
3.各标签发布到某一字段任意组合
现想到这么多,以后添想到添加

yixiuge 发表于 2008-7-20 05:15:08

多页循环与多页标签循环问题
输入法问题

hzd888 发表于 2008-7-20 10:59:02

实现真正无人值守、自动运行

还要解决无缘无故自动退出的问题

fearwall 发表于 2008-7-20 20:18:56

1。希望把3.2做上边那个不停滚动的框框去掉,实在要是愿意呆着,那稍微弄好看点也可以接受。还有像合作伙伴基本上不应该出现在软件里边,因为客户买的软件,还要不停的看广告,有点反感,建议花钱的版本里边弄得干净点,让人心里舒服,纯属个人意见,意见不同可以略过。。。。。。当俺没说。。。。

2。关键词部分只是分析开头部分觉得不好,因为关键词不可能是在最前边几个词啊,不过要是全文分词,然后再分析词出现的密度,确定关键词,个人觉得有点难度,建议:个人可以编辑关键词库(每个网站的关键词可能不一样),然后遍历文章,可以选择出现次数超过X(可自己设定)次后,自动匹配为关键词,不太清楚这么弄得话资源消耗是不是很夸张。。。。。

3。下载地址如果是迅雷、快车的,支持自动或选择转换为实际下载地址,这个实现起来应该没有难度

4。还有部分采集的内容可能内容为空,可能内容为空,可能标题为空,现在的编辑处理起来不太方便,建议添加采集字段的时候加个选项,如果当前字段为空则为特殊处理,编辑里边只出现那些正常采集下来的,添加一个 特殊处理 按钮,再另外的窗口里处理这些采集不全的 。

5。SpiderResult 建议是不是搞成直接mssql的,呵呵

总的来说,这个软件很强,这也是我买的最贵的一个软件了。。。。。。

[ 本帖最后由 fearwall 于 2008-7-20 20:51 编辑 ]

zheagle 发表于 2008-7-20 22:18:54

我只希望能增加一个功能,呵呵,总体采集后分类发布到网站上!

vvzz 发表于 2008-7-21 11:39:00

希望能够傻瓜式的采集 ajax分页的列表吗?

再报告个bug,[采集页地址] 这里如果地址中带& 这个符号,就自动截断了。
页: 1 [2] 3 4 5 6 7 8
查看完整版本: 火车采集器2008版意见征集帖