使用火车头中的建议希望关注
图片现在建议图片下载
1、下载需要先检测下载在进行筛选。或下载和筛选不冲突。这样如果我需要提取图片的文件名就非常方便了。
2、下载图片是否可以自己定义下载绝对路径。现在如果我想下载的文件显示成d:\这样的格式是无法做到的。 如:原始文件:"<img src="http://2010/201012032013211260.gif" align="absMiddle">我需要下载后变成"<img src="D:\2010\201012032013211260.gif" align="absMiddle">或者"<img src="file://D:\2010\201012032013211260.gif" align="absMiddle">等都无法做到。
现在图片现在和筛选信息都不能只能使用一个地方的数据。
3、还有就是下载图片名字可以自定义格式,应当有随机数、自增值、固定加变量等。
4、文件存放的文件夹也可以多种形式的自定义。最好是“随机数”或者文件中采集名字等。
文件导出
火车头的采集功能还是非常厉害的就是在导出,发布的环节还需要增强。现在好多软件,网站都有excel导入csv导入等功能。
csv导入导出非常方便。
现在火车的csv功能太差劲了。经常出现乱码、错行、表格崩溃、等功能。
文章提取
我觉得需要增加个提取后字串替换功能的增强。如可以替换成固定的数字字符,也可以替换成页面搜索中的数据,替换成自动组合数据。而不是现在的 一对一的替换。需要一对多替换。主要是替换内容可以自定义。就像多页采集的效果。 本帖最后由 iehka 于 2010-12-12 11:39 编辑
绿色下载 到此一游 绿色下载 到此一游 只能用 替换的功能啦。
csv的问题,你需要在采集的文章内过滤逗号 爪,以后学习下。。
页:
[1]