lfelfe33 发表于 2007-7-15 06:41:43

顶楼主,我用火车头用的很爽,打心底希望它更完善

希望在采集url的那个 “自定义连接格式” 功能上加点东东

目前这个功能可以根据 js 的参数来实现一些 格式的 url的生成,

请问可以在此功能的基础上加入一些表达式操作不?

http://www.sohu.net/supply/all/index.shtml 这个地址中的列表链接中有一级目录都是用js 根据
文章的ID 除以 30000 得到的 如果火车头的自定义连接功能中加入这个表达式运算方面的功能
就可以自动的解决这个url生成问题了,我现在都是自己手动改的

这个功能貌似是其它采集器还没实现的,希望我的提议能给楼主带来帮助

ok123zyz 发表于 2007-7-15 11:11:23

想了解一下开发的进度!!

好像已经七月中旬了,记得火车说七月上旬就可以完成!

是不是遇到什么困难喽!!?

大家能帮上什么不?

ok123zyz 发表于 2007-7-15 11:20:09

原帖由 275694343 于 2007-6-24 14:53 发表
我希望增加1个功能!
不同的站点,可以同时进行不同站点的WEB发布,3.1的全局定义就很麻烦,得人工设置发布.开10个站点,那不是得同时运行10个火车头啊

你是牛人呀~~~
能开十个!!
不知道你的是啥机器!!
偶们开一个,还得求佛保佑不要卡机!

开火车时,QQ,IE.....统统关掉!!!

fxlijun 发表于 2007-7-16 17:00:44

如果在采集过程中能自动闭合或者过滤那些没闭合的html标签就好拉,

现在动网论坛有这个功能, 很多html编辑器也都有这个功能

275694343 发表于 2007-7-18 17:40:08

原帖由 ok123zyz 于 2007-7-15 11:20 发表


你是牛人呀~~~
能开十个!!
不知道你的是啥机器!!
偶们开一个,还得求佛保佑不要卡机!

开火车时,QQ,IE.....统统关掉!!!




你懂什么!用个人电脑采集的话就没那必要

275694343 发表于 2007-7-18 17:45:43

建议增加一个功能,单个任务采集完毕再接着进行下一个任务,不然定时采集的话不容易安排时间.有的任务采集数据多用的时间也多,有可能会和下一个任务或者更多的任务同时进行,内存一下子不能回收过来导致死机

[ 本帖最后由 275694343 于 2007-7-18 17:46 编辑 ]

caopeiwei 发表于 2007-7-21 16:44:04

建议只有WEB发布成功才进地址库

咩咩 发表于 2007-7-22 15:13:09

希望能先采集到本地,再按需要再发布!

采集好后可以选择性的发布....

werran 发表于 2007-7-22 19:35:23

希望可以在采集内容的替换里可以做自定义的标签替换
起码增加几个参数

比如我想把 <b>(*)</b>
都替换成 ==(*)==
现在就做不到

starlife 发表于 2007-7-24 10:42:26

在导入数据库时,能不能自动匹配相应的字段
页: 8 9 10 11 12 13 14 15 16 17 [18] 19 20 21 22 23 24 25 26 27
查看完整版本: 3.2开发进程及用户功能提交专用帖