采集链接的bug

mqy 发表于 2007-3-23 22:41:44

用测试站点的搜狐军事测试采集回来的是这个样子的链接。
mil.news.sohu.com/http://mil.news.sohu.com/20061225/n247252592.shtml
这个问题只是3.1有，我已经遇到过多次。

还有火车的标签排除功能，除了能正常排除<a>标签，别的都不是太好用，而且好像小写的标签可以排除，大写的不行，规范的标签可以排除，书写不规范的不行。

mqy 发表于 2007-3-23 22:46:41

还有，既然火车有入自带的数据库的这个功能，就应该具备将采集到本地的内容再编辑，整理的功能。而现在只具备导出为sql文件或html，都不能导入到mysql等别的数据库。

qq177489 发表于 2007-3-28 23:55:28

mqy 发表于 2007-4-3 20:23:20

网址采集也没有替换啊，只有必须包含不得包含。

还有一个办法就是导出二级网址，用记事本等替换后再导入。

不过这的确是链接分析的BUG啊，还是等火车老大修复吧。

fansand 发表于 2007-4-8 19:13:57

我用3.1好象没遇到这问题...

垃圾狗 发表于 2007-4-15 14:32:40

这个问题我也遇到过。

页: [1]

火车采集器软件交流官方论坛's Archiver

采集链接的bug