mqy 发表于 2007-3-23 22:41:44

采集链接的bug

用测试站点的 搜狐军事测试 采集回来的是这个样子的链接。
mil.news.sohu.com/http://mil.news.sohu.com/20061225/n247252592.shtml
这个问题只是3.1有,我已经遇到过多次。

还有火车的标签排除功能,除了能正常排除<a>标签,别的都不是太好用,而且好像小写的标签可以排除,大写的不行,规范的标签可以排除,书写不规范的不行。

mqy 发表于 2007-3-23 22:46:41

还有,既然火车有入自带的数据库的这个功能,就应该具备将采集到本地的内容再编辑,整理的功能。而现在只具备导出为sql文件或html,都不能导入到mysql等别的数据库。

qq177489 发表于 2007-3-28 23:55:28

mqy 发表于 2007-4-3 20:23:20

网址采集也没有替换啊,只有 必须包含不得包含。

还有一个办法就是导出二级网址,用记事本等替换后再导入。

不过这的确是链接分析的BUG啊,还是等火车老大修复吧。

fansand 发表于 2007-4-8 19:13:57

我用3.1好象没遇到这问题...

垃圾狗 发表于 2007-4-15 14:32:40

这个问题我也遇到过。
页: [1]
查看完整版本: 采集链接的bug