采集链接的bug
用测试站点的 搜狐军事测试 采集回来的是这个样子的链接。mil.news.sohu.com/http://mil.news.sohu.com/20061225/n247252592.shtml
这个问题只是3.1有,我已经遇到过多次。
还有火车的标签排除功能,除了能正常排除<a>标签,别的都不是太好用,而且好像小写的标签可以排除,大写的不行,规范的标签可以排除,书写不规范的不行。 还有,既然火车有入自带的数据库的这个功能,就应该具备将采集到本地的内容再编辑,整理的功能。而现在只具备导出为sql文件或html,都不能导入到mysql等别的数据库。 网址采集也没有替换啊,只有 必须包含不得包含。
还有一个办法就是导出二级网址,用记事本等替换后再导入。
不过这的确是链接分析的BUG啊,还是等火车老大修复吧。 我用3.1好象没遇到这问题... 这个问题我也遇到过。
页:
[1]