无根目录标识"/"，无法正确采集网址

scugzd 发表于 2011-11-17 17:17:53

采集网址深度为1，需要采集目标页面的地址，目标页面的地址为以下的类型：
<a href="1234.html" title="1234">

就采集不了地址。

一般的地址都是<a href="http://www.123.com/1234.html">或者a href="/1234.html">，都能采集。

可是这个地址确实没有根路径的"/",火车头就不能识别了。

求高手指点！

zhouchanglin 发表于 2011-11-17 19:13:08

火车头菜网址部分可以使用2种方式：
1.自动识别：通过限制源码区域，必须包含不得包含，根据列表地址，以及它的子地址，可以自动识别为绝对地址 1234.html是相当于当前目录，怎么不能识别，不可能
2.自定义：组合形式，想要的网址往往具有相同的格式，因此选择这种方式，相比自动识别过滤无用网址更好

3.最好提供你采集的网站，没有正确的提供你要采集网站的信息，对您的解答都是猜测

小.....心 发表于 2011-11-18 20:29:19

联系：QQ:1250507776

scugzd 发表于 2011-11-21 11:56:50

已经解决，发现是操作系统的问题，windows7，还在研究中，换到xp就采集一点问题都没有

扬子鳄月 发表于 2012-2-25 20:39:35

高难度采集，QQ:972130397

页: [1]

火车采集器软件交流官方论坛's Archiver

无根目录标识"/"，无法正确采集网址