scugzd 发表于 2011-11-17 17:17:53

无根目录标识"/",无法正确采集网址

采集网址深度为1,需要采集目标页面的地址,目标页面的地址为以下的类型:
<a href="1234.html" title="1234">

就采集不了地址。

一般的地址都是<a href="http://www.123.com/1234.html">或者a href="/1234.html">,都能采集。

可是这个地址确实没有根路径的"/",火车头就不能识别了。

求高手指点!

zhouchanglin 发表于 2011-11-17 19:13:08

火车头菜网址部分可以使用2种方式:
1.自动识别 : 通过限制源码区域,必须包含 不得包含 ,根据列表地址,以及它的子地址,可以自动识别为绝对地址 1234.html是相当于当前目录,怎么不能识别,不可能
2.自定义:组合形式,想要的网址往往具有相同的格式,因此选择这种方式,相比自动识别过滤无用网址更好

3.最好提供你采集的网站,没有正确的提供你要采集网站的信息,对您的解答都是猜测

小.....心 发表于 2011-11-18 20:29:19

联系:QQ:1250507776

scugzd 发表于 2011-11-21 11:56:50

已经解决,发现是操作系统的问题,windows7,还在研究中,换到xp就采集一点问题都没有

扬子鳄月 发表于 2012-2-25 20:39:35

高难度采集,QQ:972130397
页: [1]
查看完整版本: 无根目录标识"/",无法正确采集网址