无根目录标识"/",无法正确采集网址
采集网址深度为1,需要采集目标页面的地址,目标页面的地址为以下的类型:<a href="1234.html" title="1234">
就采集不了地址。
一般的地址都是<a href="http://www.123.com/1234.html">或者a href="/1234.html">,都能采集。
可是这个地址确实没有根路径的"/",火车头就不能识别了。
求高手指点! 火车头菜网址部分可以使用2种方式:
1.自动识别 : 通过限制源码区域,必须包含 不得包含 ,根据列表地址,以及它的子地址,可以自动识别为绝对地址 1234.html是相当于当前目录,怎么不能识别,不可能
2.自定义:组合形式,想要的网址往往具有相同的格式,因此选择这种方式,相比自动识别过滤无用网址更好
3.最好提供你采集的网站,没有正确的提供你要采集网站的信息,对您的解答都是猜测
联系:QQ:1250507776 已经解决,发现是操作系统的问题,windows7,还在研究中,换到xp就采集一点问题都没有 高难度采集,QQ:972130397
页:
[1]