网址采集地址不对
当采集深度是1的时候,我从http://linux.chinaunix.net/techdoc/beginner/开始采集,得到的地址页不正确,打开网页的源代码一看,原来是火车头对相对地址的转化有问题。比如相对地址是:/techdoc/beginner/2008/07/23/1020136.shtml 可得到是:
http://linux.chinaunix.net/techdoc/beginner/ /techdoc/beginner/2008/07/23/1020136.shtml 收到。
页:
[1]