手动填写链接地址规则,测试出来,每行有两个Http地址,请赐教
本帖最后由 kristycj 于 2010-11-2 11:18 编辑这是脚本规则:<li><a href="[参数]" target="_blank">(*)</a><span>((*))</span></li>
这是实际连接地址:http://news.sina.com.cn/w/p/2010-11-01/[参数1]
采网址的时候,网址是正常的:
类似:http://video.sina.com.cn/p/news/w/v/2010-10-24/140661165859.html
但采内容的时候,就出现了两个http,是什么情况呢?
http://news.sina.com.cn/w/p/2010-11-01http://news.sina.com.cn/w/2010-10-26/143421355031.shtml就有两个Http地址,这是什么问题呢?如何解决???急。。谢谢大侠们了……………… <li><a href="[参数]" [参数1] 回复 2# zhouchanglin 没看明白……您能说详细点么? 回复 3# kristycj
你把要采集的网址发下啊 回复 4# zhouchanglin http://roll.news.sina.com.cn/news/gjxw/hqqw/index.shtml这是我要采集的网址 实际链接地址 直接填[参数1]
http://news.sina.com.cn/w/p/2010-11-01/给删除掉,不需要的,官方的火车可以自动补全地址 <li><a href="[参数]" [参数1]
就行了,自定义网址实际是用参数组合成需要的地址,你写的,例<li><a href="http://news.sina.com.cn/w/2010-10-22/162321332592.shtml" target="_blank">俄罗斯总统在微博上祝贺女大学生生日</a><span>(10月22日 16:23)</span></li>这段里根据你写的规则,参数部分获得http://news.sina.com.cn/w/2010-10-22/162321332592.shtml,作为参数1,再与http://news.sina.com.cn/w/p/2010-11-01/组合,这样等到的实际网址不就是http://news.sina.com.cn/w/p/2010-11-01/http://news.sina.com.cn/w/2010-10-22/162321332592.shtml了,当然不是正确的地址。
<li><a href="[参数]" [参数1]
,这样获得的参数里的信息就是实际想要的地址了,所以这样写,就是用获取到的参数组合成想要的东西
页:
[1]