[求教]开始抓取的链接地址设置问题、
我现在是这样的http://news.baidu.com/ns?word=%D7%E3%C7%F2&tn=news&from=news&cl=2&rn=20&ct=1&pn=0
http://news.baidu.com/ns?word=%D7%E3%C7%F2&tn=news&from=news&cl=2&rn=20&ct=1&pn=20
类似这样的地址,注意,这些地址已经是我要抓取的内容地址,不需要再从页面获取接连,
如上图。
然后我希望就从这些地址就去抓取内容,而不是再从页面分析出链接地址。我的目的是抓取该页面上的标题和摘要即可。
但火车头我找了半天好像老是要让程序再从用户给的地址中 再去获取目的地址。
请问我这该如何设置啊 间隔倍数,设置为20即可 回复 2# 孤魂
我的意思是这样,就是http://news.baidu.com/ns?word=%D7%E3%C7%F2&tn=news&from=news&cl=2&rn=20&ct=1&pn=0这类地址已经是我需要抓取内容的地址了,但我像上面设置之后,火车头会再从我这地址中再去抓取链接地址,然后第二步再从火车站抓取的链接中进行抓取内容
我的意思是想禁用掉系统的 链接自动识别功能,只直采用我填写的这个20倍数规则的地址去抓取内容,但好像不行,禁用系统自动识别链接,还要填写什么脚本,这个该如何做啊,有人帮我吗
页:
[1]