[求教]开始抓取的链接地址设置问题、

153125102 · 发表于 2010-6-19 10:17:17

我现在是这样的
http://news.baidu.com/ns?word=%D7%E3%C7%F2&tn=news&from=news&cl=2&rn=20&ct=1&pn=0
http://news.baidu.com/ns?word=%D7%E3%C7%F2&tn=news&from=news&cl=2&rn=20&ct=1&pn=20
类似这样的地址，注意，这些地址已经是我要抓取的内容地址，不需要再从页面获取接连，

如上图。
然后我希望就从这些地址就去抓取内容，而不是再从页面分析出链接地址。我的目的是抓取该页面上的标题和摘要即可。
但火车头我找了半天好像老是要让程序再从用户给的地址中　再去获取目的地址。
请问我这该如何设置啊

孤魂 · 发表于 2010-6-19 11:32:44

间隔倍数，设置为20即可

153125102 · 发表于 2010-6-19 11:37:25

回复 2# 孤魂

我的意思是这样，就是http://news.baidu.com/ns?word=%D7%E3%C7%F2&tn=news&from=news&cl=2&rn=20&ct=1&pn=0这类地址已经是我需要抓取内容的地址了，但我像上面设置之后，火车头会再从我这地址中再去抓取链接地址，然后第二步再从火车站抓取的链接中进行抓取内容
我的意思是想禁用掉系统的　链接自动识别功能，只直采用我填写的这个20倍数规则的地址去抓取内容，但好像不行，禁用系统自动识别链接，还要填写什么脚本，这个该如何做啊，有人帮我吗

帐号		自动登录	找回密码
密码			加入会员

[求教]开始抓取的链接地址设置问题、

本帖子中包含更多资源