火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 1608|回复: 2

[求教]开始抓取的链接地址设置问题、

[复制链接]
发表于 2010-6-19 10:17:17 | 显示全部楼层 |阅读模式
我现在是这样的
http://news.baidu.com/ns?word=%D7%E3%C7%F2&tn=news&from=news&cl=2&rn=20&ct=1&pn=0
http://news.baidu.com/ns?word=%D7%E3%C7%F2&tn=news&from=news&cl=2&rn=20&ct=1&pn=20
类似这样的地址,注意,这些地址已经是我要抓取的内容地址,不需要再从页面获取接连,

如上图。
然后我希望就从这些地址就去抓取内容,而不是再从页面分析出链接地址。我的目的是抓取该页面上的标题和摘要即可。
但火车头我找了半天好像老是要让程序再从用户给的地址中 再去获取目的地址。
请问我这该如何设置啊

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2010-6-19 11:32:44 | 显示全部楼层
间隔倍数,设置为20即可
 楼主| 发表于 2010-6-19 11:37:25 | 显示全部楼层
回复 2# 孤魂


我的意思是这样,就是http://news.baidu.com/ns?word=%D7%E3%C7%F2&tn=news&from=news&cl=2&rn=20&ct=1&pn=0这类地址已经是我需要抓取内容的地址了,但我像上面设置之后,火车头会再从我这地址中再去抓取链接地址,然后第二步再从火车站抓取的链接中进行抓取内容
我的意思是想禁用掉系统的 链接自动识别功能,只直采用我填写的这个20倍数规则的地址去抓取内容,但好像不行,禁用系统自动识别链接,还要填写什么脚本,这个该如何做啊,有人帮我吗
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-19 02:11

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表