火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2818|回复: 2

有无方法抓取网站入面指定网址的内容?

[复制链接]
发表于 2017-3-3 14:59:06 | 显示全部楼层 |阅读模式
我想抓一个网站入面所有产品页的信息,但我不知道这个网站有多少个产品页,也不知道这些产品页分布在哪里,所以我打算用自动获取网址的方法,然后抓五层。例如:

我想采集 http://www.XXXX.com/ 网站里面 链接带 product 的网页,如:http://www.XXXX.com/product/0001.shtml,不要 http://www.XXXX.com/AAAA/BBBB/ 这些网页。

问题就出现了。。。

1、如果我不设定链接过滤的话,会把这个网站几十个全抓下来,速度很慢,效果很低。

2、如果我设定链接过滤的话(包含 product ),第二层开始只会从含有product 的网址开始抓,而其它就抓不了。
例如在http://www.XXXX.com/AAAA/BBBB/ 下面 有一个http://www.XXXX.com/product/0002.shtml,但由于第一层的时候已经过滤了http://www.XXXX.com/AAAA/BBBB/,所以这个http://www.XXXX.com/product/0002.shtml并不能采集。

请问各位有什么办法可以把链接带 product 的网页 全部采集完呢?
发表于 2017-3-5 15:30:34 | 显示全部楼层
最简单的方法就是在内容页中判断,取网址判断
 楼主| 发表于 2017-3-6 09:09:08 | 显示全部楼层
hrj3251 发表于 2017-3-5 15:30
最简单的方法就是在内容页中判断,取网址判断

能详细说说吗?
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-28 15:57

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表