有无方法抓取网站入面指定网址的内容？

raygiggs · 发表于 2017-3-3 14:59:06

我想抓一个网站入面所有产品页的信息，但我不知道这个网站有多少个产品页，也不知道这些产品页分布在哪里，所以我打算用自动获取网址的方法，然后抓五层。例如：

我想采集 http://www.XXXX.com/ 网站里面链接带 product 的网页，如：http://www.XXXX.com/product/0001.shtml，不要 http://www.XXXX.com/AAAA/BBBB/ 这些网页。

问题就出现了。。。

1、如果我不设定链接过滤的话，会把这个网站几十个全抓下来，速度很慢，效果很低。

2、如果我设定链接过滤的话（包含 product ），第二层开始只会从含有product 的网址开始抓，而其它就抓不了。
例如在http://www.XXXX.com/AAAA/BBBB/ 下面有一个http://www.XXXX.com/product/0002.shtml，但由于第一层的时候已经过滤了http://www.XXXX.com/AAAA/BBBB/，所以这个http://www.XXXX.com/product/0002.shtml并不能采集。

请问各位有什么办法可以把链接带 product 的网页全部采集完呢？

hrj3251 · 发表于 2017-3-5 15:30:34

最简单的方法就是在内容页中判断，取网址判断

raygiggs · 发表于 2017-3-6 09:09:08

hrj3251 发表于 2017-3-5 15:30
最简单的方法就是在内容页中判断，取网址判断

能详细说说吗？

帐号		自动登录	找回密码
密码			加入会员

有无方法抓取网站入面指定网址的内容？

浏览过的版块