|
现在内容里带有图片的网页非常普遍,所以对图片的采集也是非常重要的,但一张张点击下载非常麻烦,所以我们在抓取网页时也要学会把图片抓取到。我一般采集内容时都会将图片和缩略图都采集下来,这个非常有用,但是一开始图片总是采集不全,缩略图采不下来,现在将我的使用经验分享给大家,大家一起进步~
网页抓取工具我用的是火车采集器V9最新版,因为功能比较全,速度也很快。在火车采集器里面将网址的采集规则设定好之后,进入内容采集规则的编写,这里大家要注意下,在编辑标签的数据处理中有一个文件下载选项,共有四个选项,其中就有一个下载图片,这个一看就明白了,勾选一下就可以下载图片了,但是如果你只这样操作的话,你只能采集到部分图片,因为火车采集器这里是默认下载带html标签的图片。
所以针对不带html标签的图片,比如缩略图,就要勾选“探测文件并下载”,这样的话火车采集器就会自动探测出这种图片文件并下载了。
采集时把不同类型的图片分开设置“标签”和“下载选择”就可以了,测试一下,该页面中的5个图片已经被下载下来了,是不是觉得非常简单?像火车采集器这样的网页抓取工具就是这样,了解如何使用以后上手非常的容易,用得好真的能解决很多问题,可以大幅提升我们的工作效率,这也正是人类的智慧所在吧。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?加入会员
x
|