火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3381|回复: 0

火车头百度百科采集规则的一些研究

[复制链接]
发表于 2014-7-9 00:25:46 | 显示全部楼层 |阅读模式
百度百科不仅信息量全面,而且经过了编辑,经常是我们采集的重要资源。

文字方面比较好弄,但是图片就麻烦了。
为什么我们要百科里的图片?百度不是直接就有图片吗?
因为百度百科里的图片经过了编辑,不仅和文字相关度高,而且图像尺寸、内容都比较完美,基本上无张冠李戴现象。
直接就可以拿来用,基本上不用人工再处理,这对于提高网站的图片数量和质量简直太理想了

但是,百科的图片是用JS临时调用显示的,从网页代码里就找不到大图的地址,甚至网址都是JS替换显示的。

经过研究,发现可以用JS参数来拼出隐藏着的图片地址,大家可以试一试,一起来研究
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-13 11:50

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表