火车头百度百科采集规则的一些研究
百度百科不仅信息量全面,而且经过了编辑,经常是我们采集的重要资源。文字方面比较好弄,但是图片就麻烦了。
为什么我们要百科里的图片?百度不是直接就有图片吗?
因为百度百科里的图片经过了编辑,不仅和文字相关度高,而且图像尺寸、内容都比较完美,基本上无张冠李戴现象。
直接就可以拿来用,基本上不用人工再处理,这对于提高网站的图片数量和质量简直太理想了
但是,百科的图片是用JS临时调用显示的,从网页代码里就找不到大图的地址,甚至网址都是JS替换显示的。
经过研究,发现可以用JS参数来拼出隐藏着的图片地址,大家可以试一试,一起来研究
页:
[1]