火车头百度百科采集规则的一些研究

等你网 · 发表于 2014-7-9 00:25:46

百度百科不仅信息量全面，而且经过了编辑，经常是我们采集的重要资源。

文字方面比较好弄，但是图片就麻烦了。
为什么我们要百科里的图片？百度不是直接就有图片吗？
因为百度百科里的图片经过了编辑，不仅和文字相关度高，而且图像尺寸、内容都比较完美，基本上无张冠李戴现象。
直接就可以拿来用，基本上不用人工再处理，这对于提高网站的图片数量和质量简直太理想了

但是，百科的图片是用JS临时调用显示的，从网页代码里就找不到大图的地址，甚至网址都是JS替换显示的。

经过研究，发现可以用JS参数来拼出隐藏着的图片地址，大家可以试一试，一起来研究

帐号		自动登录	找回密码
密码			加入会员