如何采集网页内图片代替**等文字内容?高手及有经验的朋友请进?
本帖最后由 fd9988 于 2010-8-12 19:30 编辑如题,采集的网页内联系DIANHUA等用图片代替,HTML网页,可查看源文件。用火车采集时可得到相应显示DIANHUA的图片。
请问此类网页如何完整采集,是否DIANHUA等信息可以从图片转化为文字?
具体如下:
对应源文件:
<li><small>联系DIANHUA:</small><span class="tel_b"><img src="/companies/18884_tel.jpg" /></span></li>;
大家可以看到,源文件里直接是个固定地址的图片,是否所有联系DIANHUA已经转成图片了呢?但这个又不现实啊,一个黄页几万条信息,都转图片,不搞死他。
有人知道怎么用火车完整采集这个吗?
测试网页地址:http://www.shandalu.com/companies/18884.html 写个 ocr 识别 提供各类数据采集服务
http://caiji.taobao.com 兄弟,你这是什么回复?搞得我空喜一场。 如何写OCR识别?之前看到有个兄弟做了个站,可以配合火车用,貌似是收费服务,有时间限制,据说只能采几百个。我这边估计一个任务可以采到2000-4000条。你说的是否是通过此类网站配合火车的模式呢?如果是,也没有不收费又能多采集的站推荐? 可以定做一个图片识别插件 这里有一个 强大的免费插件
http://bbs.locoy.com/spider-50802-1-1.html
页:
[1]