fd9988 发表于 2010-8-12 19:27:04

如何采集网页内图片代替**等文字内容?高手及有经验的朋友请进?

本帖最后由 fd9988 于 2010-8-12 19:30 编辑

如题,采集的网页内联系DIANHUA等用图片代替,HTML网页,可查看源文件。用火车采集时可得到相应显示DIANHUA的图片。
请问此类网页如何完整采集,是否DIANHUA等信息可以从图片转化为文字?
具体如下:

对应源文件:
<li><small>联系DIANHUA:</small><span class="tel_b"><img src="/companies/18884_tel.jpg" /></span></li>;
大家可以看到,源文件里直接是个固定地址的图片,是否所有联系DIANHUA已经转成图片了呢?但这个又不现实啊,一个黄页几万条信息,都转图片,不搞死他。
有人知道怎么用火车完整采集这个吗?

测试网页地址:http://www.shandalu.com/companies/18884.html

aven 发表于 2010-8-12 23:13:57

写个   ocr      识别

louchangwei 发表于 2010-8-13 07:40:50

提供各类数据采集服务

http://caiji.taobao.com

fd9988 发表于 2010-8-13 08:00:38

兄弟,你这是什么回复?搞得我空喜一场。

fd9988 发表于 2010-8-15 19:59:54

如何写OCR识别?之前看到有个兄弟做了个站,可以配合火车用,貌似是收费服务,有时间限制,据说只能采几百个。我这边估计一个任务可以采到2000-4000条。你说的是否是通过此类网站配合火车的模式呢?如果是,也没有不收费又能多采集的站推荐?

zjyk1984 发表于 2010-8-16 02:49:00

可以定做一个图片识别插件

afanfan2007 发表于 2010-8-16 06:45:05

这里有一个 强大的免费插件
http://bbs.locoy.com/spider-50802-1-1.html
页: [1]
查看完整版本: 如何采集网页内图片代替**等文字内容?高手及有经验的朋友请进?