如何采集网页内图片代替**等文字内容？高手及有经验的朋友请进？

fd9988 发表于 2010-8-12 19:27:04

本帖最后由 fd9988 于 2010-8-12 19:30 编辑

如题，采集的网页内联系DIANHUA等用图片代替，HTML网页，可查看源文件。用火车采集时可得到相应显示DIANHUA的图片。
请问此类网页如何完整采集，是否DIANHUA等信息可以从图片转化为文字？
具体如下：

对应源文件：
<li><small>联系DIANHUA：</small><span class="tel_b"><img src="/companies/18884_tel.jpg" /></span></li>；
大家可以看到，源文件里直接是个固定地址的图片，是否所有联系DIANHUA已经转成图片了呢？但这个又不现实啊，一个黄页几万条信息，都转图片，不搞死他。
有人知道怎么用火车完整采集这个吗？

测试网页地址：http://www.shandalu.com/companies/18884.html

aven 发表于 2010-8-12 23:13:57

写个 ocr 识别

louchangwei 发表于 2010-8-13 07:40:50

提供各类数据采集服务

http://caiji.taobao.com

fd9988 发表于 2010-8-13 08:00:38

兄弟，你这是什么回复？搞得我空喜一场。

fd9988 发表于 2010-8-15 19:59:54

如何写OCR识别？之前看到有个兄弟做了个站，可以配合火车用，貌似是收费服务，有时间限制，据说只能采几百个。我这边估计一个任务可以采到2000-4000条。你说的是否是通过此类网站配合火车的模式呢？如果是，也没有不收费又能多采集的站推荐？

zjyk1984 发表于 2010-8-16 02:49:00

可以定做一个图片识别插件

afanfan2007 发表于 2010-8-16 06:45:05

这里有一个强大的免费插件
http://bbs.locoy.com/spider-50802-1-1.html

页: [1]

火车采集器软件交流官方论坛's Archiver

如何采集网页内图片代替**等文字内容？高手及有经验的朋友请进？