火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4471|回复: 6

如何采集网页内图片代替**等文字内容?高手及有经验的朋友请进?

[复制链接]
发表于 2010-8-12 19:27:04 | 显示全部楼层 |阅读模式
1火车车厢
本帖最后由 fd9988 于 2010-8-12 19:30 编辑

如题,采集的网页内联系DIANHUA等用图片代替,HTML网页,可查看源文件。用火车采集时可得到相应显示DIANHUA的图片。
请问此类网页如何完整采集,是否DIANHUA等信息可以从图片转化为文字?
具体如下:

对应源文件:
<li><small>联系DIANHUA:</small><span class="tel_b"><img src="/companies/18884_tel.jpg" /></span></li>;
大家可以看到,源文件里直接是个固定地址的图片,是否所有联系DIANHUA已经转成图片了呢?但这个又不现实啊,一个黄页几万条信息,都转图片,不搞死他。
有人知道怎么用火车完整采集这个吗?

测试网页地址:http://www.shandalu.com/companies/18884.html

附件: 您需要 登录 才可以下载或查看,没有帐号?加入会员
发表于 2010-8-12 23:13:57 | 显示全部楼层
写个     ocr      识别
发表于 2010-8-13 07:40:50 | 显示全部楼层
提供各类数据采集服务

http://caiji.taobao.com
 楼主| 发表于 2010-8-13 08:00:38 | 显示全部楼层
兄弟,你这是什么回复?搞得我空喜一场。
 楼主| 发表于 2010-8-15 19:59:54 | 显示全部楼层
如何写OCR识别?之前看到有个兄弟做了个站,可以配合火车用,貌似是收费服务,有时间限制,据说只能采几百个。我这边估计一个任务可以采到2000-4000条。你说的是否是通过此类网站配合火车的模式呢?如果是,也没有不收费又能多采集的站推荐?
发表于 2010-8-16 02:49:00 | 显示全部楼层
可以定做一个图片识别插件
发表于 2010-8-16 06:45:05 | 显示全部楼层
这里有一个 强大的免费插件
http://bbs.locoy.com/spider-50802-1-1.html
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-6-21 00:40

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表