寻求破戒这个防采集的方法
本帖最后由 chuangsji 于 2010-5-13 09:58 编辑http://www.99inf.com/e/space/lianxi.php?userid=2112995
像这个页面,它的**、邮箱、邮编和网址都是转换成PNG图片形式的,现在我们的火车头能不能还原它回来呢?个人能力有限,不晓得怎么采集还原成文字,特意贴出来让大虾们帮忙看看……在线等待 找识别高手给你写RCL识别程序,不然没别无他发。额。。**数据库也行。恐怕你也不愿意出那个**的钱
网址地址 邮编邮箱 号码这一些列下来 费用应该在 500-800左右 找图片处理成文字的的确是一个方法 本帖最后由 aven 于 2010-5-13 14:35 编辑
按OCR定制
部分演示请
http://ocr.at163.com:88
你看看 他原文件的头部:地7行
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>深圳三思纵横科技股份有限公司**_地址_联系方式_网址 - www.99inf.com</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<meta content="深圳三思纵横科技股份有限公司,0755-26977852,刘总,,13509628188,,http://www.sunsrohs.com,深圳市南山区南头关口二路安乐工业区28栋" name="keywords" />
<meta content="深圳三思纵横科技股份有限公司,联系**0755-26977852,联系人刘总,传真,手机号码13509628188,qq号码,公司网址http://www.sunsrohs.com,公司地址深圳市南山区南头关口二路安乐工业区28栋" name="description" />
<link href="template/comdefault/images/menbers.css" rel="stylesheet" type="text/css" />
</head>
<div class="tops">
<div class="top_a"><div class="namess">深圳三思纵横科技股份有限公司</div><img src="template/comdefault/images/lo.jpg" width="57" height="53" /></div>
页:
[1]