chuangsji 发表于 2010-5-13 09:43:13

寻求破戒这个防采集的方法

本帖最后由 chuangsji 于 2010-5-13 09:58 编辑

http://www.99inf.com/e/space/lianxi.php?userid=2112995

像这个页面,它的**、邮箱、邮编和网址都是转换成PNG图片形式的,现在我们的火车头能不能还原它回来呢?个人能力有限,不晓得怎么采集还原成文字,特意贴出来让大虾们帮忙看看……在线等待

heking5201 发表于 2010-5-13 11:15:38

找识别高手给你写RCL识别程序,不然没别无他发。额。。**数据库也行。恐怕你也不愿意出那个**的钱



网址地址 邮编邮箱 号码这一些列下来 费用应该在 500-800左右

afanfan2007 发表于 2010-5-13 14:06:35

找图片处理成文字的的确是一个方法

aven 发表于 2010-5-13 14:33:16

本帖最后由 aven 于 2010-5-13 14:35 编辑

按OCR定制
部分演示请
http://ocr.at163.com:88



qianglong 发表于 2010-5-13 20:02:32

你看看 他原文件的头部:地7行
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>深圳三思纵横科技股份有限公司**_地址_联系方式_网址 - www.99inf.com</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<meta content="深圳三思纵横科技股份有限公司,0755-26977852,刘总,,13509628188,,http://www.sunsrohs.com,深圳市南山区南头关口二路安乐工业区28栋" name="keywords" />
<meta content="深圳三思纵横科技股份有限公司,联系**0755-26977852,联系人刘总,传真,手机号码13509628188,qq号码,公司网址http://www.sunsrohs.com,公司地址深圳市南山区南头关口二路安乐工业区28栋" name="description" />
<link href="template/comdefault/images/menbers.css" rel="stylesheet" type="text/css" />
</head>
<div class="tops">
<div class="top_a"><div class="namess">深圳三思纵横科技股份有限公司</div><img src="template/comdefault/images/lo.jpg" width="57" height="53" /></div>
页: [1]
查看完整版本: 寻求破戒这个防采集的方法