lypying 发表于 2011-3-11 09:38:26

赶集网图片电话识别分析

本帖最后由 lypying 于 2011-7-20 08:42 编辑

采集与反采集总是在矛与盾之间进行角色转换的。58 赶集 口碑 这几个大网站成了采集分类信息的根据地。但是采集器对他们服务器的压力就不言而喻了。就火车头默认设置来说400ms发三个请求 一秒算10个。一台机器开两三个任务。如果多几个人采集,请求数就不言而喻了。不光是这几个大网站的信息资源的流失还有对服务器造成的压力,这些都是他们不想看到的。当然这几个大网站之间也是互相采集的。我采集58比较多。赶集和其他网站很少去做,我发现58也采集赶集,搜房网这些网站的信息,水印上有么。
言归正传,昨天赶集网又一次进行了版面规则调整,剑指采集。在赶集网WEB页面联系方式图片化后。WAP页面也进行了图片化,昨天的一次规则更新相信会阻止大部分的采集,当然也不可能阻止全部。
昨天也有几个朋友问我能不能采集到赶集了。简单的看下 答案是肯定的。当然能,可能也有其他的办法进行采集,但是我依旧是图片识别。赶集网WAP联系方式图片化要比58做的好一些。因为58只是单纯的出现数字,数字之间的间隔是相同的。比如

对于图片识别来说 这样的图是最好识别的。我相信就这一个图片识别想必就挡住了大部分人采集58的脚步
不过赶集的这次更新更变态。联系方式不光是图片化,而且还做了黏贴处理。几个数字黏贴到一起,对于识别来说这个就有点难度了。我之前发布的识别算法是不能识别黏贴的。当然 改进下是可以的,因为58没有这样做,我也没必要去改算法了。

右侧的就是黏贴的图。对于识别来说 这个是比较复杂的了。但是也是有办法解决的。
但是针对赶集网的联系方式图片化我发现了这样的问题。可能会有些帮助比如
我截图的这两张图片http://bj.ganji.com/tel/5b6e57605062046157395467533b5b3a_10_.pnghttp://bj.ganji.com/tel/5b6c57675060046157375462533e5b3e576c0f325733_10_%E4%B8%8A%E6%B5%B7.png作为本文的读者 你会发现什么问题那。先想下 然后在看下面的文字
我所发现的 第一BJ.GANJI.COM 我所在地是石家庄。二级域名居然是bj的 这说明这部分的数据应该是在北京服务器上。当然你看域名IP也一样只是单纯的从这个地址中分析出来的。
第二5b6e57605062046157395467533b5b3a 与 5b6c57675060046157375462533e5b3e576c0f325733
你会发现 如果四个为一组的话 会有很神奇的效果 比如
第二个正好是32个字符而电话正好是8个数字
第二个地址 正好是44个字符而手机号码正好是11位
神奇吧。所以我个人感觉 这个数字与电话之间一定会存在某种联系,因为能力和时间有限也没有进行研究了。如果有兴趣的朋友研究下 得出结果记得要告诉我哈。
第三、看%E4%B8%8A%E6%B5%B7这个我去太神奇了 URLENCODE编码。一解码居然是石家庄.......对咱们采集没任何意义
第四、最有意义的要来了 也是前三点我没有提到的_10_ 大家把地址换下这样http://bj.ganji.com/tel/5b6c57675060046157375462533e5b3e576c0f325733_1_%E4%B8%8A%E6%B5%B7.png
再换http://bj.ganji.com/tel/5b6c57675060046157375462533e5b3e576c0f325733_2_%E4%B8%8A%E6%B5%B7.png
这回明白为什么赶集网刷新一次联系方式图不一样了吧。很好
赶集网还有好多图片形式那 自己变化下地址看看
我这个人比较懒,所以那如果我去采集,用识别程序的话,我会选择一种比较简单的没有黏贴的去采集。
正好在我写这个文章的时候有个朋友采集赶集的WEB页面,他遇见的问题比较郁闷的就是每次刷新换图而且手机号码上都带 - 着对识别来说会加大识别算法的难度。当然有时间有精力的人可以去改进算法。像我这种懒得不行了的人只能找其他方法了。绕过这个带 - 的识别
前文也提到了中间数字的变化
他给我的是WEB上属性里看到的图的地址http://sh.ganji.com/tel/5b6c576a5062046257365464533b5b3157600f325735.png根据那个数字变化 尝试下面地址http://sh.ganji.com/tel/5b6c576a5062046257365464533b5b3157600f325735_1_.png居然有图http://sh.ganji.com/tel/5b6c576a5062046257365464533b5b3157600f325735_2_.pnghttp://sh.ganji.com/tel/5b6c576a5062046257365464533b5b3157600f325735_3_.png可以了吧 采集WEB也可以构造对应的电话图片地址。绕过带-的 带黏贴的来识别。
更多内容详见我的博客石家庄SEOhttp://www.liyunpeng.com

好的 本文到此为止。采集真实越来越不容易了。火车采集器真是很强大,但是只有插件才能进行图片识别不过理论上来说 使用外部接口也是可以实现识别的比如我有个页面 传递个图片地址参数 然后你用多页采集来得到我这个识别的结果就可以。
本文仅作技术分析和参考 不提供任何识别算法。具体识别算法 详见 58同城识别算法。有兴趣加群108147757   或我QQ 1754-7523(建议不要加人满了,付费研究的欢迎,不想出银两的朋友建议加群)

www.heku.org 发表于 2011-3-11 10:30:22

路过支持下.................

chuqiao521 发表于 2011-3-11 10:56:22

不明白是            11111111111111111111

cndmad 发表于 2011-3-11 11:47:32

{:1_201:}      群满了

我是老大 发表于 2011-3-14 21:53:17

呵呵,这才放出来啊,
我都用ocrking 采好些天了,那个现在的版本支持所有站的识别,很是强,:ali12ls有需要的朋友可以试试
http://bbs.locoy.com/viewthread.php?tid=50802

秋天的无名 发表于 2011-3-20 14:57:19

非常棒,谢谢分享,解决了一定的识别问题

terence 发表于 2011-3-26 09:43:49

支持下,学习了~{:4_189:}

415439444 发表于 2011-3-27 13:24:08

顶       一       {:4_186:}个

秋天的无名 发表于 2011-3-28 16:02:31

完了,不管怎么样,都是黏黏的

多多的太阳 发表于 2011-4-26 10:25:41

谢谢楼主的分享....
页: [1] 2
查看完整版本: 赶集网图片电话识别分析