找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 12216|回复: 13

赶集网图片电话识别分析

[复制链接]
发表于 2011-3-11 09:38:26 | 显示全部楼层 |阅读模式
本帖最后由 lypying 于 2011-7-20 08:42 编辑

采集与反采集总是在矛与盾之间进行角色转换的。58 赶集 口碑 这几个大网站成了采集分类信息的根据地。但是采集器对他们服务器的压力就不言而喻了。就火车头默认设置来说400ms发三个请求 一秒算10个。一台机器开两三个任务。如果多几个人采集,请求数就不言而喻了。不光是这几个大网站的信息资源的流失还有对服务器造成的压力,这些都是他们不想看到的。当然这几个大网站之间也是互相采集的。我采集58比较多。赶集和其他网站很少去做,我发现58也采集赶集,搜房网这些网站的信息,水印上有么。
言归正传,昨天赶集网又一次进行了版面规则调整,剑指采集。在赶集网WEB页面联系方式图片化后。WAP页面也进行了图片化,昨天的一次规则更新相信会阻止大部分的采集,当然也不可能阻止全部。
昨天也有几个朋友问我能不能采集到赶集了。简单的看下 答案是肯定的。当然能,可能也有其他的办法进行采集,但是我依旧是图片识别。赶集网WAP联系方式图片化要比58做的好一些。因为58只是单纯的出现数字,数字之间的间隔是相同的。比如

对于图片识别来说 这样的图是最好识别的。我相信就这一个图片识别想必就挡住了大部分人采集58的脚步
不过赶集的这次更新更变态。联系方式不光是图片化,而且还做了黏贴处理。几个数字黏贴到一起,对于识别来说这个就有点难度了。我之前发布的识别算法是不能识别黏贴的。当然 改进下是可以的,因为58没有这样做,我也没必要去改算法了。

右侧的就是黏贴的图。对于识别来说 这个是比较复杂的了。但是也是有办法解决的。
但是针对赶集网的联系方式图片化我发现了这样的问题。可能会有些帮助比如
我截图的这两张图片
  1. http://bj.ganji.com/tel/5b6e57605062046157395467533b5b3a_10_.png
复制代码
  1. http://bj.ganji.com/tel/5b6c57675060046157375462533e5b3e576c0f325733_10_%E4%B8%8A%E6%B5%B7.png
复制代码
作为本文的读者 你会发现什么问题那。先想下 然后在看下面的文字
我所发现的 第一BJ.GANJI.COM 我所在地是石家庄。二级域名居然是bj的 这说明这部分的数据应该是在北京服务器上。当然你看域名IP也一样只是单纯的从这个地址中分析出来的。
第二5b6e57605062046157395467533b5b3a 与 5b6c57675060046157375462533e5b3e576c0f325733
你会发现 如果四个为一组的话 会有很神奇的效果 比如
第二个正好是32个字符而电话正好是8个数字
第二个地址 正好是44个字符而手机号码正好是11位
神奇吧。所以我个人感觉 这个数字与电话之间一定会存在某种联系,因为能力和时间有限也没有进行研究了。如果有兴趣的朋友研究下 得出结果记得要告诉我哈。
第三、看%E4%B8%8A%E6%B5%B7这个我去太神奇了 URLENCODE编码。一解码居然是石家庄.......对咱们采集没任何意义
第四、最有意义的要来了 也是前三点我没有提到的_10_ 大家把地址换下这样
  1. http://bj.ganji.com/tel/5b6c57675060046157375462533e5b3e576c0f325733_1_%E4%B8%8A%E6%B5%B7.png
复制代码

再换
  1. http://bj.ganji.com/tel/5b6c57675060046157375462533e5b3e576c0f325733_2_%E4%B8%8A%E6%B5%B7.png
复制代码

这回明白为什么赶集网刷新一次联系方式图不一样了吧。很好
赶集网还有好多图片形式那 自己变化下地址看看
我这个人比较懒,所以那如果我去采集,用识别程序的话,我会选择一种比较简单的没有黏贴的去采集。
正好在我写这个文章的时候有个朋友采集赶集的WEB页面,他遇见的问题比较郁闷的就是每次刷新换图而且手机号码上都带 - 着对识别来说会加大识别算法的难度。当然有时间有精力的人可以去改进算法。像我这种懒得不行了的人只能找其他方法了。绕过这个带 - 的识别
前文也提到了中间数字的变化
他给我的是WEB上属性里看到的图的地址
  1. http://sh.ganji.com/tel/5b6c576a5062046257365464533b5b3157600f325735.png
复制代码
根据那个数字变化 尝试下面地址
  1. http://sh.ganji.com/tel/5b6c576a5062046257365464533b5b3157600f325735_1_.png
复制代码
居然有图
  1. http://sh.ganji.com/tel/5b6c576a5062046257365464533b5b3157600f325735_2_.png
复制代码
  1. http://sh.ganji.com/tel/5b6c576a5062046257365464533b5b3157600f325735_3_.png
复制代码
可以了吧 采集WEB也可以构造对应的电话图片地址。绕过带-的 带黏贴的来识别。
更多内容详见我的博客  石家庄SEO  http://www.liyunpeng.com

好的 本文到此为止。采集真实越来越不容易了。火车采集器真是很强大,但是只有插件才能进行图片识别不过理论上来说 使用外部接口也是可以实现识别的比如我有个页面 传递个图片地址参数 然后你用多页采集来得到我这个识别的结果就可以。
本文仅作技术分析和参考 不提供任何识别算法。具体识别算法 详见 58同城识别算法。有兴趣加群108147757   或我QQ 1754-7523(建议不要加人满了,付费研究的欢迎,不想出银两的朋友建议加群)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x

评分

1

查看全部评分

发表于 2011-3-11 10:30:22 | 显示全部楼层
路过支持下.................
发表于 2011-3-11 10:56:22 | 显示全部楼层
不明白是              11111111111111111111
发表于 2011-3-11 11:47:32 | 显示全部楼层
      群满了
发表于 2011-3-14 21:53:17 | 显示全部楼层
呵呵,这才放出来啊,
我都用ocrking 采好些天了,那个现在的版本支持所有站的识别,很是强,有需要的朋友可以试试
http://bbs.locoy.com/viewthread.php?tid=50802
发表于 2011-3-20 14:57:19 | 显示全部楼层
非常棒,谢谢分享,解决了一定的识别问题
发表于 2011-3-26 09:43:49 | 显示全部楼层
支持下,学习了~
发表于 2011-3-27 13:24:08 | 显示全部楼层
顶       一      
发表于 2011-3-28 16:02:31 | 显示全部楼层
完了,不管怎么样,都是黏黏的
发表于 2011-4-26 10:25:41 | 显示全部楼层
谢谢楼主的分享....
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表