|
转载自:http://www.v2gg.com/a/hulianwang/chuangyefenxiang/2013/0817/15546.html
最近在研究做一个门户资讯网站:微儿网 (http://www.v2gg.com),是通过蜘蛛去抓取微信公众平台文章,然后自动分类实现的微信公众平台 门户。
但是大家都知道,好多微信公众平台文章都是运营人员直接复制粘贴过来的,如果不进行原创判断,那么我的网站就基本废了。
我搜了下,网上的原创性检测都是EXE,不支持在线调用,也不支持火车头直接使用。
百度对原创的识别很严格。来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。
我自己写了一个文章在线检测原创性的PHP脚本,主要原理是通过获取传过来的文章段落或者标题,对比SO.COM、BAIDU.COM 收录的类似内容。然后对标题和段落进行相似度在线分析(分析单次耗时0.032秒)。使用方法很简单:isyuanchuang.php?wd=【标题或者段落】 ,如果非原创就会给你返回包含444的字符串。
源代码请移步:http://www.v2gg.com/a/hulianwang/chuangyefenxiang/2013/0817/15546.html |
|