火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3865|回复: 0

原创文章在线检测技术,支持火车头批量检测

[复制链接]
发表于 2013-8-17 15:35:53 | 显示全部楼层 |阅读模式

转载自:http://www.v2gg.com/a/hulianwang/chuangyefenxiang/2013/0817/15546.html


        最近在研究做一个门户资讯网站:微儿网 (http://www.v2gg.com),是通过蜘蛛去抓取微信公众平台文章,然后自动分类实现的微信公众平台 门户。

        但是大家都知道,好多微信公众平台文章都是运营人员直接复制粘贴过来的,如果不进行原创判断,那么我的网站就基本废了。
   
        我搜了下,网上的原创性检测都是EXE,不支持在线调用,也不支持火车头直接使用。
   
        百度对原创的识别很严格。来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。

         我自己写了一个文章在线检测原创性的PHP脚本,主要原理是通过获取传过来的文章段落或者标题,对比SO.COM、BAIDU.COM 收录的类似内容。然后对标题和段落进行相似度在线分析(分析单次耗时0.032秒)。使用方法很简单:isyuanchuang.php?wd=【标题或者段落】 ,如果非原创就会给你返回包含444的字符串。

        
        源代码请移步:http://www.v2gg.com/a/hulianwang/chuangyefenxiang/2013/0817/15546.html
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-22 19:16

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表