wei80730 发表于 2012-11-29 08:34:12

以前的伪原创方法现在都不起作用了,百度都不收录了,该如何解决这个问题

本帖最后由 wei80730 于 2012-11-29 08:38 编辑

         最近我新测试了一个网站,弹跃龙门户网<a >弹跃龙门户网</a>www.lyy9.com,用的是火车头采集器,采集伪原创,基本伪原创的方法我都用上了,打乱句子顺序,不同网站的文章进行段落组合,标题组合,每天更新10篇文章,完整模拟人工发布,11月18号上线,在此之前我在空间了上传了DIY- page这个CMS想学习一下,应该是15号上传的吧,结果到现在都一直保留着这个CMS的快照,新网站天天更新,都没有被收录,一直打现在已经过去两个星期了,按照现在的更新规律,百度每逢星期四就会大更新,一次,但是现在两个星期过去了,没有一点变化,而在谷歌却收录了我250片文章,我只上传了300多片文章,收录情况良好。所以显然,现在百度调整算法最主要目标就是打击伪原创的采集网站。相信百度已经能够通过算法判断出采集伪原创的文章,我估计是通过习惯性语法匹配的错误率来判断的,哪些打乱文章句子顺序的文章很多句子一定违反了习惯性语法错误率超过警戒值,就被放弃了。而对于同意词替换的文章,百度在对比相似性的时候也一定调整了算法,进行整体文章进行近义词模糊匹配相似性超过警戒值的就被放弃收录。
   百度不愧是全球中文搜索引擎的老大。在处理中文搜索作弊方法技术越来越先进。但是回头想想,采集的伪原创文章确实给网络带来了伤害,伤害了哪些辛苦搞原创的网站,伤害了网络上的公平原则。本来网络的应用应该是资源分享,每个人都把自己的经验知识分享出来,让别人受益,从而自己也获益。如果采集文章也能获利,那谁还去写原创,网络上到处都是采集的文章,重复来重复去,结果就伤害了百度的用户体验。查到的都是采集来的垃圾文章。以后用户就会转向别的搜索引擎了。所以百度打击伪原创是必然的。未来的站长该如何发展呢。我想无非两条路。第一继续研究百度打击伪原创的算法,看还有没有漏洞,道高一尺,看能不能魔高一丈。这个任务估计就交给火车头的开发人员了。第二条路就是,做一会踏踏实实的站长,把自己的知识分享出来,现在现在百度算法对原创,新的东西特别敏感,只要是网络上找不到的东西,只要是自己写的东西就会跟别人不一样。个性啊,收录会很快。现在人人都习惯用火车头了都已经上市写文章的能力了,写文章或许将是下一届网络的新曹。

rq204 发表于 2012-11-29 11:10:14

数据采集只是一种手段,做一个好的网站,全靠采集是不行的。

bb158 发表于 2013-1-6 11:25:22

支持一下楼上的说法!
页: [1]
查看完整版本: 以前的伪原创方法现在都不起作用了,百度都不收录了,该如何解决这个问题