头痛啊～～火车头太强～～反采集讨论贴

干燥时间 发表于 2009-3-24 13:05:55

本帖最后由干燥时间于 2009-3-24 13:30 编辑

像dz和起点中文这样可以设置“付费后才可阅读”的站，如果有充足的金币，对于那些整站内容全部“付费后才可阅读”的，如何采集？

懷念過去↑文 发表于 2009-3-24 13:09:03

先进行付费在采集

干燥时间 发表于 2009-3-24 13:12:27

如何先付费再采集？
正则？
付费是需要鼠标点击的。

zydxdx 发表于 2009-3-24 13:21:06

估计要先做一个自动刷付费的工具刷一边网站再说

vus520 发表于 2009-3-24 13:22:58

根据网站而定，一般来说，可以使用POST数据的方式来采集。
按楼主说的，只要用户有访问权限，有充足的访问条件，网站内容就可以被采集到。

目前，我个人认为，最好的防采集办法还是要从内容上、分页处理上入手。

干燥时间 发表于 2009-3-24 13:23:29

看样子这世界上是没有能防得住火车头的东西了
我问这个问题就是因为我要防采集又不影响搜索引擎
我原来打算搞个全站付费，会员注册就有百万金币足够阅读全部文章，未付费只能读摘要不能读全文。
本来以为能防得住采集，现在看来还是不行

干燥时间 发表于 2009-3-24 13:24:53

地址加密、随机插入div、随机插入html这些反采集措施不适合我。这些措施不是影响搜索引擎，就是拖慢服务器

干燥时间 发表于 2009-3-24 13:29:05

本帖最后由干燥时间于 2009-3-24 13:31 编辑

或许只能用流量异常监控来防采集吧？
来自某个IP的PV每日不能超过一定数量，超过了数量就自动屏蔽该IP几天
不过这样还是会被搜索引擎K。

干燥时间 发表于 2009-3-24 13:32:54

不知道能不能这样：某IP阅读标签和内容摘要的PV不限，但阅读全文的PV每日不能超过一定数量，超过了数量就自动屏蔽该IP几天。

这样能否既不妨碍搜索引擎，又达到良好的反采集效果？

干燥时间 发表于 2009-3-24 13:52:26

火车头创始人李进斌谈反采集

　　今天重新换了个公司办公地点。在马鞍山路上，欢迎大家以后造访，多多交流。

　　因为是长期做采集方面的技术，今天的就只要谈些技术方面的问题：网站的采集与防采集。

　　我们的这个采集器最早是从05年底开始有这个想法的，当时也是和大家一样，个人站长，添加管理维护网站很辛苦，一篇篇修改复制发布，由于有了这个需求，才开始学习编程。最开始也是接触dede，然后发现他有个外部的c#采集器。不知道有多少人也记得，我的思路基本是从这个dedespider学来的。原来真的不懂什么，到后来学会php和.net,所以只要大家有兴趣，技术上的问题都可以克服。

　　讲到现在的采集，其实采集只能替代站长部分手工的操作，我们不建议大规模的去制造垃圾站（全盘得采集复制别人的站点），所以我们现在的软件的功能越做越多，但新用户缺越来越不会用了。我们现在有一批很忠实的会员，他们一直在靠采集器更新网站。迅速的采集然后百度搜录带来巨大的流量的时代已经不在，站长还是要关注内容，靠采集器采集的数据一样要注意，前期只能做为一个数据填充，可以稍微大点。但时间长了，目标就要把垃圾数据也要变成精品，否则做不长久。

　　我们现在在更新这个采集器，在数据采集方面也积累了一些经验，增加更多功能以适应新形式下的采集：

　　1.别人经常采的网站不要去采；
　　2.太容易采的网站不要去采；
　　3.不要一次性采集太多，一定要注意后期处理（后面详续）；
　　4.做好关键词，tag的采集分析；
　　5.自己网站要有自己的定位，不采与自己网站无关的内容；
　　6.采集也要有持续性，经常更新，自动采集功能我们也有，但还是建议大家人工也参与一些审核，或定时，乱序发布。

　　后期处理，要想法子做到让搜索引擎那看不出来两片文章的相同，这里面应该有很多SEO高手，那我不献丑了。我说下我们现在实现的功能，大家可以把这些混用，达到改变内容伪原创：

　　1.给标题、内容分词；
　　2.使用同义词近义词替换，排除敏感词，不同的标签之间数据融合，指如标题内容之间数据的相互替换；
　　3.给文章加上摘要；
　　4.为文章标题等生成拼音地址；
　　5.采集一些其他编码的网站，我们可以做到简繁体转化，可以采集中文网站翻译成英文（虽然比较垃圾，但应该可以算是原创）。

　　我们也发现，高难度采集的网站一般内容质量都非常好，采集其实有时也是一件很有乐趣的事情，需要你学习一些采集相关的知识。

　　下面讲一些主要的防采集方法。可以说是攻防对战吧。

　　打开一个网页实际就是一个Http请求浏览器。百度蜘蛛，小到我们的采集器使用的都是一个原理，模拟http请求，所以我们同样能模拟出浏览器、百度蜘蛛出来。所以绝对的防采集根本不存在，只是难度的高低。或者你认为搜索引擎的搜录也无所谓了。你可以用一些非常强大的activex,flash,全图片文字的形式，这个我们无能为力。

　　普通的防采集方法有：

　　1、来源判断；
　　2、登录信息判断 Cookie；
　　3、请求次数判断。如一段时间内请求多少，非常规操作则封IP；
　　4、发送方式判断 POST GET 使用JS，Ajax等请求内容。

　　1和2不用说了，论坛，下载站等。
　　3、一些大网站，需要配置服务器，单纯靠脚本判断资源消耗比较大。
　　4、如一些招聘站，asp.net的分页，Web2.0站的ajax请求内容。

　　当然我们后面还发现一些杀手锏，今天第一次在这里给大家公布出来~~ 有优质内容需要防采集的朋友可以考虑试下：

　　1、网页默认deflate压缩输出(gzip容易一点，容易解压) 我们普通的浏览器和baidu支持识别gzip,deflate输出内容；
　　2、网页内容不定时\0 内容自动截断。

　　这两点基本可以防主大部分主流软件采集及web采集程序了~

　　今天主要想要表达的一点，大家在做站时一定要注意技术的提高，比如我们里面有后期外部php及.net接口处理采集数据。或者干脆你自己做一个发布时的接口程序自己入库。

　　我们伪原创做得再好，一样有非常多的会员使用，那样又不原创了，采集一样需要技术，只有你通过采集器获得了没有多少人有的数据，你才是唯一了。可能是我最为技术型人的一个通病，谢谢大家！

页: [1] 2

火车采集器软件交流官方论坛's Archiver

头痛啊～～火车头太强～～反采集讨论贴