一篇文章分为两部分,一部分由标题、tag、内容摘要构成,这部分是完全开放的,允许站外来源访问;另一部分有不同的url,必须是本站来源连接才能访问 只要能防住火车头,其它的采集器都是小意思,不值一提。 -->这条件不成立吧:
1、网页默认deflate压缩输出(gzip容易一点,容易解压) 我们普通的浏览器和baidu支持识别gzip,deflate输出内容;
只要不选deflate就行了,deflate是可选项,不是强制项。 没有完全的防采集。至少对于我来说我完全可以采集到的。理论上是任何网站。如果不行自己伪造一上结数据。然后再次采集。 验证问答 不错的文章啊,老大辛苦了!!! 只要分页处理好了一般的新手都无法采集· 没有完全的防采集。至少对于我来说我完全可以采集到的。理论上是任何网站。如果不行自己伪造一上结数据。然后再次采集。
飛越無限 发表于 2009-3-27 00:46 http://bbs.locoy.com/images/common/back.gif
当然,只要有心,相信以火车头的实力,始终还是可以采到的。但问题是代价呢?有没有必要花那么大的精力去采一个特定网站?又不是跟它有仇。我相信,只要有验证码或验证问答功能,这样的网站通常不会有人愿意去采 只要分页处理好了一般的新手都无法采集·
懷念過去↑文 发表于 2009-3-29 11:19 http://bbs.locoy.com/images/common/back.gif
分页处理好之后,确实是菜鸟、中鸟都没办法采,甚至老鸟都未必愿意去采。但是,分页加密对比验证码、验证问答,还是有它固有的弱点。当前火车头的爬行功能还没有搜索引擎那么强,无法智能爬行加密后的分页地址以采到全部主题url。但是,既然搜索引擎能智能爬行加密后的分页地址抓取全部主题,那么未来火车头一定可以实现这点(相信这也是火车头发展的方向吧?)。所以,分页加密我不看好,我更看好验证码功能。比如说51zbz.com,飞越无限兄弟、文兄弟,平心而论,你们有没有办法采它?即使你们有能力去采它,你们愿意花那么多精力去采这样一个有验证码功能的站吗(毕竟它上面的资源在一些不防采集的站上也有)?
页:
1
[2]