|
经过四天日夜的研究,
终于把火车头摸清楚了:采集规则-发布模块-采集回复帖(含采集接口)-分页采集-图片采集
能够弄懂真的不容易,
特别是软件运行采集有时的不稳定性,找不到答案,只有自己摸,(1\不同时间打开软件,有时可以采,有时不能采 2\更改了发布模块之后测试采集没有问题,发布就不行.搞了我好久才搞清楚被我弄好了)
感觉软件是很不错的,采集原理扩展性能都很好,正因为软件强大的功能,操作那是相当的复杂,
所以本人分享一下火车头采集的经验与原理,正所谓万变不离其宗,如果你能掌握采集每个功能原理,什么软件的采集应该都难不到你了
采集规则关键是代码的唯一性(如有其它软件的采集基础,这点应该不难)
官方论坛上的DZ7.2模块不是要钱的,就是没有.发布模块关键是数据库变量与论坛接口变量的传递,定义好数据库变量(也就是标签)基本上就成功了,所以我自己改了一个DZ7.2的模块,很不错
采集接口关键是接收变量并传递到论坛数据库当中,而且自己可定义回复连接码,为什么自己做接口文件呢?因为论坛自带的post.php文件
要求的变量比较多,验证用户名,cookie等变量,为了方便把可以把发布接口而搞成简单一点直接入数据库,可以省去一些不必要的验证(如果这个要搞精,去DZ官方好研究一下post.php以及php代码吧)
图片采集原理采集img中的代码地址并替换你所需要的图片地址,论坛一定要用ubb代码,否则不会成功,因为DZ论坛只会识别UBB代码,所谓的UBB代码区别于HTML代码
基本上就是UBB用的是[,而HTML用的是<.
采集完以后图片地址入到data/SpiderResult.mdb的数据库当中,图片文件下载到本地.通过发布接口导入到论坛数据库当中,当然以上内容是一气呵成的,实际上我们
是感觉不到
现在准备研究一下,附件采集,虽然免费版是不支持的,原理差不多明白,试下,
以上绝对经验总结,希望能对新手有所帮助 |
|