hu8868 发表于 2009-12-29 12:50:43

火车头DZ7.2采集成功

经过四天日夜的研究,
终于把火车头摸清楚了:采集规则-发布模块-采集回复帖(含采集接口)-分页采集-图片采集
能够弄懂真的不容易,
特别是软件运行采集有时的不稳定性,找不到答案,只有自己摸,(1\不同时间打开软件,有时可以采,有时不能采   2\更改了发布模块之后测试采集没有问题,发布就不行.搞了我好久才搞清楚被我弄好了)
感觉软件是很不错的,采集原理扩展性能都很好,正因为软件强大的功能,操作那是相当的复杂,
所以本人分享一下火车头采集的经验与原理,正所谓万变不离其宗,如果你能掌握采集每个功能原理,什么软件的采集应该都难不到你了
采集规则关键是代码的唯一性(如有其它软件的采集基础,这点应该不难)
官方论坛上的DZ7.2模块不是要钱的,就是没有.发布模块关键是数据库变量与论坛接口变量的传递,定义好数据库变量(也就是标签)基本上就成功了,所以我自己改了一个DZ7.2的模块,很不错
采集接口关键是接收变量并传递到论坛数据库当中,而且自己可定义回复连接码,为什么自己做接口文件呢?因为论坛自带的post.php文件
要求的变量比较多,验证用户名,cookie等变量,为了方便把可以把发布接口而搞成简单一点直接入数据库,可以省去一些不必要的验证(如果这个要搞精,去DZ官方好研究一下post.php以及php代码吧)
图片采集原理采集img中的代码地址并替换你所需要的图片地址,论坛一定要用ubb代码,否则不会成功,因为DZ论坛只会识别UBB代码,所谓的UBB代码区别于HTML代码
基本上就是UBB用的是[,而HTML用的是<.
采集完以后图片地址入到data/SpiderResult.mdb的数据库当中,图片文件下载到本地.通过发布接口导入到论坛数据库当中,当然以上内容是一气呵成的,实际上我们
是感觉不到
现在准备研究一下,附件采集,虽然免费版是不支持的,原理差不多明白,试下,


以上绝对经验总结,希望能对新手有所帮助

wjl123 发表于 2009-12-30 01:31:10

不错
这种心得值得

hjkk 发表于 2009-12-31 22:37:56

楼主能不能发一个7.2的接口出来给大家用
谢谢啊

winliong 发表于 2010-1-4 20:24:46

{:4_181:}楼主太不厚道了,研究了四天,也不分享下!~

vus520 发表于 2010-1-4 22:35:11

Dz的发布比较麻烦,我们也出了Dz的发布接口,免费下载使用。

一统天下 发表于 2010-1-5 15:08:35

Dz的发布比较麻烦,我们也出了Dz的发布接口,免费下载使用。
vus520 发表于 2010-1-4 22:35 http://bbs.locoy.com/images/common/back.gif


    你发布的UTF-8有问题.

W5554253 发表于 2010-1-5 18:17:38

真的很不错啊!~~~~!~~~~

1G空间100元 发表于 2010-1-7 16:18:38

期待楼主共享啊。。。

佛山热线 发表于 2010-1-10 14:48:13

楼主能提供下你的模块吗

cjishi 发表于 2010-1-31 11:33:07

奏是 能提供下模块么?
页: [1] 2
查看完整版本: 火车头DZ7.2采集成功