wqjwftcaqr 发表于 2011-3-4 13:04:51

采集保存源代码小工具

本帖最后由 wqjwftcaqr 于 2011-3-14 13:40 编辑

采集网页信息 其实是采集工作的第一步

而我们设置标签属于整理信息,所以为了不让只因一个标签漏采或者标签设置错误而把所有网页再使用网络连接一遍的情况出现,我自己做了这样一个小工具来保存所有网页源代码(相当于做备份的步骤),而且这样也不会占用太多网络资源。
经发现采集网页,主要时间都花在了和网站的连接上,其实当你有了所有的源代码之后,用脚本去整理信息是非常快速的。所以我想办法要一劳永逸,把所有源码都先拿下来(如今的硬盘都已经很大,何况是你需要的信息。)。资料到手了,你爱怎么整就怎么整,哪怕别人网站倒闭也与你无关。
最终我把这二个简单的问题分开考虑:采集网页  和 整理信息。火车头是一个很棒的软件,希望能够提供保存整网页和整理本地源代码的功能。
希望能和大家一起讨论email和qq都是:gao2000@139.com
我的工具在附件
页: [1]
查看完整版本: 采集保存源代码小工具