我觉得急要更正和改进的几个功能
我不知道是不是我机器不行还是怎么的。一旦采集的页面很多的时候,程序会出现假死。当然这说的不是功能的问题。只是希望程序内容的错误处理做好点。
1.采集的内容提供了正则的替换和删除。但那功能实正是太小了,正则的强大功能显示不出来。最好加个可自定义标准的正则表达式,以方便一部分人使用。这样就省了做二次修改了。
2.保存远程文件的功能等了这么长时间还没有出来,其实这个功能如果不好集成出来的话,可以做个单个软件,用正则搜索内容的ubb标签配合远程地址,来实现下载远程文件。
3.我想开发的精多应该多放在采集上面来,数据发布的功能已够用的了,因为大多数建站的人都懂点数据库,数据都采下来了,发布还能怎么愁吗。会有点头重脚轻的感觉。
4.多线程能不能再优化下了,可不可以先多线程下载远程文件,再从本地处理。因为一边下载,一边处理,处理的很占资源,影响了下载,比如我们用的下载工具。50线程下载软件,不会卡到这个样子。我想这样稳定性和效率都会上来的。
5、可以自定义多个代理服务器,循环使用。有的网站采不了几页IP就被封了。不爽。
6.其实我们采集的时候都有一个情况,比如一个网站有几个分类。我们要把它们采到我们不同分类的数据库中。按现在的只好每个类别建一个任务,如果做出一个字段可以根椐采集到的内容自定义一个分类的id什么之类的。比如,如果页面的导航名叫“男从女人”,我就设固字值为58,这样入库的时候,分类自动就弄好了。可以实列一个任务采一个站。。。。
7。很占资源。。。。。。。。。。。。。。
页:
[1]