sushy 发表于 2007-11-27 16:11:17

对程序及网站的一点建议

我是初学者,所以火车头不是很熟练,说错的地方见谅。

一、程序

首先必须肯定的是,这是个很牛的程序。这个程序解决了很多小站长的难题。特别是直接发布功能,模拟网页post,功能相当的强悍。

我用的是正式版,由于版本限制,所以部分功能没有,就我测试的情况,发表一点不成熟的看法。

1.假死

我使用的是0级网址目录,规则批量导入10000条记录,花费时间是40分钟。CPU 56%(AMD3200) 内存50M。这个是在导入的过程中发生的。这说明对于多条记录,我们的软件承载能力或者算法上还是不够的。起码内存50M,说明了这一点。软件一次性读取所有记录,然后再一条一条解析,这个和迅雷或快车的批量下载原理差不多。这中间出现了假死的状况,如果我不条用任务管理器,我就以为软件停止了。

2.解析。

当软件导入所有网址完毕以后,接下来的工作是采集和分析。在这个过程中,CPU下降至30%左右,内存依旧保持在48M。当然,采集速度和网速有关系,所以不做评论。在这个过程中间,如果我暂停的话,再次启动时首先读取数据库中的内容,分析是否已经采集,如果已经采集,则放过,如果没有采集,则开始采集。这种想法是好,也比较保险。但是在读取的过程中,假如我用10w数据,现在已经采集到9w条,还有1w条没有采集,那么我要等到什么时候才能验证完毕呢?我想对于那些那一定顺序排序的网址进行采集,这种方式不是最优的。

建议:
我们的程序可以采集0 级, 1级 ,2级目录。

当我们采集0级目录的时候,我们能不能这样做:首先不是分析地址,而是直接分析第一条的页面。然后调入第二条的地址,分析第二条的页面。这样依次下去。这样的好处是:内存中不需要装入这么多的已经分析好等待解析的地址,占用内存小。

对于1级页面,首先分析页面上的所有网址链接,然后根据分页,再添加所有的分页上的连接,当这些连接全部调入完毕后,再分析页面内容。那么能不能这样做:

假如原来的程序是这样的。 可以看到首先将所有的地址读取,然后再慢慢分析。
i=0
for page=50
    for url=20
      readurl(i)=http://www.xxxxxx.com/news/xxx.htm‘得到地址数组,循环完成得到1000条记录
      i=i+1
    next
next

for i= 1 to 1000
      analyseurl(readurl(i) '解析数组中地址的内容
next


能不能这样做呢?

for page=50
   for url=20
   readurl=""
   readurl=http://www.xxxxxx.com/news/xxx.htm ’得到本地址,只有一条记录
   analyseurl(readurl)解析本地址内容
    write thisurl   ‘记录本地址
next
next

这样的好处是,不用做内存上的积累。用到的时候读取,分析。

由于规则是相同的,当暂停以后,再需要读取的时候,直接跳转到最后一条地址,然后继续工作,而不是在数据库中查找验证。

另外,在分析页面的时候,好像不支持出去xml中的<pre>标签。不支持过滤空格,不支持过滤换行,不支持过滤tab。可能正则可以吧,不过不会用(汗一个)。我用替换功能也不好用。不知道为什么。

由于本人的目的就是采集数据,然后导入本地access,所以目前只发现这些情况。

免费版本不支持文件的下载(除了图片和flash),至于怎么post到网站,我也没有做好。我在本地做了一个很简单网站,只有post接受页面,想通过这种方法用asp过滤一些我不希望出现的字符,结果搞了半天也没有post上去。可能是网站的接口太多了。建议这些接口都集成上去,不要使用一个一个独立的模块。



二、论坛:

我想说的是,我们网站的关注对象是谁?

1.普通的网民不来。这里没有他们感兴趣的。

2.牛站的管理员不来,他们不需要采集。

3.不懂程序的人不来。因为太复杂,他们连迅雷批量下载都不知道,更别说这个了。

那么关注我们网站的就是一个特殊的群体。稍微懂一点网站,抱着雄心,希望一夜之间变成大网站的站长朋友们。但其实这类人并不少,为什么我们网站仍然人气不足呢?

a 现在站长极少编程者。他们不懂编程。他们使用免费的程序,这些程序,特别是CMS大都有采集功能。

b,第三方网页格式的采集器。比如sk的存在。站长可以直接集成,直接发布。

c,我们的程序是个本地软件。它的缺点是采集后只能保存到本地数据库,然后再模拟提交上传,不像sk,直接提交到网站数据库。

我们的优势在于:所有程序都是dll了,安全性好,对于站长来说,程序稳定性好。

关于收费,我的看法是,不走收费的软件是做不久的。当然,现在的免费论坛是另外一码事。他们靠经营论坛周边产品。但是我们的软件定价太高,就会把一部分排斥在外。那么我们的软件定价高吗?

再回到论坛人气。

有句话叫无利不往,没有利益就没有动力。这就像我们的软件现在收费一样。

我之前在一个免费资源论坛上,高手们都潜水了。因为他们会了,不需要别人提供的资源了。新手们的问题又没有解答。我们的论坛呢,也是这样。个人版和标准版差多少呢?拿到个人版的并能为他人做模块的,后面的服务,也就自然不需要了。论坛的教程太少了,以至于我们的老大们不停的受人以鱼。我注意到论坛可以将火车车厢转化为rmb,直接付rmb,但是论坛似乎还没有形成这个气候。大家对rmb好像都不怎么关心。这就奇怪了。

另外,我们的宣传也不够。新站长们好像还没有围拢到火车头这边。这是我们软件易用性方面的一个最大的体现——什么时候做小网站必用火车头的时候,我们的火车头,就能带动行业前行了。

[ 本帖最后由 sushy 于 2007-11-27 16:13 编辑 ]

lbjyuer 发表于 2016-2-10 10:44:45

支持火车。。。。历史帖子回顾中。
页: [1]
查看完整版本: 对程序及网站的一点建议