woandmin 发表于 2009-7-1 12:47:08

无人值守全自动采集建议

1、有任务时间到 > 2、定时开软件 > 3、清除该任务下所有已采内容和地址 > 4、采集、发布 > 5、完成关闭

于本人对火车的研究:

第1项已经是已有功能(收费版的定时功能),这个就不说了。

第2项定时开软件:

这个功能对小网站和小采集来说可能不需要,开定软件在电脑上就可以,

但是当采集规模达到上百或几千以上的站点规则时,一个软件的列表是装不下的,就算装得下你打开软件关是读这几百上千条规则就会花费你大半内存、CPU和等待时间,所以解决的方法就只能是把几百个规则分成好几个软件来装规则列表,这样当你当独打开一个软件时就不会占用很大的系统资源。

但问题就存在定时这一功能里,现在的定时功能是要开定软件的,但你想一想几百个规则不管是装在一个软件里还是分成几个软件装,同时打开都一样占用相等的资源。
所以定时打开功能很重要,当你达到系统同不了的层次时,就只能是分多软件,并让不同的软件在不同的时间打开,这就能把资源错开来运用,不用有很有用的任务都同时打开。
就好比一个小房间就装不了那么多人,你硬要那么多人全进来做到随叫随到,那你还不如让那么多人在门外等待,到谁时叫谁进来,完成时让他出去就可以。

第3项清理任务下所有已采内容和地址,这个功能可能对部分人有用,部分人没用,我这里提出是因为想要个对要采的列表每次都做一个重新检测,把他里面已经过期的内容排除掉。
比如我只想要它前3页的内容,它会每天更新那前3页的内容就会把以前的内容推到后面的4、5、6之后的页面去,这样就采不到了。
内容就会是前3页的新内容,入库时让它和现有的内容对比,把前3页的内容刷新到最新的时间,已经采不到的4、5页以后的内容就让他时间慢慢向后移动,更可以让这些没被更新的旧内容在一定时间后可以得到清除,稀放你的空间,进而对新内容的推荐和保护。

第4项这项也是已有功能,就不多说了。

第5项完成关闭

如采集时有别的任务时间也到了,择自动加到采集等待列表,全部都采集完才关闭软件,这样就可以很好的稀放软件所占的系统资源。


像这种无人值守功能应用很大,如果直接就用火车的规则采集库做为网站数据,那只要在服务器上放上火车,定时每一人流最少的时间自动开关软件采集,那就完全是个百度的蜘蛛功能。
你只需要把网站做好,定好规则,买好服务器,其它的可以说全年365完全可以不用动一根手指去维护你的网站。

懷念過去↑文 发表于 2009-7-1 15:03:17

可以使用别的软件 定时开机 关机
火车头设置随机启动
火车头中设置定时采集
这样就完美了 呵呵·

jueshihaogongzi 发表于 2009-7-1 15:35:17

配套使用

zagj11 发表于 2009-8-2 07:19:58

按键精灵。。配合使用。

lbjyuer 发表于 2016-2-9 08:50:28

支持火车。。。。历史帖子回顾中。
页: [1]
查看完整版本: 无人值守全自动采集建议