期望3.3版本增加多种内容列表判断机制

sushy · 发表于 2008-3-5 19:37:29

我们知道，火车头现在的采网址，只能垂直采集二级深度的网址。也就是单变量采集。稍有变化，则需要建立更多的任务。

分析一下，采集文章列表无非是以下几大类：

1.深度列表：

三级，四级，五级列表，在采集软件站的时候经常遇到。（有的朋友说，采集软件站，我直接采它的0级网址，呵呵，我无语……）

2.立体采集：

多参数列表，这个是大家遇到最多的。比如我采集新闻。以新闻中心为2级，国内新闻、国际新闻、娱乐新闻等列表为 1级，那么接下来如何采集国内新闻中的新闻网址呢？有朋友说，一样采集啊。只要自己亲自做过的，就知道，1级列表只能采集到新闻列表页的第一页，不能翻页。如果想翻页，就只有把国内新闻作为2级别，然后把页面作为1级，采集的网址才购数。

3. 页内采集：

该项目也是分页问题。也就是上一页、下一页的问题。如果遇到像google翻页那样的，估计问题就难办了。因为他是 10 11 12 ……15 16 17 18,两端都没有。可是到第18页的时候下面的列表又变了。

4.混合采集：

列表中有部分内容，文章内又有部分内容。典型的就是dedecms的列表中有简介。还有skycn 软件列表中有简介。（你说这个我不要，我无语……），可问题是有歌曲网站，某个页面上是作者的介绍，该页面同时又有该作者的若干专辑列表。你能说，我不要介绍了，直接要专辑？

5.多页面同时采集

这个我们火车头已经有了，就是把para改成price那个，只是为问题在于，简单的修改某一个参数是可以完成的，但是多个变量的修改呢？

总之，希望火车头越开越强大。

lbjyuer · 发表于 2016-2-10 08:53:04

爪，以后学习下。。

帐号		自动登录	找回密码
密码			加入会员

期望3.3版本增加多种内容列表判断机制

浏览过的版块