sushy 发表于 2008-3-5 19:37:29

期望3.3版本增加多种内容列表判断机制

我们知道,火车头现在的采网址,只能垂直采集二级深度的网址。也就是单变量采集。稍有变化,则需要建立更多的任务。

分析一下,采集文章列表无非是以下几大类:

1.深度列表:

三级,四级,五级列表,在采集软件站的时候经常遇到。(有的朋友说,采集软件站,我直接采它的0级网址,呵呵,我无语……)

2.立体采集:

多参数列表,这个是大家遇到最多的。比如我采集新闻。以新闻中心为2级,国内新闻、国际新闻、娱乐新闻 等列表为 1级,那么接下来如何采集国内新闻中的新闻网址呢?有朋友说,一样采集啊。只要自己亲自做过的,就知道,1级列表只能采集到新闻列表页的第一页,不能翻页。如果想翻页,就只有把国内新闻作为2级别,然后把页面作为1级,采集的网址才购数。

3. 页内采集:

该项目也是分页问题。也就是上一页、下一页的问题。如果遇到像google翻页那样的,估计问题就难办了。因为他是    10 11 12 ……15 16 17 18,两端都没有。可是到第18页的时候下面的 列表又变了。

4.混合采集:

列表中有部分内容,文章内又有部分内容。典型的就是dedecms的列表中有简介。还有skycn 软件列表中有简介。(你说这个我不要,我无语……),可问题是有歌曲网站,某个页面上是作者的介绍,该页面同时又有该作者的若干专辑列表。你能说,我不要介绍了,直接要专辑?

5.多页面同时采集

这个我们火车头已经有了,就是把para改成price那个,只是为问题在于,简单的修改某一个参数是可以完成的,但是多个变量的修改呢?


总之,希望火车头越开越强大。

lbjyuer 发表于 2016-2-10 08:53:04

爪,以后学习下。。
页: [1]
查看完整版本: 期望3.3版本增加多种内容列表判断机制