|
我们知道,火车头现在的采网址,只能垂直采集二级深度的网址。也就是单变量采集。稍有变化,则需要建立更多的任务。
分析一下,采集文章列表无非是以下几大类:
1.深度列表:
三级,四级,五级列表,在采集软件站的时候经常遇到。(有的朋友说,采集软件站,我直接采它的0级网址,呵呵,我无语……)
2.立体采集:
多参数列表,这个是大家遇到最多的。比如我采集新闻。以新闻中心为2级,国内新闻、国际新闻、娱乐新闻 等列表为 1级,那么接下来如何采集国内新闻中的新闻网址呢?有朋友说,一样采集啊。只要自己亲自做过的,就知道,1级列表只能采集到新闻列表页的第一页,不能翻页。如果想翻页,就只有把国内新闻作为2级别,然后把页面作为1级,采集的网址才购数。
3. 页内采集:
该项目也是分页问题。也就是上一页、下一页的问题。如果遇到像google翻页那样的,估计问题就难办了。因为他是 10 11 12 ……15 16 17 18,两端都没有。可是到第18页的时候下面的 列表又变了。
4.混合采集:
列表中有部分内容,文章内又有部分内容。典型的就是dedecms的列表中有简介。还有skycn 软件列表中有简介。(你说这个我不要,我无语……),可问题是有歌曲网站,某个页面上是作者的介绍,该页面同时又有该作者的若干专辑列表。你能说,我不要介绍了,直接要专辑?
5.多页面同时采集
这个我们火车头已经有了,就是把para改成price那个,只是为问题在于,简单的修改某一个参数是可以完成的,但是多个变量的修改呢?
总之,希望火车头越开越强大。 |
|