找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3311|回复: 1

期望3.3版本增加多种内容列表判断机制

[复制链接]
发表于 2008-3-5 19:37:29 | 显示全部楼层 |阅读模式
我们知道,火车头现在的采网址,只能垂直采集二级深度的网址。也就是单变量采集。稍有变化,则需要建立更多的任务。

分析一下,采集文章列表无非是以下几大类:

1.深度列表:

三级,四级,五级列表,在采集软件站的时候经常遇到。(有的朋友说,采集软件站,我直接采它的0级网址,呵呵,我无语……)

2.立体采集:

多参数列表,这个是大家遇到最多的。比如我采集新闻。以新闻中心为2级,国内新闻、国际新闻、娱乐新闻 等列表为 1级,那么接下来如何采集国内新闻中的新闻网址呢?有朋友说,一样采集啊。只要自己亲自做过的,就知道,1级列表只能采集到新闻列表页的第一页,不能翻页。如果想翻页,就只有把国内新闻作为2级别,然后把页面作为1级,采集的网址才购数。

3. 页内采集:

该项目也是分页问题。也就是上一页、下一页的问题。如果遇到像google翻页那样的,估计问题就难办了。因为他是    10 11 12 ……15 16 17 18,两端都没有。可是到第18页的时候下面的 列表又变了。

4.混合采集:

列表中有部分内容,文章内又有部分内容。典型的就是dedecms的列表中有简介。还有skycn 软件列表中有简介。(你说这个我不要,我无语……),可问题是有歌曲网站,某个页面上是作者的介绍,该页面同时又有该作者的若干专辑列表。你能说,我不要介绍了,直接要专辑?

5.多页面同时采集

这个我们火车头已经有了,就是把para改成price那个,只是为问题在于,简单的修改某一个参数是可以完成的,但是多个变量的修改呢?


总之,希望火车头越开越强大。
发表于 2016-2-10 08:53:04 | 显示全部楼层
爪,以后学习下。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表