cent_50 发表于 2015-1-14 08:22:26

一个列表页,有2种规则的数据,如何在同一个任务下采集

采集目标页面为:http://t.news.fx168.com/index/
这个页面上有2种规则,一种带<h6>标签的一种不带。<div class="hzh_FX168_news_main_left_firwirelist_text">
                  <aid="1398259" target="_blank" title="美国1月IBD经济乐观指数实际值:51.5;前值:48.4">
                        
                        <span>[指标]</span>美国 1月IBD经济乐观指数
                        
                        
                  </a>
                  <h6><em class="em1">前值:48.4</em><em class="em2" style="direction:none">预期:48.3</em><em class="em3">实际:51.5</em></h6>
                </div>
                <div class="hzh_FX168_news_main_left_firwirelist_date">
                  (2015-01-13 23:00)
                </div> <div class="hzh_FX168_news_main_left_firwirelist_text">
                  <aid="1398218" target="_blank" title="美国12月NFIB小型企业信心指数为100.4,前值98.1">
                        
                        
                        <span>[短讯]</span>美国12月NFIB小型企业信心指数为100.4,前值98.1
                        
                  </a>
                  
                </div>
                <div class="hzh_FX168_news_main_left_firwirelist_date">
                  (2015-01-13 22:07)
                </div>我用手动填写规则:<div class="hzh_FX168_news_main_left_firwirelist_text">
                  <a href="[参数]" id="(*)" target="_blank" title="(*)">
                        
                        <span>[[标签:短标题]]</span>(*)<h6>[标签:data]</h6>
                </div>
遇到没有h6标签的数据会自动加载下一条有h6标签的,如何在同一任务内分开采集,没有h6标签的内容则自动为空值,有h6标签的则采集h6标签的内容。是同一任务,分开写2个任务的话不利于我的数据采集。

他不该在 发表于 2015-1-15 20:59:31

看帖回帖,积累人品

303718 发表于 2015-1-16 09:17:04

只采连接然后别的数据到内容页里采集或者用插件处理。

cent_50 发表于 2015-1-19 09:54:27

303718 发表于 2015-1-16 09:17 static/image/common/back.gif
只采连接然后别的数据到内容页里采集或者用插件处理。

请问您指的是火车头的插件吗? 如果是一般什么插件可以解决我描述的问题

303718 发表于 2015-1-19 11:07:24

什么插件都可以解决。插件要定制才有的。
页: [1]
查看完整版本: 一个列表页,有2种规则的数据,如何在同一个任务下采集