一个列表页,有2种规则的数据,如何在同一个任务下采集
采集目标页面为:http://t.news.fx168.com/index/这个页面上有2种规则,一种带<h6>标签的一种不带。<div class="hzh_FX168_news_main_left_firwirelist_text">
<aid="1398259" target="_blank" title="美国1月IBD经济乐观指数实际值:51.5;前值:48.4">
<span>[指标]</span>美国 1月IBD经济乐观指数
</a>
<h6><em class="em1">前值:48.4</em><em class="em2" style="direction:none">预期:48.3</em><em class="em3">实际:51.5</em></h6>
</div>
<div class="hzh_FX168_news_main_left_firwirelist_date">
(2015-01-13 23:00)
</div> <div class="hzh_FX168_news_main_left_firwirelist_text">
<aid="1398218" target="_blank" title="美国12月NFIB小型企业信心指数为100.4,前值98.1">
<span>[短讯]</span>美国12月NFIB小型企业信心指数为100.4,前值98.1
</a>
</div>
<div class="hzh_FX168_news_main_left_firwirelist_date">
(2015-01-13 22:07)
</div>我用手动填写规则:<div class="hzh_FX168_news_main_left_firwirelist_text">
<a href="[参数]" id="(*)" target="_blank" title="(*)">
<span>[[标签:短标题]]</span>(*)<h6>[标签:data]</h6>
</div>
遇到没有h6标签的数据会自动加载下一条有h6标签的,如何在同一任务内分开采集,没有h6标签的内容则自动为空值,有h6标签的则采集h6标签的内容。是同一任务,分开写2个任务的话不利于我的数据采集。 看帖回帖,积累人品 只采连接然后别的数据到内容页里采集或者用插件处理。 303718 发表于 2015-1-16 09:17 static/image/common/back.gif
只采连接然后别的数据到内容页里采集或者用插件处理。
请问您指的是火车头的插件吗? 如果是一般什么插件可以解决我描述的问题 什么插件都可以解决。插件要定制才有的。
页:
[1]