chengmo 发表于 2017-4-28 18:35:58

火车头采集器如何编写指定范围正则表达式?

使用火车头采集器采集文章内容页时,需要提取文章中的关键词。
文章代码格式如下:


<div class="xxx">
    <div class="content">
      这是一段文章内容,这是一段文章内容,这是一段文章内容
      <a href="http://xxx.com/xxx.html" target="_blank">关键词一</a>
      这是一段文章内容,这是一段文章内容,这是一段文章内容
      <a href="http://xxx.com/xxx.html" target="_blank">关键词二</a>
      这是一段文章内容,这是一段文章内容,这是一段文章内容
    </div>
</div>


我需要提取<div class="content"></div>中<a>标签内的关键词,关键词数量不限,需要循环匹配。
坐等大神解答,感谢!

leweizxl 发表于 2017-5-2 08:35:18

范围不是清楚了吗做下多页设置
页: [1]
查看完整版本: 火车头采集器如何编写指定范围正则表达式?