woyaozhuce 发表于 2017-5-9 14:56:32

火车头什么都能采集吗?能对接dedecms吗?

  简介
  火车头采集器是一个很强大的网络采集工具,很多网络从业者都用来采集信息和新闻,通常一个规则只能采集一个网站的页面,如何做到一个规则采集不同网站页面的信息内容呢,今天小编在就在给不会的同学讲一下,如何利用火车头采集器采集不同新闻网站的信息内容
  工具/原料
  火车头采集器一个,这里以火车头采集器v8.4为例
  方法/步骤
  打开火车头采集器,添加一个新建任务,起名为新闻泛采集,采集地址设为http://news.baidu.com/ns?cl=2&rn=20&tn=news&ie=utf-8&word=news,这里就以新闻两个字为搜索关键词了,多级提取那块我就不详细解释了,因为咱们今天主要讲的是泛采集标题和内容

http://img1.nlrsq.com/upfile/a1ad16fa513d269739bf908352fbb2fb4216d845.jpg

http://img1.nlrsq.com/upfile/1f569482b9014a90c6eadc63ae773912b11beedd.jpg

http://img1.nlrsq.com/upfile/f7426d8da977391280ad00bfff198618377ae222.jpg
  测试采集网址,好的,不同内容的新闻网址出来了,接下来我们可以想办法泛采集标题和内容了

http://img1.nlrsq.com/upfile/38403f3fb80e7becfe5a863f282eb9389a506b29.jpg
  点击第二步设置采集规则,添加标题字段,并设置为正文提取,提取标题

http://img1.nlrsq.com/upfile/a6aed01b9d16fdfa168a4230b38f8c5496ee7bcf.jpg
  内容提取也一样,添加内容字段,并设置为正文提取,提取内容,在这里我选择的是完全模式,不熟悉的朋友可以自己切换下看下效果

http://img1.nlrsq.com/upfile/58c3acb7d0a20cf4aa447a0171094b36aeaf99dd.jpg
  返回第一步获取的采集地址中选择一条双击打测试,就可以看到我们想要的采集结果都出来了

http://img1.nlrsq.com/upfile/55a628d12f2eb9383788fd2cd2628535e7dd6fcc.jpg

http://img1.nlrsq.com/upfile/f677b1c379310a5590c3592ab04543a9802610cd.jpg
  注意事项
  火车头的泛采集主要是应用于新闻网页,不是新闻页面的采集可能会有些提取错误
  采集是门艺术,练的时间长了,你也可以成为大师
页: [1]
查看完整版本: 火车头什么都能采集吗?能对接dedecms吗?