|
1火车车厢
我采集的整个过程是这样的:比如我要采集的是新浪国内新闻中的各地新闻,站点名称我就写新浪,地址我就写www.sina.com,站点描述我就写国内新闻,然后我就开始编写整站内容规则,我设置的标题开始标签是<title>结束标签是</title>,内容开始标签是<div align=left class=title14>结束标签是<table width=740 border=0 cellspacing=0 cellpadding=0>,然后我开始测试各地新闻这个网页,我能够得到标题和内容还有时间,内容从<!--开始新闻列表-->开始到<!--结束新闻列表--></div><center>结束,保存,然后我点开始从该站点新建任务,添加网址规则一栏,我添加单条网址即: http://news.sina.com.cn/china/gd/index.html,文章内容页面的地址必须包含:我写的是china,页面内选定区域采集网址我没填,采集内容规则我就用原来设好的整站内容规则,发布内容设置我就选保存为本地文件,保存文件格式.html,保存位置我选择桌面,模板我选择html_tpl,然后设置文件保存及运行时设置,所有文件本地保存文件夹,我写的是桌面,文件链接地址前缀一栏我没填,图片相对保存文件夹, flash相对保存文件夹和其它文件相对保存文件夹我都没填,成功发布到哪定义为发布成功:我选保存到本地文件夹,其余设置不变,任务名我写各地新闻,点保存然后我开始采集了。采集完了我打开保存在桌面的火车采集器html简单模板式范,有作者有标题有时间,可就是没有内容。谁能告诉我哪里出错了呢? |
|