可以采集xml网页吗
现在很多站点都支持xml的rss 如果可以直接采集xml效果好像更好 还没有广告顺便问个问题:
http://cn.engadget.com
这个站的中文是怎么编码的 怎么不到中文
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>Engadget 简体中文版 —Engadget 独家:"苹果新品发布会:"It's Showtime - Engadget Simplified Chinese</title> 与HTML不同,XML+XSL方式中数据层跟展现层分开,数据结构清晰,信息的采集和整合相对容易。
用户可在分析某类XML源文件后,直接将相应节点与所需数据项对应即可。系统实现时,仍保留原对信息项进一步加工处理命令,需扩展一个命令XML=(取xml中某节点数据)。
如对http://www.37c.com.cn/的新闻频道网页中相关链接部分在配置config.xml中格式如下:
<xmlhref>
<xslsite>
<xslfile> http://www.37c.com.cn/info/info01/info01_detail.xsl <xslfile>
<hreftext> ritems/ item /itemtitle < hreftext >
<hreflink> ritems/ item / itemhref <hreflink>
</ xslsite ><xslsite>…</ xslsite >
</xmlhref>
其中xslfile用于指定配置有效范围,为便于系统实现,采用绝对网址格式,hreftext 和hreflink对应的节点采为标准xpath格式,考虑到每个XML文件根节点唯一,可以忽略根节点而交付程序自动判断实现。
[操作内容]
新闻标题 XML= infotitle
新闻来源 XML= laiyuan
新闻来源 = 取 新闻来源 中的 《 到 》 之间的 全部内容
新闻时间 XML= date
新闻类别 XML= contenttype
新闻作者 XML= author
新闻主题词 XML= keyword
新闻内容 XML= content
新闻内容 = 将 新闻内容 中的/> 替换为 >
新闻内容 = 将 新闻内容 中的 ^p 替换为
新闻内容 = 将 新闻内容 中的 <!-- 到 --> 之间替换为
新闻内容 = 将 新闻内容 中的 <p替换为 ^p<p
新闻内容 = 将 新闻内容 中的 </td> 替换为 ^p
新闻内容 = 将 新闻内容 中的 <div> 替换为 ^p
新闻内容 = 将 新闻内容 中的 </strong> 替换为 </b>
新闻内容 = 将 新闻内容 中的 <strong> 替换为 <b>
新闻内容 = 将 新闻内容 中的 <br> 替换为 ^p
新闻内容 = 将 新闻内容 中的 <sub 替换为 _sub
新闻内容 = 将 新闻内容 中的 </sub 替换为 _/sub
新闻内容 = 将 新闻内容 中的 <sup 替换为 _sup
新闻内容 = 将 新闻内容 中的 </sup 替换为 _/sup
新闻内容 = 将 新闻内容 中的 <b> 替换为 _b_
新闻内容 = 将 新闻内容 中的 </b> 替换为 _/b_
新闻内容 = 将 新闻内容 中的 <img 替换为 _img
新闻内容 = 将 新闻内容 中的 < 到 > 之间替换为
新闻内容 = 将 新闻内容 中的 _img 替换为 <img
新闻内容 = 将 新闻内容 中的 _b_ 替换为 <b>
新闻内容 = 将 新闻内容 中的 _/b_ 替换为 </b>
新闻内容 = 将 新闻内容 中的 _sub 替换为 <sub
新闻内容 = 将 新闻内容 中的 _/sub 替换为 </sub
新闻内容 = 将 新闻内容 中的 _sup 替换为 <sup
新闻内容 = 将 新闻内容 中的 _/sup 替换为 </sup
规整 新闻内容
以上脚本功能包括有对新闻标题、来源等的获取,对新闻内容中换行、加粗、上下标格式的保留,图片的同步下载等,脚本由可视化编辑器定义后自动生成,在采集系统中自动加载和解释执行。其^p为回车换行符,除XML= 为新增的XML信息抽取命令外,其它同传统的HTML信息采集。
如果这样的功能能实现的话 很是不错顶到 火车头看看为止 js ding 有人试过么? 你试一一下呀,我以前就经常采js的. xml就采不了了 理论上只要可以看到的页面,火车就可以采集
结合实际可能就会有点问题了
主要就是股则的编写,规则写好、写对了就OK了 那就尝试一下采这个列表
http://www.iresearch.cn/Mores.aspx?vid=0&cid=468&page=1
页:
[1]