treelove 发表于 2006-11-3 09:15:44

可以采集xml网页吗

现在很多站点都支持xml的rss 如果可以直接采集xml效果好像更好 还没有广告


顺便问个问题:
http://cn.engadget.com
这个站的中文是怎么编码的 怎么不到中文

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>

<title>Engadget 简体中文版 —Engadget 独家:&quot;苹果新品发布会:&quot;It's Showtime - Engadget Simplified Chinese</title>

treelove 发表于 2006-11-3 09:33:27

与HTML不同,XML+XSL方式中数据层跟展现层分开,数据结构清晰,信息的采集和整合相对容易。
用户可在分析某类XML源文件后,直接将相应节点与所需数据项对应即可。系统实现时,仍保留原对信息项进一步加工处理命令,需扩展一个命令XML=(取xml中某节点数据)。


如对http://www.37c.com.cn/的新闻频道网页中相关链接部分在配置config.xml中格式如下:
<xmlhref>
<xslsite>
<xslfile> http://www.37c.com.cn/info/info01/info01_detail.xsl <xslfile>
<hreftext> ritems/ item /itemtitle < hreftext >
<hreflink> ritems/ item / itemhref <hreflink>
</ xslsite ><xslsite>…</ xslsite >
</xmlhref>
其中xslfile用于指定配置有效范围,为便于系统实现,采用绝对网址格式,hreftext 和hreflink对应的节点采为标准xpath格式,考虑到每个XML文件根节点唯一,可以忽略根节点而交付程序自动判断实现。
[操作内容]
新闻标题 XML= infotitle
新闻来源 XML= laiyuan
新闻来源 = 取 新闻来源 中的 《 到 》 之间的 全部内容
新闻时间 XML= date
新闻类别 XML= contenttype
新闻作者 XML= author
新闻主题词 XML= keyword
新闻内容 XML= content
新闻内容 = 将 新闻内容 中的/> 替换为 >
新闻内容 = 将 新闻内容 中的 ^p 替换为
新闻内容 = 将 新闻内容 中的 <!-- 到 --> 之间替换为
新闻内容 = 将 新闻内容 中的 <p替换为 ^p<p
新闻内容 = 将 新闻内容 中的 </td> 替换为 ^p
新闻内容 = 将 新闻内容 中的 <div> 替换为 ^p
新闻内容 = 将 新闻内容 中的 </strong> 替换为 </b>
新闻内容 = 将 新闻内容 中的 <strong> 替换为 <b>
新闻内容 = 将 新闻内容 中的 <br> 替换为 ^p
新闻内容 = 将 新闻内容 中的 <sub 替换为 _sub
新闻内容 = 将 新闻内容 中的 </sub 替换为 _/sub
新闻内容 = 将 新闻内容 中的 <sup 替换为 _sup
新闻内容 = 将 新闻内容 中的 </sup 替换为 _/sup
新闻内容 = 将 新闻内容 中的 <b> 替换为 _b_
新闻内容 = 将 新闻内容 中的 </b> 替换为 _/b_
新闻内容 = 将 新闻内容 中的 <img 替换为 _img
新闻内容 = 将 新闻内容 中的 < 到 > 之间替换为
新闻内容 = 将 新闻内容 中的 _img 替换为 <img
新闻内容 = 将 新闻内容 中的 _b_ 替换为 <b>
新闻内容 = 将 新闻内容 中的 _/b_ 替换为 </b>
新闻内容 = 将 新闻内容 中的 _sub 替换为 <sub
新闻内容 = 将 新闻内容 中的 _/sub 替换为 </sub
新闻内容 = 将 新闻内容 中的 _sup 替换为 <sup
新闻内容 = 将 新闻内容 中的 _/sup 替换为 </sup
规整 新闻内容

以上脚本功能包括有对新闻标题、来源等的获取,对新闻内容中换行、加粗、上下标格式的保留,图片的同步下载等,脚本由可视化编辑器定义后自动生成,在采集系统中自动加载和解释执行。其^p为回车换行符,除XML= 为新增的XML信息抽取命令外,其它同传统的HTML信息采集。

如果这样的功能能实现的话 很是不错顶到 火车头看看为止

netdream 发表于 2006-11-3 09:36:21

js

treelove 发表于 2006-11-4 08:35:18

ding

micah 发表于 2007-10-17 08:51:25

有人试过么?

rq204 发表于 2007-10-17 11:31:34

你试一一下呀,我以前就经常采js的.

shenzhu 发表于 2007-10-17 13:24:45

xml就采不了了

tianyuxuan 发表于 2007-10-17 20:19:40

理论上只要可以看到的页面,火车就可以采集
结合实际可能就会有点问题了
主要就是股则的编写,规则写好、写对了就OK了

shenzhu 发表于 2007-10-17 20:22:02

那就尝试一下采这个列表

http://www.iresearch.cn/Mores.aspx?vid=0&cid=468&page=1
页: [1]
查看完整版本: 可以采集xml网页吗