可以采集xml网页吗

treelove · 发表于 2006-11-3 09:15:44

现在很多站点都支持xml的rss 如果可以直接采集xml 效果好像更好还没有广告

顺便问个问题：
http://cn.engadget.com
这个站的中文是怎么编码的怎么不到中文

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>

<title>Engadget 简体中文版 — Engadget 独家："苹果新品发布会："It's Showtime - Engadget Simplified Chinese</title>

treelove · 发表于 2006-11-3 09:33:27

与HTML不同，XML+XSL方式中数据层跟展现层分开，数据结构清晰，信息的采集和整合相对容易。
用户可在分析某类XML源文件后，直接将相应节点与所需数据项对应即可。系统实现时，仍保留原对信息项进一步加工处理命令，需扩展一个命令XML=(取xml中某节点数据)。

如对http://www.37c.com.cn/的新闻频道网页中相关链接部分在配置config.xml中格式如下：
<xmlhref>
<xslsite>
<xslfile> http://www.37c.com.cn/info/info01/info01_detail.xsl <xslfile>
<hreftext> ritems/ item /itemtitle < hreftext >
<hreflink> ritems/ item / itemhref <hreflink>
</ xslsite ><xslsite>…</ xslsite >
</xmlhref>
其中xslfile用于指定配置有效范围，为便于系统实现，采用绝对网址格式，hreftext 和hreflink对应的节点采为标准xpath格式，考虑到每个XML文件根节点唯一，可以忽略根节点而交付程序自动判断实现。
[操作内容]
新闻标题 XML= infotitle
新闻来源 XML= laiyuan
新闻来源 = 取新闻来源中的《到》之间的全部内容
新闻时间 XML= date
新闻类别 XML= contenttype
新闻作者 XML= author
新闻主题词 XML= keyword
新闻内容 XML= content
新闻内容 = 将新闻内容中的 /> 替换为 >
新闻内容 = 将新闻内容中的 ^p 替换为
新闻内容 = 将新闻内容中的  之间替换为
新闻内容 = 将新闻内容中的 替换为 ^p
新闻内容 = 将新闻内容中的 <div> 替换为 ^p
新闻内容 = 将新闻内容中的 替换为 
新闻内容 = 将新闻内容中的 替换为 
新闻内容 = 将新闻内容中的 替换为 ^p
新闻内容 = 将新闻内容中的 替换为 _b_
新闻内容 = 将新闻内容中的 替换为 _/b_
新闻内容 = 将新闻内容中的 <img 替换为 _img
新闻内容 = 将新闻内容中的 < 到 > 之间替换为
新闻内容 = 将新闻内容中的 _img 替换为 <img
新闻内容 = 将新闻内容中的 _b_ 替换为 
新闻内容 = 将新闻内容中的 _/b_ 替换为 
新闻内容 = 将新闻内容中的 _sub 替换为 <sub
新闻内容 = 将新闻内容中的 _/sub 替换为 </sub
新闻内容 = 将新闻内容中的 _sup 替换为 <sup
新闻内容 = 将新闻内容中的 _/sup 替换为 </sup
规整新闻内容

以上脚本功能包括有对新闻标题、来源等的获取，对新闻内容中换行、加粗、上下标格式的保留，图片的同步下载等，脚本由可视化编辑器定义后自动生成，在采集系统中自动加载和解释执行。其^p为回车换行符，除XML= 为新增的XML信息抽取命令外，其它同传统的HTML信息采集。

如果这样的功能能实现的话很是不错顶到火车头看看为止

netdream · 发表于 2006-11-3 09:36:21

treelove · 发表于 2006-11-4 08:35:18

ding

micah · 发表于 2007-10-17 08:51:25

有人试过么？

rq204 · 发表于 2007-10-17 11:31:34

你试一一下呀,我以前就经常采js的.

shenzhu · 发表于 2007-10-17 13:24:45

xml就采不了了

tianyuxuan · 发表于 2007-10-17 20:19:40

理论上只要可以看到的页面，火车就可以采集
结合实际可能就会有点问题了
主要就是股则的编写，规则写好、写对了就OK了

shenzhu · 发表于 2007-10-17 20:22:02

那就尝试一下采这个列表

http://www.iresearch.cn/Mores.aspx?vid=0&cid=468&page=1

帐号		自动登录	找回密码
密码			加入会员