火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 5661|回复: 8

可以采集xml网页吗

[复制链接]
发表于 2006-11-3 09:15:44 | 显示全部楼层 |阅读模式
现在很多站点都支持xml的rss 如果可以直接采集xml  效果好像更好 还没有广告


顺便问个问题:
http://cn.engadget.com
这个站的中文是怎么编码的 怎么不到中文

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>

<title>Engadget &#31616;&#20307;&#20013;&#25991;&#29256; &#8212;  Engadget &#29420;&#23478;&#65306;&quot;&#33529;&#26524;&#26032;&#21697;&#21457;&#24067;&#20250;&#65306;&quot;It's Showtime - Engadget Simplified Chinese</title>
 楼主| 发表于 2006-11-3 09:33:27 | 显示全部楼层
与HTML不同,XML+XSL方式中数据层跟展现层分开,数据结构清晰,信息的采集和整合相对容易。
用户可在分析某类XML源文件后,直接将相应节点与所需数据项对应即可。系统实现时,仍保留原对信息项进一步加工处理命令,需扩展一个命令XML=(取xml中某节点数据)。


如对http://www.37c.com.cn/的新闻频道网页中相关链接部分在配置config.xml中格式如下:
<xmlhref>
<xslsite>
<xslfile> http://www.37c.com.cn/info/info01/info01_detail.xsl <xslfile>
<hreftext> ritems/ item /itemtitle < hreftext >
<hreflink> ritems/ item / itemhref <hreflink>
</ xslsite ><xslsite>…</ xslsite >
</xmlhref>
其中xslfile用于指定配置有效范围,为便于系统实现,采用绝对网址格式,hreftext 和hreflink对应的节点采为标准xpath格式,考虑到每个XML文件根节点唯一,可以忽略根节点而交付程序自动判断实现。
[操作内容]
新闻标题 XML= infotitle
新闻来源 XML= laiyuan
新闻来源 = 取 新闻来源 中的 《 到 》 之间的 全部内容
新闻时间 XML= date
新闻类别 XML= contenttype
新闻作者 XML= author
新闻主题词 XML= keyword
新闻内容 XML= content
新闻内容 = 将 新闻内容 中的  /> 替换为 >
新闻内容 = 将 新闻内容 中的 ^p 替换为
新闻内容 = 将 新闻内容 中的 <!-- 到 --> 之间替换为
新闻内容 = 将 新闻内容 中的 <p  替换为 ^p<p
新闻内容 = 将 新闻内容 中的 </td> 替换为 ^p
新闻内容 = 将 新闻内容 中的 <div> 替换为 ^p
新闻内容 = 将 新闻内容 中的 </strong> 替换为 </b>
新闻内容 = 将 新闻内容 中的 <strong> 替换为 <b>
新闻内容 = 将 新闻内容 中的 <br> 替换为 ^p
新闻内容 = 将 新闻内容 中的 <sub 替换为 _sub
新闻内容 = 将 新闻内容 中的 </sub 替换为 _/sub
新闻内容 = 将 新闻内容 中的 <sup 替换为 _sup
新闻内容 = 将 新闻内容 中的 </sup 替换为 _/sup
新闻内容 = 将 新闻内容 中的 <b> 替换为 _b_
新闻内容 = 将 新闻内容 中的 </b> 替换为 _/b_
新闻内容 = 将 新闻内容 中的 <img 替换为 _img
新闻内容 = 将 新闻内容 中的 < 到 > 之间替换为
新闻内容 = 将 新闻内容 中的 _img 替换为 <img
新闻内容 = 将 新闻内容 中的 _b_ 替换为 <b>
新闻内容 = 将 新闻内容 中的 _/b_ 替换为 </b>
新闻内容 = 将 新闻内容 中的 _sub 替换为 <sub
新闻内容 = 将 新闻内容 中的 _/sub 替换为 </sub
新闻内容 = 将 新闻内容 中的 _sup 替换为 <sup
新闻内容 = 将 新闻内容 中的 _/sup 替换为 </sup
规整 新闻内容

以上脚本功能包括有对新闻标题、来源等的获取,对新闻内容中换行、加粗、上下标格式的保留,图片的同步下载等,脚本由可视化编辑器定义后自动生成,在采集系统中自动加载和解释执行。其^p为回车换行符,除XML= 为新增的XML信息抽取命令外,其它同传统的HTML信息采集。

如果这样的功能能实现的话 很是不错顶到 火车头看看为止
发表于 2006-11-3 09:36:21 | 显示全部楼层
js
 楼主| 发表于 2006-11-4 08:35:18 | 显示全部楼层
ding
发表于 2007-10-17 08:51:25 | 显示全部楼层
有人试过么?
发表于 2007-10-17 11:31:34 | 显示全部楼层
你试一一下呀,我以前就经常采js的.
发表于 2007-10-17 13:24:45 | 显示全部楼层
xml就采不了了
发表于 2007-10-17 20:19:40 | 显示全部楼层
理论上只要可以看到的页面,火车就可以采集
结合实际可能就会有点问题了
主要就是股则的编写,规则写好、写对了就OK了
发表于 2007-10-17 20:22:02 | 显示全部楼层
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-24 02:20

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表