csyoyo 发表于 2006-7-9 10:42:56

新浪国际新闻 规则

XmlData.XML
<新浪国际>
    <标签1 标签名="标题" 开始字符串="&lt;title&gt;" 结束字符串="&lt;/title&gt;" 内容排除="_新闻中心_新浪网" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签2 标签名="作者" 开始字符串="&lt;font color=#A20010&gt;" 结束字符串="&lt;/font&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td height=15&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td class=l17&gt;&lt;font id="zoom" class=f14&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签3 标签名="来源" 开始字符串="&lt;/h1&gt;&lt;/font&gt;&lt;/th&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td height=&gt;&lt;hr size=1 bgcolor=#d9d9d9&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td height=20 align=center&gt;" 结束字符串=" " 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签4 标签名="时间" 开始字符串="&lt;/h1&gt;&lt;/font&gt;&lt;/th&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td height=&gt;&lt;hr size=1 bgcolor=#d9d9d9&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td height=20 align=center&gt;(*) " 结束字符串="&lt;font color=#A20010&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签5 标签名="内容" 开始字符串="&lt;/font&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td height=15&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td class=l17&gt;&lt;font id="zoom" class=f14&gt;&#xD;&#xA;        &#xD;&#xA;        &#xD;&#xA;           &#xD;&#xA;        &lt;p&gt;  " 结束字符串="&lt;SCRIPT&gt;       &#xD;&#xA;//&lt;!--广告发布--&gt;&#xD;&#xA;&lt;!--&#xD;&#xA;        if (checkPubTime())&#xD;&#xA;        {&#xD;&#xA;                document.getElementById("PublicRelation5").style.display="";&#xD;&#xA;        }&#xD;&#xA;--&gt;&#xD;&#xA;&lt;/SCRIPT&gt;" 内容排除="&lt;tr&gt;&lt;td&gt;&lt;!--画中画广告开始--&gt;(*)&lt;!--画中画广告结束--&gt;&lt;/td&gt;&lt;/tr&gt;○&lt;tr&gt;&lt;td&gt;&lt;!-- 画中画下文字链广告(*)&lt;!--NEWSZW_HZH_END--&gt;&#xD;&#xA;&lt;/div&gt;&lt;!--NEWSZW_HZH_END--&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;&lt;/table&gt;○&lt;!--NEWSZW_HZH_BEGIN--&gt;&lt;table border=0 cellspacing=0 cellpadding=0 align=left&gt;&#xD;&#xA;&lt;tr&gt;&lt;td&gt;&#xD;&#xA;&lt;div id=PublicRelation5 name="PublicRelation" style="DISPLAY:none"&gt;&lt;!--NEWSZW_HZH_BEGIN--&gt;&lt;table border=0 cellspacing=0 cellpadding=0 align=left style="margin-top:10px;margin-bottom:3px;margin-left:4px;margin-right:7px"&gt;○        &lt;/font&gt;&#xD;&#xA;        &lt;br clear=all&gt;&#xD;&#xA;        &lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &#xD;&#xA;        &lt;/table&gt;&#xD;&#xA;&#xD;&#xA;        &lt;/div&gt;○&lt;(*)p&gt;" 内容替换="&lt;span class=yqlink&gt;&lt;form class=yqin action=http://www.iask.com/n method=post&gt;&lt;input type=hidden name=k value=(*)&gt;&lt;/form&gt;&lt;a href=http://www.iask.com/n?k=(*) target=_blank onClick="activateYQinl(this);return false;" class=akey title=(*)&gt;→" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签6 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
    <标签7 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
    <分页设置 形式="全部" 分页开始="" 分页结束="" />
    <分页合并 形式="回车" 分页代码="#p#" />
    <内容循环 次数="1" 测试页面="http://news.sina.com.cn/w/2006-07-07/140810360065.shtml" />
    <源站编码 编码="Default" />
</新浪国际>

UrlData.XML
<新浪国际>
    <全部网址>http://news.sina.com.cn/w/2006-07-07/140810360065.shtml        http://news.sina.com.cn/w/2006-07-07/133410359845.shtml        http://news.sina.com.cn/w/2006-07-07/10239397058s.shtml        http://news.sina.com.cn/w/2006-07-07/08209394655s.shtml        http://news.sina.com.cn/w/2006-07-07/06429393836s.shtml        http://news.sina.com.cn/w/2006-07-07/094410357426.shtml        http://news.sina.com.cn/w/2006-07-07/022110352262.shtml        http://news.sina.com.cn/w/2006-07-07/01479391107s.shtml        http://news.sina.com.cn/w/2006-07-07/00169390739s.shtml        http://news.sina.com.cn/w/2006-07-07/00169390708s.shtml        http://news.sina.com.cn/w/2006-07-07/004710351918.shtml        http://news.sina.com.cn/w/2006-07-07/02509391535s.shtml        http://news.sina.com.cn/w/2006-07-07/085010356481.shtml        </全部网址>
</新浪国际>

[ 本帖最后由 csyoyo 于 2006-7-9 10:44 编辑 ]
页: [1]
查看完整版本: 新浪国际新闻 规则