新浪国际新闻 规则
XmlData.XML
<新浪国际>
<标签1 标签名="标题" 开始字符串="<title>" 结束字符串="</title>" 内容排除="_新闻中心_新浪网" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签2 标签名="作者" 开始字符串="<font color=#A20010>" 结束字符串="</font></td></tr>
 <tr><td height=15></td></tr>
 <tr><td class=l17><font id="zoom" class=f14>" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签3 标签名="来源" 开始字符串="</h1></font></th></tr>
 <tr><td height=><hr size=1 bgcolor=#d9d9d9></td></tr>
 <tr><td height=20 align=center>" 结束字符串=" " 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签4 标签名="时间" 开始字符串="</h1></font></th></tr>
 <tr><td height=><hr size=1 bgcolor=#d9d9d9></td></tr>
 <tr><td height=20 align=center>(*) " 结束字符串="<font color=#A20010>" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签5 标签名="内容" 开始字符串="</font></td></tr>
 <tr><td height=15></td></tr>
 <tr><td class=l17><font id="zoom" class=f14>
 
 
 
 <p> " 结束字符串="<SCRIPT> 
//<!--广告发布-->
<!--
 if (checkPubTime())
 {
 document.getElementById("PublicRelation5").style.display="";
 }
-->
</SCRIPT>" 内容排除="<tr><td><!--画中画广告开始-->(*)<!--画中画广告结束--></td></tr>○<tr><td><!-- 画中画下文字链广告(*)<!--NEWSZW_HZH_END-->
</div><!--NEWSZW_HZH_END--></td></tr>
</table>○<!--NEWSZW_HZH_BEGIN--><table border=0 cellspacing=0 cellpadding=0 align=left>
<tr><td>
<div id=PublicRelation5 name="PublicRelation" style="DISPLAY:none"><!--NEWSZW_HZH_BEGIN--><table border=0 cellspacing=0 cellpadding=0 align=left style="margin-top:10px;margin-bottom:3px;margin-left:4px;margin-right:7px">○ </font>
 <br clear=all>
 </td></tr>
 
 </table>

 </div>○<(*)p>" 内容替换="<span class=yqlink><form class=yqin action=http://www.iask.com/n method=post><input type=hidden name=k value=(*)></form><a href=http://www.iask.com/n?k=(*) target=_blank onClick="activateYQinl(this);return false;" class=akey title=(*)>→" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签6 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
<标签7 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
<分页设置 形式="全部" 分页开始="" 分页结束="" />
<分页合并 形式="回车" 分页代码="#p#" />
<内容循环 次数="1" 测试页面="http://news.sina.com.cn/w/2006-07-07/140810360065.shtml" />
<源站编码 编码="Default" />
</新浪国际>
UrlData.XML
<新浪国际>
<全部网址>[url]http://news.sina.com.cn/w/2006-07-07/140810360065.shtml[/url] [url]http://news.sina.com.cn/w/2006-07-07/133410359845.shtml[/url] [url]http://news.sina.com.cn/w/2006-07-07/10239397058s.shtml[/url] [url]http://news.sina.com.cn/w/2006-07-07/08209394655s.shtml[/url] [url]http://news.sina.com.cn/w/2006-07-07/06429393836s.shtml[/url] [url]http://news.sina.com.cn/w/2006-07-07/094410357426.shtml[/url] [url]http://news.sina.com.cn/w/2006-07-07/022110352262.shtml[/url] [url]http://news.sina.com.cn/w/2006-07-07/01479391107s.shtml[/url] [url]http://news.sina.com.cn/w/2006-07-07/00169390739s.shtml[/url] [url]http://news.sina.com.cn/w/2006-07-07/00169390708s.shtml[/url] [url]http://news.sina.com.cn/w/2006-07-07/004710351918.shtml[/url] [url]http://news.sina.com.cn/w/2006-07-07/02509391535s.shtml[/url] [url]http://news.sina.com.cn/w/2006-07-07/085010356481.shtml[/url] </全部网址>
</新浪国际>
[[i] 本帖最后由 csyoyo 于 2006-7-9 10:44 编辑 [/i]]