发新话题
打印

新浪国际新闻 规则

新浪国际新闻 规则

XmlData.XML
  <新浪国际>
    <标签1 标签名="标题" 开始字符串="&lt;title&gt;" 结束字符串="&lt;/title&gt;" 内容排除="_新闻中心_新浪网" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签2 标签名="作者" 开始字符串="&lt;font color=#A20010&gt;" 结束字符串="&lt;/font&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td height=15&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td class=l17&gt;&lt;font id="zoom" class=f14&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签3 标签名="来源" 开始字符串="&lt;/h1&gt;&lt;/font&gt;&lt;/th&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td height=&gt;&lt;hr size=1 bgcolor=#d9d9d9&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td height=20 align=center&gt;" 结束字符串=" " 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签4 标签名="时间" 开始字符串="&lt;/h1&gt;&lt;/font&gt;&lt;/th&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td height=&gt;&lt;hr size=1 bgcolor=#d9d9d9&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td height=20 align=center&gt;(*) " 结束字符串="&lt;font color=#A20010&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签5 标签名="内容" 开始字符串="&lt;/font&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td height=15&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &lt;tr&gt;&lt;td class=l17&gt;&lt;font id="zoom" class=f14&gt;&#xD;&#xA;        &#xD;&#xA;        &#xD;&#xA;           &#xD;&#xA;        &lt;p&gt;  " 结束字符串="&lt;SCRIPT&gt;         &#xD;&#xA;//&lt;!--广告发布--&gt;&#xD;&#xA;&lt;!--&#xD;&#xA;        if (checkPubTime())&#xD;&#xA;        {&#xD;&#xA;                document.getElementById("PublicRelation5").style.display="";&#xD;&#xA;        }&#xD;&#xA;--&gt;&#xD;&#xA;&lt;/SCRIPT&gt;" 内容排除="&lt;tr&gt;&lt;td&gt;&lt;!--画中画广告开始--&gt;(*)&lt;!--画中画广告结束--&gt;&lt;/td&gt;&lt;/tr&gt;○&lt;tr&gt;&lt;td&gt;&lt;!-- 画中画下文字链广告(*)&lt;!--NEWSZW_HZH_END--&gt;&#xD;&#xA;&lt;/div&gt;&lt;!--NEWSZW_HZH_END--&gt;&lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;&lt;/table&gt;○&lt;!--NEWSZW_HZH_BEGIN--&gt;&lt;table border=0 cellspacing=0 cellpadding=0 align=left&gt;&#xD;&#xA;&lt;tr&gt;&lt;td&gt;&#xD;&#xA;&lt;div id=PublicRelation5 name="PublicRelation" style="DISPLAY:none"&gt;&lt;!--NEWSZW_HZH_BEGIN--&gt;&lt;table border=0 cellspacing=0 cellpadding=0 align=left style="margin-top:10px;margin-bottom:3px;margin-left:4px;margin-right:7px"&gt;○        &lt;/font&gt;&#xD;&#xA;        &lt;br clear=all&gt;&#xD;&#xA;        &lt;/td&gt;&lt;/tr&gt;&#xD;&#xA;        &#xD;&#xA;        &lt;/table&gt;&#xD;&#xA;&#xD;&#xA;        &lt;/div&gt;○&lt;(*)p&gt;" 内容替换="&lt;span class=yqlink&gt;&lt;form class=yqin action=http://www.iask.com/n method=post&gt;&lt;input type=hidden name=k value=(*)&gt;&lt;/form&gt;&lt;a href=http://www.iask.com/n?k=(*) target=_blank onClick="activateYQinl(this);return false;" class=akey title=(*)&gt;→" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签6 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
    <标签7 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
    <分页设置 形式="全部" 分页开始="" 分页结束="" />
    <分页合并 形式="回车" 分页代码="#p#" />
    <内容循环 次数="1" 测试页面="http://news.sina.com.cn/w/2006-07-07/140810360065.shtml" />
    <源站编码 编码="Default" />
  </新浪国际>

UrlData.XML
  <新浪国际>
    <全部网址>[url]http://news.sina.com.cn/w/2006-07-07/140810360065.shtml[/url]        [url]http://news.sina.com.cn/w/2006-07-07/133410359845.shtml[/url]        [url]http://news.sina.com.cn/w/2006-07-07/10239397058s.shtml[/url]        [url]http://news.sina.com.cn/w/2006-07-07/08209394655s.shtml[/url]        [url]http://news.sina.com.cn/w/2006-07-07/06429393836s.shtml[/url]        [url]http://news.sina.com.cn/w/2006-07-07/094410357426.shtml[/url]        [url]http://news.sina.com.cn/w/2006-07-07/022110352262.shtml[/url]        [url]http://news.sina.com.cn/w/2006-07-07/01479391107s.shtml[/url]        [url]http://news.sina.com.cn/w/2006-07-07/00169390739s.shtml[/url]        [url]http://news.sina.com.cn/w/2006-07-07/00169390708s.shtml[/url]        [url]http://news.sina.com.cn/w/2006-07-07/004710351918.shtml[/url]        [url]http://news.sina.com.cn/w/2006-07-07/02509391535s.shtml[/url]        [url]http://news.sina.com.cn/w/2006-07-07/085010356481.shtml[/url]        </全部网址>
  </新浪国际>

[[i] 本帖最后由 csyoyo 于 2006-7-9 10:44 编辑 [/i]]

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.181081 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-8-30 22:07 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档