给大家发个太平洋的采集规则,指教
我是新手,费了九牛二虎之力才完成的,过滤一些太平洋标识.请指教完善. 发现不能上传,以下是文件内容(保存为.XML文件即可导入):<?xml version="1.0" encoding="utf-8"?>
<!--LocoySpider配置文件xml读写方法 by:www.locoy.com QQ:95586440 -->
<!--Created by LocoySpider.exe! 2006-01-20 00:27:04-->
<config>
<太平洋>
<标题开始><h1></标题开始>
<作者开始>
</作者开始>
<出处开始>
</出处开始>
<时间开始>
</时间开始>
<内容开始><td valign="top" class="article"></内容开始>
<标题结束></h1></标题结束>
<作者结束>
</作者结束>
<出处结束>
</出处结束>
<时间结束>
</时间结束>
<内容结束></td></内容结束>
<标题正则1>
</标题正则1>
<作者正则1>
</作者正则1>
<出处正则1>
</出处正则1>
<时间正则1>
</时间正则1>
<内容正则1><P><A href="http://game\.pcgames\.com\.cn/game_index\.jsp\?id=[\s\S]*" target=_blank><IMG alt="" src="[\s\S]*" border=0><STRONG>[\s\S]*</STRONG></A></P></内容正则1>
<标题正则2>
</标题正则2>
<作者正则2>
</作者正则2>
<出处正则2>
</出处正则2>
<时间正则2>
</时间正则2>
<内容正则2><SPAN class=watermark> - 来自:<A href="http://www\.pcgames\.com\.cn/" target=_blank>太平洋游戏网</A>\(http://www\.PCgames\.com\.cn\)</SPAN></内容正则2>
<内容正则3><SPAN class=watermark> - 来自:太平洋游戏网\(http://www\.PCgames\.com\.cn\)</SPAN></内容正则3>
<内容正则4>http://www\.pconline\.com\.cn/images/html/viewpic_pcgames\.htm\?</内容正则4>
<内容正则5>&namecode=tvgames&subnamecode=tvgamefirstpage</内容正则5>
<标题前缀>
</标题前缀>
<来源站点>
</来源站点>
<内容替换开始1><P>来自:太平洋游戏网</P></内容替换开始1>
<内容替换结束1>
</内容替换结束1>
<内容替换开始2>太平洋游戏网</内容替换开始2>
<内容替换结束2>
</内容替换结束2>
<内容替换开始3><SPAN class=watermark> - 来自:<a href="http://www.pcgames.com.cn/" target="_blank" ></a>(http://www.PCgames.com.cn)</SPAN></内容替换开始3>
<内容替换结束3>
</内容替换结束3>
<内容替换开始4>来自:</内容替换开始4>
<内容替换结束4>
</内容替换结束4>
</太平洋>
</config> 虽没试过,支持!!!! 现上支持 能行吗 谢谢,能发个附件吗,你发的规则有些符号 不能识别! 支持,新手有这样的精神,学习呵呵。 “;P” 全被换成了表情哈哈 晕....是“;p”
页:
[1]