163体育.足球.意甲的采集..
其实其他 的也是一样的 ...自己修改采集网地集合就好了
在自己的论坛(DVBBS7.1SPI)上测试成功
演示地址:http://www.foryou666.com/bbs/index.asp?boardid=6
原始地址:http://sports.163.com/special/00051H3H/06ywmore.html
采集页面测试
采集测试地址:http://sports.163.com/06/0715/14/2M31720H00051CD5.html
【标题】: 国际足联可能轻判 齐祖马特拉齐相聚马尔代夫?
【作者】:
【出处】:
【时间】:
【内容】: 当地时间7月14日,意大利后卫马特拉齐接受了国际足联的纪律听证会。据经纪人克劳迪奥·维戈雷利透露,听证会召开得很顺利,马特拉齐讲述了他和齐达内发生矛盾的前因后果。会后,经纪人和马特拉齐本人对前景都很乐观,认为国际足联会从轻发落。
国际足联目前对于世界杯决赛中齐达内头顶马特拉齐一事展开了全面的调查,他们通过对当事人双方的听证会来获取相关事实,并依据相关条款对当事人作出处罚。由于齐达内已经宣布退役,禁赛等相应的处罚也就无法生效,而剥夺金球奖也不太可能。
.......(省略).......他的底线。
规则 (我懒得上传附件..自己COPY..地址那个就你们自己做了....)
<sport>
<标签1 标签名="标题" 开始字符串="<title>" 结束字符串="</title>" 内容排除="_网易体育" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签2 标签名="作者" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签3 标签名="出处" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签4 标签名="时间" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签5 标签名="内容" 开始字符串=" <div id="endText">" 结束字符串="<!-- 发给好友 -->
" 内容排除="<P style="TEXT-INDENT: 2em"></P>
<P style="TEXT-INDENT: 2em">○<a href=(*)>○</a>○<P style="TEXT-INDENT: 2em">○<img src="*" alt="Keen" width="12" height="11" border="0" class="icon" />○</div>
 ○</STRONG>○</P>○<STRONG>" 内容替换="<img src="http://cimg2.163.com/sports/newimg/arc_s.gif" alt="Keen" width="12" height="11" border="0" class="icon" />→ ○<!-- 分页 -->→ " 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签6 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
<分页设置 形式="全部" 分页开始="" 分页结束="" />
<分页合并 形式="回车" 分页代码="#p#" />
<内容循环 次数="1" 测试页面="http://sports.163.com/06/0715/14/2M31720H00051CD5.html" />
<源站编码 编码="Default" />
</sport>
[ 本帖最后由 wsydf 于 2006-7-20 12:03 编辑 ] 为什么不把规则发上来呀!呵呵! XmlData.xml
URldata.xml
把你的这两个文件压上来不就得了 哎...不是一回事?
页:
[1]