simpsoft 发表于 2007-1-11 19:40:50

同一个页面采集两次的原因是什么啊?

测试了多次都是采集的两次
http://bbs.readnovel.com/thread.php?fid=8&search=&page=1
这个页面
标题开始字符串<span class='tpc_title'> 结束字符串</span>
内容开始<span class='tpc_content'><br><font size='4'>
内容结束 <font color=red>[楼 主]</font>
麻烦高手看一下是什么问题啊
数据发布定义全局发布,ubb方式,采集的页面数据没有换行,
如果定义成html发布会换行,但图片链接换成了我网站的连接
我用的3.0

kyw 发表于 2007-1-11 19:53:25

这个已经有人问过, 原因在你的链接规则内,和内容规则无关。

你注意看下采集后得到的规则,一定是有重复的,例如:
http://bbs.readnovel.com/htm_data/8/0612/167301.html
http://bbs.readnovel.com/read.php?tid=167301&page=1&fpage=

这2个链接内容其实一样的。

simpsoft 发表于 2007-1-11 19:58:58

好,谢谢了,我先自己研究一下
但这个是什么原因造成的?

数据发布定义全局发布,ubb方式,采集的页面数据没有换行,
如果定义成html发布会换行,但图片链接换成了我网站的连接
我用的3.0

[ 本帖最后由 simpsoft 于 2007-1-11 20:01 编辑 ]

黄埔三少 发表于 2007-1-11 20:47:40

把你采的内容贴出来看看。。估计是规则没写好的问题
页: [1]
查看完整版本: 同一个页面采集两次的原因是什么啊?