同一个页面采集两次的原因是什么啊?
测试了多次都是采集的两次http://bbs.readnovel.com/thread.php?fid=8&search=&page=1
这个页面
标题开始字符串<span class='tpc_title'> 结束字符串</span>
内容开始<span class='tpc_content'><br><font size='4'>
内容结束 <font color=red>[楼 主]</font>
麻烦高手看一下是什么问题啊
数据发布定义全局发布,ubb方式,采集的页面数据没有换行,
如果定义成html发布会换行,但图片链接换成了我网站的连接
我用的3.0 这个已经有人问过, 原因在你的链接规则内,和内容规则无关。
你注意看下采集后得到的规则,一定是有重复的,例如:
http://bbs.readnovel.com/htm_data/8/0612/167301.html
http://bbs.readnovel.com/read.php?tid=167301&page=1&fpage=
这2个链接内容其实一样的。 好,谢谢了,我先自己研究一下
但这个是什么原因造成的?
数据发布定义全局发布,ubb方式,采集的页面数据没有换行,
如果定义成html发布会换行,但图片链接换成了我网站的连接
我用的3.0
[ 本帖最后由 simpsoft 于 2007-1-11 20:01 编辑 ] 把你采的内容贴出来看看。。估计是规则没写好的问题
页:
[1]