求救~~采集分页内容
典型页面:http://www.yxlady.com/starsigns/200907/256374.shtml内容 从<div class="article_c" id="fontzoom">到<script type="text/javascript" src="/Skin/2009nyjs/extend_4.js"></script>
分页 从 <div class='showpage'> 到 <script type="text/javascript" src="/Skin/2009nyjs/extend_4.js"></script>
内容要不要过滤呢,测试里有分页,为什么发布到网站里没有呢?
这里是分页内容源码
<P taggedby="hylanda"><div class='showpage'><a class='pages_hov' >1</a> <a href='/starsigns/200907/256374_2.shtml' class='pages'>2</a><a href='/starsigns/200907/256374_3.shtml' class='pages'>3</a><a href='/starsigns/200907/256374_4.shtml' class='pages'>4</a><a href='/starsigns/200907/256374_5.shtml' class='pages'>5</a> <a class='shenglve'>......</a> <a href='/starsigns/200907/256374_2.shtml' class='nextpage'>下一页</a> <a href='/starsigns/200907/256374_6.shtml' class='endpage'>下5页</a></div></p></div></span>
<script type="text/javascript" src="/Skin/2009nyjs/extend_4.js"></script>
因为有的内容没分页,就没<div class='showpage'>这个标签,所以内容规则是以谷歌广告结束的。<script type="text/javascript" src="/Skin/2009nyjs/extend_4.js"></script>
那谷歌广告的上方要不要过滤呢?
等待帮助中…… 补充一下啊,分页模式我是用上下页模式的
用Dede采集,会出现分页错位问题,如第三页内容会变成第四页内容,第四页的就变成第三页的了。。。汗~~ 把你不需要的信息都过滤掉。。。。。
发布后分页要自己添加手动分页标记符号。。。。 火车头采集测试里内容分页都完整,可是一发布到网站上去就只有第一页的内容,而且有的还残缺不齐,有的是空内容,,这是怎么回事?手动连接分页我去看看行不行 内容规则:从<div class="article_c" id="fontzoom">开始到<script type="text/javascript" src="/Skin/2009nyjs/extend_4.js"></script>结束
内容排除:<div class='showpage'>(*)</span>
HTML标签排除:链接,层
分页规则:从<div class='showpage'>开始到下一页</a>结束
分页模式:上下页模式
测试里都是全部完整测试到,可是一上传到Dede本地空间,就变了个样,有的内容不完整,更多的是只有首页~~~用自动识别分页也不行,手动分页测试没反应
我要哭死了,这个采集搞了我一星期了,还是没解决,崩溃了,谁来帮帮我??? 晕,没人回答,我再顶~~~ 什么问题你都没说清楚,如果是采集不到分页请用正则,如果是发布丢失,请把内容复制到发布测试那里测试一下! 测试里都有,可是上传到空间也有采集不到分页的,也有内容丢失的,这是什么原因啊
页:
[1]