pottics 发表于 2009-8-22 11:18:25

求救~~采集分页内容

典型页面:http://www.yxlady.com/starsigns/200907/256374.shtml

内容 从<div class="article_c" id="fontzoom">到<script type="text/javascript" src="/Skin/2009nyjs/extend_4.js"></script>

分页 从 <div class='showpage'>   到   <script type="text/javascript" src="/Skin/2009nyjs/extend_4.js"></script>

内容要不要过滤呢,测试里有分页,为什么发布到网站里没有呢?

这里是分页内容源码
<P taggedby="hylanda"><div class='showpage'><a class='pages_hov' >1</a>&nbsp;<a href='/starsigns/200907/256374_2.shtml' class='pages'>2</a><a href='/starsigns/200907/256374_3.shtml' class='pages'>3</a><a href='/starsigns/200907/256374_4.shtml' class='pages'>4</a><a href='/starsigns/200907/256374_5.shtml' class='pages'>5</a> <a class='shenglve'>......</a> <a href='/starsigns/200907/256374_2.shtml' class='nextpage'>下一页</a> <a href='/starsigns/200907/256374_6.shtml' class='endpage'>下5页</a></div></p></div></span>
<script type="text/javascript" src="/Skin/2009nyjs/extend_4.js"></script>

因为有的内容没分页,就没<div class='showpage'>这个标签,所以内容规则是以谷歌广告结束的。<script type="text/javascript" src="/Skin/2009nyjs/extend_4.js"></script>
那谷歌广告的上方要不要过滤呢?
等待帮助中……

pottics 发表于 2009-8-22 11:34:58

补充一下啊,分页模式我是用上下页模式的

用Dede采集,会出现分页错位问题,如第三页内容会变成第四页内容,第四页的就变成第三页的了。。。汗~~

都市乞丐 发表于 2009-8-22 11:39:46

把你不需要的信息都过滤掉。。。。。

发布后分页要自己添加手动分页标记符号。。。。

pottics 发表于 2009-8-22 20:01:52

火车头采集测试里内容分页都完整,可是一发布到网站上去就只有第一页的内容,而且有的还残缺不齐,有的是空内容,,这是怎么回事?手动连接分页我去看看行不行

pottics 发表于 2009-8-23 12:43:02

内容规则:从<div class="article_c" id="fontzoom">开始到<script type="text/javascript" src="/Skin/2009nyjs/extend_4.js"></script>结束

内容排除:<div class='showpage'>(*)</span>

HTML标签排除:链接,层

分页规则:从<div class='showpage'>开始到下一页</a>结束

分页模式:上下页模式


测试里都是全部完整测试到,可是一上传到Dede本地空间,就变了个样,有的内容不完整,更多的是只有首页~~~用自动识别分页也不行,手动分页测试没反应

我要哭死了,这个采集搞了我一星期了,还是没解决,崩溃了,谁来帮帮我???

pottics 发表于 2009-8-23 21:26:09

晕,没人回答,我再顶~~~

sdafacasdsfsdvg 发表于 2009-8-23 21:48:02

什么问题你都没说清楚,如果是采集不到分页请用正则,如果是发布丢失,请把内容复制到发布测试那里测试一下!

pottics 发表于 2009-8-25 14:10:26

测试里都有,可是上传到空间也有采集不到分页的,也有内容丢失的,这是什么原因啊
页: [1]
查看完整版本: 求救~~采集分页内容