我想采新浪新闻，中间有对我来说很大的麻烦，高手给点指点咯！

devilboy 发表于 2007-12-20 12:00:06

页面来源：http://news.sina.com.cn/hotnews/
采集效果页：http://news.sina.com.cn/w/2007-12-19/150814557731.shtml
这个页面里的基本上是以

开始和结束的，当然也有中文的


还有的页面有分页，如果我想采分页，那么就不能把上面两个采进内容，也就是说只能采
分页代码之前的
分页我是这样弄的
从到
分页连接地址样式
<a style="FONT-SIZE: 14px" href="[参数]">[下一页]</a>
分页网址[参数1]
这样的话我采出来了，但是这里就有个问题了，在采集原页里面有的不是以
结束的也没有分页，在内容最后只有一个抓内容的话唯一的只有

或者
采集效果页:http://news.sina.com.cn/c/2007-12-19/140914557523.shtml
面对这种情况我应该怎么排除这个页面能不能做个表达示？跟flash一样,ifelse ？

devilboy 发表于 2007-12-20 12:44:58

求助啊:Q :Q

sushy 发表于 2007-12-20 12:49:46

正文内容采集从  到
过滤 <span(*)
过滤 <div>等标签。

分页规则 到

sushy 发表于 2007-12-20 13:01:41

对于页面内容有分页就采集，没有就不采集。如果一个规则有就采集，没有就出错的话，肯定不行的。:lol :lol

devilboy 发表于 2007-12-20 13:20:07

如果从 到

不是被包括到里面了么？这样的话，采集分页不是无效么？

sushy 发表于 2007-12-20 13:22:51

分页和采集内容有什么关系啊，他们是两码事。

这个就像你采集标题和采集内容一样，不打嘎的。采分页是采分页，采内容是采内容。分页有就采，没有就不采。仅此而已。

devilboy 发表于 2007-12-20 14:27:37

呵呵，谢谢咯，一开始我把包在里面，用我设置的分页一直没办法采到。。所以我以为是这个问明，，现在没问题了，只是有个别的页面连标题都采不到，正在找原因。。。
对了，你对登陆模块有研究吗？我刚刚发了一个ss5.5.5的登陆模块，一直不成功，能一起研究一下吗？？？
帖子地址是http://bbs.locoy.com/spider-21804-1-1.html
谢谢咯:lol

sushy 发表于 2007-12-20 14:58:52

只会采集，不会上传。登录不熟悉。:lol :lol :lol

页: [1]

火车采集器软件交流官方论坛's Archiver

我想采新浪新闻，中间有对我来说很大的麻烦，高手给点指点咯！