zsox 发表于 2007-7-22 23:36:03

分享采集规则 - 已测试成功 - 另向高手请教此规则的分页问题

    刚刚采了45个页面,在线发布成功,
采集站点 it.com.cn
列表页地址 it.com.cn/edu/systeminfo/winxp/
附件内有两个文件站点规则和任务规则 :it世界.lsite和winxp artical.ljob
导入规则>发动火车>enjoy
----------------------------------------------------------
    还请教大家此页面的分页采集 “http://it.com.cn/f/edu/077/16/446515.htm”
共3个分页,分页规则如下图,用上面的规则只能采集到第一页。
    但是采集此页面的第3分页“http://it.com.cn/f/edu/077/16/446515_2.htm”却可以把前1,2分页全部采进来,采集第二分页“http://it.com.cn/f/edu/077/16/446515_1.htm”可以把第一分页采集进来但第3页没有。
    没分页的采集正常,另在内容标签排除里面排除“链接<a”貌似无效!
    支持火车,向大家学习了

[ 本帖最后由 zsox 于 2007-7-22 23:39 编辑 ]

xyyfx 发表于 2007-7-23 00:16:46

排除链接还区分大小写,新版会加入是否区分,源页面的链接是大写的<A ……>
你这个分页是对的,用3.0版本测试正确。

zsox 发表于 2007-7-23 20:01:21

谢谢管理员,我刚用3.13.013.0三个版本测试了还是只能采集到这个页面的第一页
http://it.com.cn/f/edu/077/16/446515.htm,难道是我的XP配置有问题......
后两个分页http://it.com.cn/f/edu/077/16/446515_1.htm , http://it.com.cn/f/edu/077/16/446515_2.htm采不到
这个页面代码比较规则,很有代表性,分页是不是有其他设置要注意呢
管理员能详细说下这个页面在火车里的设置吗,我尝试了很多次分页都没成功:L

这是此页内容分页区域代码
<div class="art_page"><a href="445153.htm">[第一页]</a><a href="445153.htm"><font color="#FF0000">1</font></a><a href="445153_1.htm">2</a><a href="445153_2.htm">3</a><a href="445153_1.htm">[下一页]</a> <a href="445153_2.htm">[最后一页]</a></div>

我用的分页区域是<div class="art_page">(*)</div> 内容区域是<div class="art_text">(*)</div>
不用把分页区域都包含进来吧
花了很长时间学开火车,火车真的确是个不错的软件

[ 本帖最后由 zsox 于 2007-7-23 20:13 编辑 ]
页: [1]
查看完整版本: 分享采集规则 - 已测试成功 - 另向高手请教此规则的分页问题