发新话题
打印

[3.2版] 建议加一个内容分页处理机制

建议加一个内容分页处理机制

现在的CMS系统生成内容分页其实都不是无规律的,比如我用风讯和IWMS都是采取以下模式:

当前page.html
当前page2.html
当前page3.html
当前page4.html
……

所以内容页里只要有一个这样按顺序递增数字的项目就基本能解决内容页问题,加上现有的处理机制就很完美了。

目前我用的SP5自动识别链接会出现页面数量不对,顺序不对的情况出现。这种问题很难察觉,但是对文章和书籍站点来说是大的一个问题。

TOP

分页可使用自定义分页连接
火车头商业版购买咨询:,火车头商业版售后服务:
提供高难度特殊采集,完美全站采集入库服务。
火车头采集器采集规则定制:[50/个,质量保证]
火车头采集器发布模块定制:[80/个,质量保证]
火车头采集器高级接口定制:[200/个,功能全面]
支付宝担保安全交易:→点击进入安全交易←

QQ:11351936(人数已满),QQ:494839368 (技术咨询),QQ:948423048 (常年在线),QQ:839461016 (售前客服)

TOP

我开始也是想也许自定义链接可以解决问题。但是我看内容页里的“自定义链接”只是把一种URL模式的参数提取出来,生成另一种URL,不能产生数字序列啊。

TOP

设置好开始代码同结束代码用系统自动识别就可以了。
火车头商业版购买与咨询、火车高难度采集、全站采集入库服务、采集规则定制、web在线发布、入库模块定制等业务、大家多多支持呀!联系QQ:86020004
┏┄┄┄┄站长交流中心┄┄┄┄┓
┇ 欢迎大家加入以下群,此群组主要为各位从事计算机爱好者服务欢迎各位高手加盟共同学习QQ群號:7830012  4671518┇

TOP

我的这个老站的分页方式就不能这么处理,因为没有列全所有页,“下一页”标志也不是唯一的:
http://www.0791.net/html/2006-04/1271.htm

另外即使列全了,火车头的自动判断也很不稳定,比如这个页面,始终无法自动完整采集。可能是太大的原因,但是我用动易的.net版本测试竟然可以完整采集,这就有点说不过去了:
http://www.0791.net/html/2006-10/2235.htm

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.123716 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-10-7 17:14 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档