建议加一个内容分页处理机制
现在的CMS系统生成内容分页其实都不是无规律的,比如我用风讯和IWMS都是采取以下模式:当前page.html
当前page2.html
当前page3.html
当前page4.html
……
所以内容页里只要有一个这样按顺序递增数字的项目就基本能解决内容页问题,加上现有的处理机制就很完美了。
目前我用的SP5自动识别链接会出现页面数量不对,顺序不对的情况出现。这种问题很难察觉,但是对文章和书籍站点来说是大的一个问题。 分页可使用自定义分页连接 我开始也是想也许自定义链接可以解决问题。但是我看内容页里的“自定义链接”只是把一种URL模式的参数提取出来,生成另一种URL,不能产生数字序列啊。 设置好开始代码同结束代码用系统自动识别就可以了。 我的这个老站的分页方式就不能这么处理,因为没有列全所有页,“下一页”标志也不是唯一的:
http://www.0791.net/html/2006-04/1271.htm
另外即使列全了,火车头的自动判断也很不稳定,比如这个页面,始终无法自动完整采集。可能是太大的原因,但是我用动易的.net版本测试竟然可以完整采集,这就有点说不过去了:
http://www.0791.net/html/2006-10/2235.htm 爪,以后学习下。。
页:
[1]