火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4675|回复: 5

建议加一个内容分页处理机制

[复制链接]
发表于 2008-3-17 21:39:23 | 显示全部楼层 |阅读模式
现在的CMS系统生成内容分页其实都不是无规律的,比如我用风讯和IWMS都是采取以下模式:

当前page.html
当前page2.html
当前page3.html
当前page4.html
……

所以内容页里只要有一个这样按顺序递增数字的项目就基本能解决内容页问题,加上现有的处理机制就很完美了。

目前我用的SP5自动识别链接会出现页面数量不对,顺序不对的情况出现。这种问题很难察觉,但是对文章和书籍站点来说是大的一个问题。
发表于 2008-3-18 02:32:10 | 显示全部楼层
分页可使用自定义分页连接
 楼主| 发表于 2008-3-18 08:07:52 | 显示全部楼层
我开始也是想也许自定义链接可以解决问题。但是我看内容页里的“自定义链接”只是把一种URL模式的参数提取出来,生成另一种URL,不能产生数字序列啊。
发表于 2008-3-18 08:10:49 | 显示全部楼层
设置好开始代码同结束代码用系统自动识别就可以了。
 楼主| 发表于 2008-3-18 09:02:42 | 显示全部楼层
我的这个老站的分页方式就不能这么处理,因为没有列全所有页,“下一页”标志也不是唯一的:
http://www.0791.net/html/2006-04/1271.htm

另外即使列全了,火车头的自动判断也很不稳定,比如这个页面,始终无法自动完整采集。可能是太大的原因,但是我用动易的.net版本测试竟然可以完整采集,这就有点说不过去了:
http://www.0791.net/html/2006-10/2235.htm
发表于 2016-2-10 08:34:11 | 显示全部楼层
爪,以后学习下。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 18:50

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表