采集分页链接地址的问题
一个列表页,带有分页地址,分页地址所能看到的格式为1 2 3 ... 70 71 72
无上一页,下一页的样式,格式就上面那样。
火车头只能采到的分页地址为 1 2 3 和70 71 72
即可以点击的链接就可以采到,中间的 ...无法采到。
点击了 分页地址3后 分页链接又变成了 1 2 3 4 ... 70 71 72
点击到了 分页地址10后 分页链接变了 1 2 3...10 11 12...70 71 72
有何方法可以采到所有的分页链接地址???
目前我是手工加入那些分页地址的。
[ 本帖最后由 火车尾巴 于 2008-3-12 11:44 编辑 ] 目前没有办法,呵呵,真不好搞~~ 是呀。真不好搞。
不知到什么时候那个分页地址链接会增加几个,那时又要手工加入多增加的那几条链接地址。
比较麻烦。 应该会有的,我记得守望有一个验证分页的模式是直接取得分页的后缀,如:XXXXXX_2.html XXXXXXXXXXX_3.html
按页面地址的ID配合步长进行验证!
火车SP4中已经增加了此功能,可以方便的获取当页的地址信息,呵呵~ 如果火车头能用 取到分页的第一页的链接地址,和最后一页的分页地址的格式,然后就生成最后一页的分页地址的数字,以此数字做为添加多少条分页地址的链接的依据,这样应该行得通吧。 原帖由 vus520 于 2008-1-9 11:29 发表 http://bbs.locoy.com/images/common/back.gif
应该会有的,我记得守望有一个验证分页的模式是直接取得分页的后缀,如:XXXXXX_2.html XXXXXXXXXXX_3.html
按页面地址的ID配合步长进行验证!
火车SP4中已经增加了此功能,可以方便的获取当页的地址信息,呵呵~
很多的分页链接地址都带有步长数字的。
希望sp4能解决掉这个采集分页链接的问题。 火车SP4什么时间放出了! sp5都还没看到有自动步长的功能。
页:
[1]