真的就采集不了了吗？

keke731 发表于 2009-5-27 15:03:32

本帖最后由 keke731 于 2009-5-27 19:49 编辑

假设当当网有个计算机分类点击后发现这个分类的书是10568，但当当网只列出这个分类的前1000条数据集（按照每页20本书，共50页，刚好是1000本）“TOP 1000”，但实际上应该10568/20=528.4页，就应该是529页。
还要说明一下的是当当默认显示前50页，是按照销量来降序排列的。因此正常情况你能采集到1000条信息，但你可以选择排序方式比如（按发布时间升序，和发布时间降序）你可以各得1000条，合计2000条数据。
我的问题是怎么才能采集这个“计算机分类”的所有数据（10568条），50页以后的数据？

沦陷今生 发表于 2009-5-27 15:21:00

目标站只从数据库里调用显示了这么多数据

soarb 发表于 2009-5-27 15:36:19

当当图书，我采集了36万条网址，其它的没采。

天大地大 发表于 2009-5-27 15:48:47

没办法……

keke731 发表于 2009-5-27 19:43:55

真的没有好方案了吗？

沦陷今生 发表于 2009-5-27 19:57:43

这种处理比较复杂，可以联系我们定制一个高级规则，用于获取更多的相关数据

页: [1]

火车采集器软件交流官方论坛's Archiver

真的就采集不了了吗？