真的就采集不了了吗?
本帖最后由 keke731 于 2009-5-27 19:49 编辑假设当当网有个计算机分类点击后发现这个分类的书是10568,但当当网只列出这个分类的前1000条数据集(按照每页20本书,共50页,刚好是1000本)“TOP 1000”,但实际上应该10568/20=528.4页,就应该是529页。
还要说明一下的是当当默认显示前50页,是按照销量来降序排列的。因此正常情况你能采集到1000条信息,但你可以选择排序方式比如(按发布时间升序,和发布时间降序)你可以各得1000条,合计2000条数据。
我的问题是怎么才能采集这个“计算机分类”的所有数据(10568条),50页以后的数据? 目标站只从数据库里调用显示了这么多数据 当当图书, 我采集了36万条网址,其它的没采。 没办法…… 真的没有好方案了吗? 这种处理比较复杂,可以联系我们定制一个高级规则,用于获取更多的相关数据
页:
[1]