wdkey 发表于 2009-5-17 16:40:05

内容多页,且分页方式在在多页中,如何处理。

今天采集时遇到一个特殊的网站,真实内容页在多页,而且有分页。
如何处理才能采到分页啊,现在只能采集到第一个内容页的第一页。
或者在多页处理时支持循环处理也可以解决。
大家有好的解决办法吗。
管理员帮帮忙看有办法吗。

rq204 发表于 2009-5-17 21:09:33

你把多页和内容页不要想绝对了,你也可以将多页当内容页来采的

wdkey 发表于 2009-5-17 22:35:20

谢谢管理员指点,实际情况是个小说站:
大列表中有一堆文章的页面,打开每一个页面全是一个个小列表。
感觉只能做多页来采了,但只能采到第一个页面的内容,而分页规则只针对于小列表的页面,所以采集不到。
急啊
后来变通了一下,先把大列表中的地址采集到,然后导出,重做规则改进来采集第一篇,再按分页来采。
采是采到了,只是速度太慢,十分钟了,只采到300个地址,这次采集的第一个栏目中就有19204个标题,估记今天采完天就亮了。
页: [1]
查看完整版本: 内容多页,且分页方式在在多页中,如何处理。