今天采集个网站要用到分页,但是分页总会出现乱七八糟的东西,针对我采集到的网站火车头会把下一篇当作分页,然后把下一篇文章的分页当成本篇文章的分页。。。这是网站分页格式:
刚开始我当然以为是采集规则没写好,然后就改规则,然而怎么改都没用,直到最后我用插件把“下一篇”给去除了就好了,发现可以正常采集到分页了,按理说到这里就该结束了,但是我用的分页采集模式是「首页全部列出」,这个网页在分页首页是不会列出“下一篇”链接的,所以问题不是我的规则,是分页选择采集模式这里有Bug,它「首页全部列出」实际是「上下页模式」,而「上下页模式」也是「上下页模式」
最后我用V7.6测试猜想,果然没错,V7.6使用「首页全部列出」并不会采集到下一篇,而且V7.6使用「上下页模式」的采集结果跟V9不管哪个模式的采集结果都一样。。。。
有兴趣的朋友可以自己拿地址去测试
- https://www.dugoogle.com/movie/1010984.html
复制代码
|