火车头V9有bug 「首页全部列出」实际调用的「上下页模式」
今天采集个网站要用到分页,但是分页总会出现乱七八糟的东西,针对我采集到的网站火车头会把下一篇当作分页,然后把下一篇文章的分页当成本篇文章的分页。。。这是网站分页格式:刚开始我当然以为是采集规则没写好,然后就改规则,然而怎么改都没用,直到最后我用插件把“下一篇”给去除了就好了,发现可以正常采集到分页了,按理说到这里就该结束了,但是我用的分页采集模式是「首页全部列出」,这个网页在分页首页是不会列出“下一篇”链接的,所以问题不是我的规则,是分页选择采集模式这里有Bug,它「首页全部列出」实际是「上下页模式」,而「上下页模式」也是「上下页模式」
最后我用V7.6测试猜想,果然没错,V7.6使用「首页全部列出」并不会采集到下一篇,而且V7.6使用「上下页模式」的采集结果跟V9不管哪个模式的采集结果都一样。。。。
有兴趣的朋友可以自己拿地址去测试
https://www.dugoogle.com/movie/1010984.html
经测试,V9版本按照以下可以正常获取,并不会获取到您说的下一篇的内容,请参考使用手册的功能说明或咨询客服处理
leweizxl 发表于 2019-8-8 08:38
经测试,V9版本按照以下可以正常获取,并不会获取到您说的下一篇的内容,请参考使用手册的功能说明或咨询客服 ...
我该怎么说呢。。。不是你说的这个问题,如果想采集当然可以通过改规则实现,请看看我的问题描述:
如果我猜的没错,首页全部列出模式是只在首页的分页区域查找分页地址;而上下页模式应该是在每个页面(包括分页面)的分页区域查找分页地址;简单的来说关于查找分页地址「首页全部列出」应该只在首页查找一次,从第2页开始的分页面并不会执行查找分页地址功能;而「上下页模式」是每页查找一次共查找N次
根据我测试的情况来看,V9版首页全部列出模式会在每个分页都查找一次分页地址(这实际是上下页模式),另外我也测试过V7.6, V7.6版本「首页全部列出」模式是不会在分页区域执行查找分页地址方法的,它只在首页执行一次
页:
[1]