2010sp1不能采集内容分页的BUG
采集页面测试可以正常显示出分面地址,但是采集的内容,却没有分面的内容,2010sp1是全新安装的,
如图.
这个不是bug,在这个页面http://edu.itbulo.com/200509/52056.htm里包含分页http://edu.itbulo.com/200509/52056_2.htm,你可以看到这两页的地址不一样,而这个页面的52056_2.htm地址不属于列表页,在列表页采集的时候得到的是52056.htm这个地址。在测试的时候你只能看到52056.htm这个列表页里有分页/52056_2.htm,而不能看到这个页面的内容。要想看到分页的内容你可以地址http://edu.itbulo.com/200509/52056_2.htm写在典型页面上,这样才可以看到分页的内容。 首先,感谢客服人员的回复。
虽然绕来绕去我没太明白。
上面的地址http://edu.itbulo.com/200509/52056.htm明明已经是内容页了,内容页的下一页,当然和上一页的地址不同啊,相同不就是同一页面了?
注意问题:我已经设置好了主题,内容,和内容页的分页规则。但不能采到内容页的分页第二页,第三页。
在列表页采集的时候得到的是52056.htm这个地址。在测试的时候你只能看到52056.htm这个列表页里有分页/52056_2.htm,而不能看到这个页面的内容
首先,正式采集时,2010SP152056_2.htm页面内容也不能采集到。(虽然分析到了内容页的下一个分页)
第二,使用2009SP4版,按上面的设置,能分析出有分页来时,就可以在“典型页面”测试中,采集到分页内容,正式采集也能采到,
我2010SP1和2009SP4 全部重新安装,全部同样设置,2010不能采到分页内容,2009SP4能采集到,还不能说明此BUG?
请问客服人员你们有正式的试个这个网站和页面吗??
要想看到分页的内容你可以地址http://edu.itbulo.com/200509/52056_2.htm写在典型页面上,这样才可以看到分页的内容。
这句话--> 为什么我用2010SP1测试新浪网新闻(你们的版本中集中的),我可以在“典型页面”处采到分页?(当然要先设置好分页规则);另外,再说一片,用2009SP4可以采集到分页内容,在“典型页面”测试时。 采集内容页的分页的时候,需要注意的是,首先要得到每页的地址,其次标签里的规则设置是否适合于每一页。比如第一页可以匹配到,第二页,第三页....是否可以匹配,可以把第二页,第三页...的地址放到典型页面那里测试。然后,标签里要选择“该标签在分页中匹配”选项。 解答得不错 支持一下 呵呵 ali76ls!很好用!学习了!原来我是一直都没有选中“该标签在分页中匹配”!!!!这个问题我想了3天! 一句话就解决问题,为什么搞那么常的解释我,郁闷
选择“该标签在分页中匹配”选项。 衷心谢谢解答!真是很好的答案 !
页:
[1]