火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3645|回复: 7

哪位高手指点一下 关于采集动态页面分页问题

[复制链接]
发表于 2008-7-24 15:52:11 | 显示全部楼层 |阅读模式
列表采集  每篇文章链接地址为  http://www.emkt.com.cn/cgi-bin/article.cgi?ID=9947
   实际访问的地址是                   http://www.emkt.com.cn/article/99/9947.html


用后者进行测试的时候  分页采集完全正确,但是用前者时候就只能采集到第一页


哪位高手指点一下啊!感谢啊! 在线deng。。。
发表于 2008-7-24 18:17:57 | 显示全部楼层
http://www.emkt.com.cn/cgi-bin/article.cgi?ID=9947  普药营销的通路创新
http://www.emkt.com.cn/article/99/9947.html           为谁辛苦,为谁忙

你有没有搞清楚你要采集什么东西啊?
 楼主| 发表于 2008-7-24 19:13:53 | 显示全部楼层
就是动态的页面采不到全部分页,只能采集到第一页
只有静态的可以采到全部分页内容
http://www.emkt.com.cn/article/311/31199.html
   http://www.emkt.com.cn/cgi-bin/article.cgi?ID=31199
这2个地址所指向的是同一篇文章,在测试中,用http://www.emkt.com.cn/article/311/31199.html可以采集到全部分页

http://www.emkt.com.cn/cgi-bin/article.cgi?ID=31199只可以采集到第一页
发表于 2008-7-24 20:01:45 | 显示全部楼层
明白了,

火车采集分页和采集网址是一个原理的。

对于相对链接,他就做相对本页链接的分析。

<table border="1" width="150" align="right" cellspacing="0" cellpadding="4" bordercolorlight="#99CEC2" bordercolordark="#e9f9f9">
<tr bgcolor="#71BAAA" align="center"><td class="11pt">目 录</td></tr>
<tr bgcolor="#e9f9f9"><td class="9pt"><IMG src="/images-sys/icon.gif" width="13" height="13" alt="*" align="absmiddle"><font color=red>第 1 页</font><br><IMG src="/images-sys/icon.gif" width="13" height="13" alt="*" align="absmiddle"><a href="31199-2.html">第 2 页</a><br></td></td></table>


很明显,当浏览器跳转的时候,
http://www.emkt.com.cn/cgi-bin/article.cgi?ID=31199

http://www.emkt.com.cn/article/311/31199.html

但是,火车不能识别这种跳转。他仍然认为当前页地址为  http://www.emkt.com.cn/cgi-bin/article.cgi?ID=31199

而这里的分页是相对地址。相对地址,也就是相对于浏览器的地址。

在IE中,跳转后地址变成了
http://www.emkt.com.cn/article/311/31199.html

则第二页的相对地址变成了

http://www.emkt.com.cn/article/311/31199-2.html


但是在火车中他仍然认为当前页地址是

http://www.emkt.com.cn/cgi-bin/article.cgi?ID=31199

那么相对地址自然就是

http://www.emkt.com.cn/cgi-bin/31199-2.html

很明显,火车将第二页的相对地址分析错了。自然采集不到了。

那么为什么你在火车中采集

http://www.emkt.com.cn/article/311/31199.html
的时候可以呢?
因为第二页的分页地址被火车识别成了

http://www.emkt.com.cn/article/311/31199-2.html

这应该是火车的一个BUG吧。如果是BUG,处理起来也比较麻烦。

对于这种跳转,的确没什么好办法。

评分

1

查看全部评分

发表于 2008-7-24 20:55:01 | 显示全部楼层

回复 4楼 的帖子

分析的很透彻呀,这种情况很少见,不过它这网站网址有规律,你采集下来处理一下就可以了。
发表于 2008-7-25 07:24:05 | 显示全部楼层
学习了
 楼主| 发表于 2008-7-26 21:59:09 | 显示全部楼层
是啊 !我现在只能按类别来采哦
发表于 2008-7-28 15:02:42 | 显示全部楼层
学习了.关注
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-21 07:44

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表