火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2385|回复: 5

在采集分页文章的时候 遇到了点问题?高手赐教!~

[复制链接]
发表于 2011-3-6 23:52:20 | 显示全部楼层 |阅读模式
如以下地址
http://www.g.com/new/63023.html
这个页面做的是伪静态。。
而分页没有做伪静态。。
     http://www.g.com/new/63023.html
█1:http://www.g.com/news.php?id=63023&page=1
█2:http://www.g.com/news.php?id=63023&page=2
█3:http://www.g.com/news.php?id=63023&page=3
█4:http://www.g.com/news.php?id=63023&page=4
█5:http://www.g.com/news.php?id=63023&page=5
█6:http://www.g.com/news.php?id=63023&page=8
█7:http://www.g.com/news.php?id=63023&page=6
█8:http://www.g.com/news.php?id=63023&page=7

这样一来就会采集到2个 第一页,
为此而苦恼。  于是尝试用手动配置的   

分页链接地址样式:/news.php?id=[参数]&page=[参数]      
分页地址: /news.php?id=[参数1]&page=[参数2]

结果出现了更多重复页。。。郁闷中!~~~
求解 谢谢!~
发表于 2011-3-7 10:09:21 | 显示全部楼层
仔细检查下分页的代码 你会懂的
 楼主| 发表于 2011-3-7 10:53:14 | 显示全部楼层
什么意思? 不知道楼上 知道我的意思了没有??
他的第一个页是html。然后到第二页,用上下页的模式,又有一个第一个是news.php?id=63023&page=1
php的模式。。这就是规律啊。。
发表于 2011-3-7 15:24:32 | 显示全部楼层
直接采集http://www.g.com/news.php?id=63023&page=1
这样你获取的页面就不会有第一个这个分页了。www.dataindex.org
发表于 2011-3-8 15:48:29 | 显示全部楼层
我也是这样的问题?等待!!求解中.........................
 楼主| 发表于 2011-3-8 16:22:03 | 显示全部楼层
http://www.g.com/new/63021.html
http://www.g.com/new/63022.html
http://www.g.com/new/63023.html
http://www.g.com/new/63024.html
我是采集到一系列这样的url
再进行二级页面的采集到了文章页。
我是在想如果实在不行,我就先把一级列表页的url全部导出到文本里,再做批量替换
http://www.g.com/news.php?id=63023&page=1
也就是4楼说的那样,但是 我觉得火车头应该可以解决这样的问题啊。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-18 04:49

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表