reallovelei 发表于 2011-3-6 23:52:20

在采集分页文章的时候 遇到了点问题?高手赐教!~

如以下地址
http://www.g.com/new/63023.html
这个页面做的是伪静态。。
而分页没有做伪静态。。
   http://www.g.com/new/63023.html
█1:http://www.g.com/news.php?id=63023&page=1
█2:http://www.g.com/news.php?id=63023&page=2
█3:http://www.g.com/news.php?id=63023&page=3
█4:http://www.g.com/news.php?id=63023&page=4
█5:http://www.g.com/news.php?id=63023&page=5
█6:http://www.g.com/news.php?id=63023&page=8
█7:http://www.g.com/news.php?id=63023&page=6
█8:http://www.g.com/news.php?id=63023&page=7

这样一来就会采集到2个 第一页,
为此而苦恼。于是尝试用手动配置的   

分页链接地址样式:/news.php?id=[参数]&page=[参数]      
分页地址: /news.php?id=[参数1]&page=[参数2]

结果出现了更多重复页。。。郁闷中!~~~
求解 谢谢!~

专业收费采集 发表于 2011-3-7 10:09:21

仔细检查下分页的代码 你会懂的

reallovelei 发表于 2011-3-7 10:53:14

什么意思? 不知道楼上 知道我的意思了没有??
他的第一个页是html。然后到第二页,用上下页的模式,又有一个第一个是news.php?id=63023&page=1
php的模式。。这就是规律啊。。

solotraveler 发表于 2011-3-7 15:24:32

直接采集http://www.g.com/news.php?id=63023&page=1
这样你获取的页面就不会有第一个这个分页了。www.dataindex.org

power11 发表于 2011-3-8 15:48:29

我也是这样的问题?等待!!求解中.........................

reallovelei 发表于 2011-3-8 16:22:03

http://www.g.com/new/63021.html
http://www.g.com/new/63022.html
http://www.g.com/new/63023.html
http://www.g.com/new/63024.html
我是采集到一系列这样的url
再进行二级页面的采集到了文章页。
我是在想如果实在不行,我就先把一级列表页的url全部导出到文本里,再做批量替换
http://www.g.com/news.php?id=63023&page=1
也就是4楼说的那样,但是 我觉得火车头应该可以解决这样的问题啊。。
页: [1]
查看完整版本: 在采集分页文章的时候 遇到了点问题?高手赐教!~