在采集分页文章的时候 遇到了点问题?高手赐教!~
如以下地址http://www.g.com/new/63023.html
这个页面做的是伪静态。。
而分页没有做伪静态。。
http://www.g.com/new/63023.html
█1:http://www.g.com/news.php?id=63023&page=1
█2:http://www.g.com/news.php?id=63023&page=2
█3:http://www.g.com/news.php?id=63023&page=3
█4:http://www.g.com/news.php?id=63023&page=4
█5:http://www.g.com/news.php?id=63023&page=5
█6:http://www.g.com/news.php?id=63023&page=8
█7:http://www.g.com/news.php?id=63023&page=6
█8:http://www.g.com/news.php?id=63023&page=7
这样一来就会采集到2个 第一页,
为此而苦恼。于是尝试用手动配置的
分页链接地址样式:/news.php?id=[参数]&page=[参数]
分页地址: /news.php?id=[参数1]&page=[参数2]
结果出现了更多重复页。。。郁闷中!~~~
求解 谢谢!~ 仔细检查下分页的代码 你会懂的 什么意思? 不知道楼上 知道我的意思了没有??
他的第一个页是html。然后到第二页,用上下页的模式,又有一个第一个是news.php?id=63023&page=1
php的模式。。这就是规律啊。。 直接采集http://www.g.com/news.php?id=63023&page=1
这样你获取的页面就不会有第一个这个分页了。www.dataindex.org 我也是这样的问题?等待!!求解中......................... http://www.g.com/new/63021.html
http://www.g.com/new/63022.html
http://www.g.com/new/63023.html
http://www.g.com/new/63024.html
我是采集到一系列这样的url
再进行二级页面的采集到了文章页。
我是在想如果实在不行,我就先把一级列表页的url全部导出到文本里,再做批量替换
http://www.g.com/news.php?id=63023&page=1
也就是4楼说的那样,但是 我觉得火车头应该可以解决这样的问题啊。。
页:
[1]