发新话题
打印

Tom论坛采集的问题![管理员请进,重要建议!!]

Tom论坛采集的问题![管理员请进,重要建议!!]

tom的帖子列表是:
http://bbs.ent.tom.com/forum/search_thread.php?forumid=1&page=10&sort=1

帖子地址是:
http://bbs.lady.tom.com/forum/view_thread.php?forumid=1&threadid=161510
(以这个为例)
他的帖子列表中没有页数显示 所以无法采集页数
他帖子的第二页地址:
http://bbs.lady.tom.com/forum/view_thread.php?forumid=1&threadid=161510&page=2
推断第一页地址可以用:
http://bbs.lady.tom.com/forum/view_thread.php?forumid=1&threadid=161510&page=1
(验证后正确)

之后 我用了2级采集 在帖子中的帖子[下一页]操作附近设置了分页的判断
最终 可以采集 1、2、最后一页
一共也就可以采集三页


综上,建议管理员是不是可以增加3级 甚至4级类表
如果有了4级 甚至可以 直接把一个论坛 甚至一个整站 一次性采集!

请重视一下!
谢谢!!!
附件: 您所在的用户组无法下载或查看附件

TOP

还有要说的就是 就像上面所说的
其实很多论坛都是 多页
多页发出来就是很多重复的

怎么能做出来标题[1]
标题[2]的形式

或者 合并到一页中

怎么做呢?

TOP

包括sina。sohu。163。tianya。QQ在内的几乎所有大站的论坛 都市 这个形式
没有列出第1、2、3、4、5...10页
都是
[上一页] [第1/12页] [下一页]
所以采到的也仅仅 是第1、2和最后一页

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.178599 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-12-2 09:45 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档