itsling 发表于 2010-10-28 17:12:58

DISCUZ 论坛采集分页遇到问题的解决思路

本帖最后由 itsling 于 2010-10-28 17:18 编辑

分页多问题
问题1.有许多精华帖子 分页会有几十页
我使用的是只看作者功能后仍然有十几二十页的内容
关于采作者内容我们就需要用到列表页正则提取的功能了
直接从版块提取出一个帖子ID+亻者ID
如<span id="thread_[参数]"><a href="v(*)
<cite>
<a href="space.php?uid=[参数]">(*)</a>
</cite>
开头
<tr class="threadlist_order">
结束
<a href="javascript:;" id="filtertype" class="dropmenu" onclick="showMenu(this.id);">类型</a>
实际合成的链接http://bbs.huwai.us/viewthread.php?tid=[参数1]&page=1&authorid=[参数2]这样做我们采集到的列表页其实就是 帖子作者发布内容的页面了

然后我们要截取第2页为我们内容页的开头

有大哥要问了 那第一页不要了吗
嘿嘿
这个自然不能少
那我们就要结合尘缘的收费发布接口了(好像火车少了一个内容页正则组合的功能)
它有一个功能就是原帖时间 这个地方就需要了
我们在帖子第二页的 分页列表页那儿可以采到第一页和其它页的内容
然后发吧



更正一下思路
刚才想获取第一页为列表采第二页为内容
其实可以直接生成第2页为列表 然后采第一页为内容
完美!
页: [1]
查看完整版本: DISCUZ 论坛采集分页遇到问题的解决思路