火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2049|回复: 0

DISCUZ 论坛采集分页遇到问题的解决思路

[复制链接]
发表于 2010-10-28 17:12:58 | 显示全部楼层 |阅读模式
本帖最后由 itsling 于 2010-10-28 17:18 编辑

分页多问题
问题1.有许多精华帖子 分页会有几十页
我使用的是只看作者功能后仍然有十几二十页的内容
关于采作者内容我们就需要用到列表页正则提取的功能了
直接从版块提取出一个帖子ID+亻者ID
  1. <span id="thread_[参数]"><a href="v(*)
  2. <cite>
  3. <a href="space.php?uid=[参数]">(*)</a>
  4. </cite>
复制代码
  1. 开头
  2. <tr class="threadlist_order">
  3. 结束
  4. <a href="javascript:;" id="filtertype" class="dropmenu" onclick="showMenu(this.id);">类型</a>
复制代码
实际合成的链接
  1. http://bbs.huwai.us/viewthread.php?tid=[参数1]&page=1&authorid=[参数2]
复制代码
这样做我们采集到的列表页其实就是 帖子作者发布内容的页面了

然后我们要截取第2页为我们内容页的开头

有大哥要问了 那第一页不要了吗
嘿嘿
这个自然不能少
那我们就要结合尘缘的收费发布接口了(好像火车少了一个内容页正则组合的功能)
它有一个功能就是原帖时间 这个地方就需要了
我们在帖子第二页的 分页列表页那儿可以采到第一页和其它页的内容
然后发吧



更正一下思路
刚才想获取第一页为列表采第二页为内容
其实可以直接生成第2页为列表 然后采第一页为内容
完美!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 17:29

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表