axhchrw 发表于 2009-11-23 18:47:58

【接口的问题】很难的啊,网易论坛采集规则怎么写?

本帖最后由 axhchrw 于 2009-11-23 19:38 编辑

http://bbs.travel.163.com/bbs/youji/154302960.html

问题是采集了第1楼其他楼就无法采了。

同样采集其他楼层,第1楼却无法采集了。第1楼与其他楼层的时间代码不一致

注:主要是采集发帖时间的问题

kjmdiba 发表于 2009-11-23 19:03:56

分开采还是一起采?

</strong>楼 [时间] <a(*)<div class="articleCont" id="content_(*)">
                          <div class="clip">[内容]

axhchrw 发表于 2009-11-23 19:07:55

分开采还是一起采?

楼 [时间]
kjmdiba 发表于 2009-11-23 19:03 http://bbs.locoy.com/images/common/back.gif


注意是那个接口太麻烦了,弄得采到的发帖时间和用户名都要放在message字段——即接口的内容框里面!

我是这样写规则的:<!-- 帖子主题开始 -->[参数]<!-- 帖子主题结束 -->(*)
(*)<div class="block">(*)<div class="writerInfo" >(*)<ul>(*)<li class="(*)" style="(*)" >(*)<strong><a href="http://bbs.163.com/(*)" target="_blank" name="(*)" class="subWriter">[参数]</a></strong>(*)</li>(*)</ul>(*)<div class="userinfoDiv" >
(*)(*)</div>(*)</div>(*)<div class="rightCont">(*)<div class="readMode">(*)<h(*)>(*)<strong>(*)</strong>楼 [参数] <a href="javascript:BbsAdmin.showIP((*));"><img src="http://bbs.163.com/bbs/img/ip.gif" /></a></h(*)>(*)</div>(*)<div class="articleCont" id="content_(*)">(*)<div class="clip">[参数]</div>(*)</div>(*)</div>(*)</div>


组合结果:【时间=[参数1]】【用户=[参数2]】【时间=[参数3]】[参数4]


为了能采到第一楼的发帖时间,弄得要用2个时间参数,但是发布结果很糟糕啊!!

kjmdiba 发表于 2009-11-23 19:14:29

这么多星星, 把火车都搞坏了哈哈.

标题 + 时间 + 用户 + 内容   要一起采集?

axhchrw 发表于 2009-11-23 19:27:39

这么多星星, 把火车都搞坏了哈哈.

标题 + 时间 + 用户 + 内容   要一起采集?
kjmdiba 发表于 2009-11-23 19:14 http://bbs.locoy.com/images/common/back.gif


当然了,采原帖的用户和时间、内容,你难道有什么方法么?

kjmdiba 发表于 2009-11-23 19:40:30

一楼 先时间 > 用户名 > 内容
其他楼 先用户名 > 时间 > 内容

只有用正则,用火车头的参数采集不到.

不过灵活点就行. 看看这个:
http://help.3g.163.com/p/3g.163.com/bbs/bbs_travel/bbs/youji/154302960.html

axhchrw 发表于 2009-11-23 20:09:09

一楼 先时间 > 用户名 > 内容
其他楼 先用户名 > 时间 > 内容

只有用正则,用火车头的参数采集不到.

不过灵活点就行. 看看这个:
http://help.3g.163.com/p/3g.163.com/bbs/bbs_travel/bbs/youji/154302960 ...
kjmdiba 发表于 2009-11-23 19:40 http://bbs.locoy.com/images/common/back.gif


哈哈,这个地址可行。感谢啊,你是怎么发现的?
页: [1]
查看完整版本: 【接口的问题】很难的啊,网易论坛采集规则怎么写?