sslck 发表于 2008-11-10 16:40:25

采集DZ时遭遇“引用”时怎么办?

要采集的DZ61帖子的内容如下:
          <div id="postmessage_345728" class="t_msgfont"><div class="quote"><h5>引用:</h5><blockquote>原帖由 <i>wmy1437</i> 于 2008-10-25 07:24 发表 <a href="/redirect.php?goto=findpost&amp;pid=343309&amp;ptid=40907" target="_blank"><img src="/images/common/back.gif" border="0"   alt="" /></a><br />
哈哈,我也觉得很好玩。我老公就唱了两只老虎,哈,太便宜他了。可是时间很赶,也不好整太久了。 </blockquote></div>哈,感觉如果要罚唱歌就要唱儿歌,呵呵,超有意思的。。</div>

设置采集内容规则为:
开始用:<div id="postmessage_(*)" class="t_msgfont">
结束用:</div>

但由于帖子里使用了“引用”,在内容前即有一个</div>,在这种情况下,使用过滤<div class="quote">(*)</div>却无法成功。。
请教高手,在这种情况下,该如何设置采集内容的规则,或者如何设置过滤?

sslck 发表于 2008-11-10 16:57:18

静静等待高人!:(

rq204 发表于 2008-11-10 17:44:52

<div class="quote"><h5>引用:</h5>(*)</blockquote></div>

sslck 发表于 2008-11-10 22:10:38

原帖由 rq204 于 2008-11-10 17:44 发表 http://bbs.locoy.com/images/common/back.gif
引用:(*)
回老大,那样不行的。。。因为采集内容结束代码即为</div>,一遇到这个,即结束了。
所以,如果帖子里有出现“引用”的,则采集来的内容则是引用里的内容。。。
比如,这个网址,
老大试试。。。。
http://zzfish.cn/viewthread.php?tid=97110&extra=page%3D1
该帖子第十四楼里有两个“引用”,无法采集到真正的内容。。。

sslck 发表于 2008-11-10 22:25:49

事实上,把引用中那部分全部过滤后,采集的回复内容是空的。。

sslck 发表于 2008-11-11 16:36:17

:( :lol :lol
期待高手赐教!

sslck 发表于 2008-11-12 09:24:48

高手,期盼高手出手。。

sslck 发表于 2008-11-12 16:04:50

哪位高手能成功采集么?

懷念過去↑文 发表于 2008-11-12 18:40:20

发完整代码出来!单凭这点怎么不够

sslck 发表于 2008-11-12 23:51:11

回楼上,就采集本帖子吧。。。注意采集内容不包括“引用”里面的文字。。。
页: [1] 2
查看完整版本: 采集DZ时遭遇“引用”时怎么办?