发新话题
打印

■■■请教火车头,关于采集内容的选取字符串■■■

■■■请教火车头,关于采集内容的选取字符串■■■

  我在对一个论坛的内容进行采集的时候,遇到了难题,
请教一下火车头,各位也帮忙看看有没有解决的办法

要采集的内容的开始字符串是

<div class="PostContent">
或<div class="PostContentInner">  
, 都行,

可是如果结束字符串是</div>的话,将会有个别网页的主要内容不能选取

原因是,在<div class="PostContent">或<div class="PostContentInner"> 之后

会有一大串的 <div></div>

请问,这种情况下如何对网页内容进行选取呢?




[s:6]

TOP

<div class="PostContent">
所对应的
</div>后面还有东西啊 把这些也加上 知道能够唯一标示为止

TOP

获取的是<div class="PostContent">
或<div class="PostContentInner"> 到第一个</div>之间的内容

TOP

引用:
下面是引用kukat于2005-12-23 03:10发表的:
<div class="PostContent">
所对应的
</div>后面还有东西啊 把这些也加上 知道能够唯一标示为止
谢谢您 :)

按照您的方法试了,

可以针对性采集到需要的内容

[s:8]

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.265643 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-12-2 04:36 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档