charistain 发表于 2012-12-21 19:01:53

结束字符串有多种的网页改如何采集

比我我有一个网页http://www.hualongxiang.com/wudibaobaoxiu/10150868,主题的结束标签为:
</div>
                </div>

而回复的结束标签为
</div>

                </div>
注意两种情况两个</div>之间的空格数量不一样,我使用</div>*</div>去匹配两种情况也是不行的。似乎采集器中这个地方有bug,遇到过几次了,空格的数量并不能用“*”来全部匹配。不知道采集器能否使用“||”这个种方式来同时匹配多种情况,我试验的结果是不可以的。希望哪位能看看,谢谢

303718 发表于 2012-12-21 22:36:48

应该还有别的标记的呢

303718 发表于 2012-12-21 22:38:51

<div class="tpc_content">
页: [1]
查看完整版本: 结束字符串有多种的网页改如何采集