enzoz 发表于 2009-10-4 10:11:44

采集任务中结束字符串问题

本帖最后由 enzoz 于 2009-10-4 10:14 编辑

我采集的目标文章的结束字符串有的时候是:</p><DIV><DIV></DIV></DIV>

有的时候是:</p>   <DIV><DIV></DIV></DIV>

还有:</p>

<DIV><DIV></DIV></DIV>




等等,有时候</p>和<DIV>之间的空格很多,导致我不能正确采集所有文章的内容,
比如我结束字符串设成:</p><DIV><DIV></DIV></DIV> 就采集不到</p> 空格 <DIV><DIV></DIV></DIV>的文章了

enzoz 发表于 2009-10-4 10:13:07

怎么才能把:</p><DIV>的空格去掉!!!希望有人能帮帮忙

cshack 发表于 2009-10-4 10:36:54

内容排除,
打一个空格

cshack 发表于 2009-10-4 10:37:32

不过这样过滤了所有空格了!

rq204 发表于 2009-10-4 10:41:00

如果有规律可找的话你可以试着写成正则表达式,如何写,请参考 http://help.locoy.com/Document/Learn_Regex_For_30_Minutes.htm

enzoz 发表于 2009-10-6 21:57:21

正则表达式5555难的内ali76ls

enzoz 发表于 2009-10-6 22:19:55

管理员帮帮我把这个问题解决一下哈。。。
页: [1]
查看完整版本: 采集任务中结束字符串问题