标题前面大量空白,应该如何采集哦?
<title>这个标题第一行是空白,第二行又有一些,第三行是结尾
</title>
想上面这种标题如何采集哦? (*)
ali54ls 我试了试(*)好象不行哦,cpu占用100%,然后就不动了。 没碰到过是不是你标题看错了 或者文章本来就没有标题 不要采集那里的标题
下面肯定还有个地方显示标题的 多谢大家指点,我去试试 采集 <title> 的时候,一般:
1. 过滤回车
2.过滤tab
3.将两个双字节空格替换为1个双字节空格
4.将两个单字节空格替换为1个单字节空格 (如果直接过滤空格的话,英文单词就变成一团糟了,所以用替换) 按楼上所做就可以了 如果页面中没有其它标题可以采集的话,可以使用火车的接口函数来处理。 采集的时候用正则
<title>\s* (?<content>[^<]*)\s*</title>
页:
[1]