xxooxxoo 发表于 2008-12-19 08:20:41

标题前面大量空白,应该如何采集哦?

<title>
          这个标题第一行是空白,第二行又有一些,第三行是结尾
          </title>


想上面这种标题如何采集哦?

bd540 发表于 2008-12-19 08:44:00

(*)

ali54ls

xxooxxoo 发表于 2008-12-19 11:25:14

我试了试(*)好象不行哦,cpu占用100%,然后就不动了。

xo135864 发表于 2008-12-19 13:08:42

没碰到过是不是你标题看错了 或者文章本来就没有标题

懷念過去↑文 发表于 2008-12-19 13:30:00

不要采集那里的标题
下面肯定还有个地方显示标题的

xxooxxoo 发表于 2008-12-19 16:46:09

多谢大家指点,我去试试

sushy 发表于 2008-12-20 12:07:29

采集 <title> 的时候,一般:

1. 过滤回车
2.过滤tab
3.将两个双字节空格替换为1个双字节空格
4.将两个单字节空格替换为1个单字节空格 (如果直接过滤空格的话,英文单词就变成一团糟了,所以用替换)

孤魂 发表于 2008-12-20 17:10:50

按楼上所做就可以了

vus520 发表于 2008-12-20 17:54:49

如果页面中没有其它标题可以采集的话,可以使用火车的接口函数来处理。

luckboy 发表于 2008-12-21 17:38:32

采集的时候用正则
<title>\s* (?<content>[^<]*)\s*</title>
页: [1]
查看完整版本: 标题前面大量空白,应该如何采集哦?