leny 发表于 2009-5-21 00:54:32

终于发现空格变问号的问题。

本帖最后由 leny 于 2009-5-21 01:01 编辑

采集yeeyan.com的文章是发现空格全部变成问号?????,论坛里查了一下也有部分人遇到这样的问题都没有解决,官方回复说是勾选 UrlEncode,我勾选了再测试也是有问号。后来发现其实火车头软件直接把空格(不知道是什么格式的空格)认作问号了。

leny 发表于 2009-5-21 01:00:27

本帖最后由 leny 于 2009-5-21 01:03 编辑

文章采集测试正常,空格地方仍然是空的




发布后空格地方就成了??? 用的是phpcms2008

leny 发表于 2009-5-21 01:07:33

QQ上联系官方人员,说是我的网站兼容性问题,我用的是PHPCMS,于是我又换了论坛,也是这样。后来我想想QQ上三言两语也说不清,等他们睡了我就弄了个视频,看了就清楚了。

vus520 发表于 2009-5-21 01:45:33

哦,这个有可能是编码的问题。你可以在规则里把这些特殊的字符替换成手工拍出来的空格

leny 发表于 2009-5-21 02:23:27

手工拍空格的可以过滤,但是有个问题就是空格全部过滤了文字就全挤在一块了,英文更难看。所以希望火车头能修正这个问题,能认出空格,不会变成问号。

rq204 发表于 2009-5-21 10:06:29

这种有可能是编码的问题,楼主最好帖一下规则.

leny 发表于 2009-5-21 12:03:17

目标网站编码设置了utf-8,发布站点是phpcms2008 GBK编码的。都没有设置错,而且反复更换其他编码测试,采集时如果设置不是utf-8根本采集不到,都是乱码,这说明不是编码设置问题。
规则下班要回家电脑上才有,不过昨天晚上传给孤魂了。 另外就是可以看看我的视频,最不明白的地方就是内容添加过滤,复制的这个站点的空格会变成问号——新建一个站点,没有设置任何规则都是这样,所以应该不是规则的问题。

leny 发表于 2009-5-21 12:06:58

看了论坛里有些朋友采集时也有这些问题,我想是不是有一些站点的空格格式是火车头无法区分的?所以就变成问号?

leny 发表于 2009-5-21 12:21:56

rq204同学可以采下http://www.yeeyan.com/articles/view/lovedzc/2852看看,这篇文章段落较多,马上就看到空格变问号的问题了。

zydxdx 发表于 2009-5-21 20:00:48

这个问题目前最简单的方法就是在规则里面把空格代码替换成空格
页: [1] 2
查看完整版本: 终于发现空格变问号的问题。