火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 17086|回复: 14

终于发现空格变问号的问题。

[复制链接]
发表于 2009-5-21 00:54:32 | 显示全部楼层 |阅读模式
本帖最后由 leny 于 2009-5-21 01:01 编辑

采集yeeyan.com的文章是发现空格全部变成问号?????,论坛里查了一下也有部分人遇到这样的问题都没有解决,官方回复说是勾选 UrlEncode,我勾选了再测试也是有问号。后来发现其实火车头软件直接把空格(不知道是什么格式的空格)认作问号了。
 楼主| 发表于 2009-5-21 01:00:27 | 显示全部楼层
本帖最后由 leny 于 2009-5-21 01:03 编辑

文章采集测试正常,空格地方仍然是空的




发布后空格地方就成了??? 用的是phpcms2008

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2009-5-21 01:07:33 | 显示全部楼层
QQ上联系官方人员,说是我的网站兼容性问题,我用的是PHPCMS,于是我又换了论坛,也是这样。后来我想想QQ上三言两语也说不清,等他们睡了我就弄了个视频,看了就清楚了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2009-5-21 01:45:33 | 显示全部楼层
哦,这个有可能是编码的问题。你可以在规则里把这些特殊的字符替换成手工拍出来的空格
 楼主| 发表于 2009-5-21 02:23:27 | 显示全部楼层
手工拍空格的可以过滤,但是有个问题就是空格全部过滤了文字就全挤在一块了,英文更难看。所以希望火车头能修正这个问题,能认出空格,不会变成问号。
发表于 2009-5-21 10:06:29 | 显示全部楼层
这种有可能是编码的问题,楼主最好帖一下规则.
 楼主| 发表于 2009-5-21 12:03:17 | 显示全部楼层
目标网站编码设置了utf-8,发布站点是phpcms2008 GBK编码的。都没有设置错,而且反复更换其他编码测试,采集时如果设置不是utf-8根本采集不到,都是乱码,这说明不是编码设置问题。
规则下班要回家电脑上才有,不过昨天晚上传给孤魂了。 另外就是可以看看我的视频,最不明白的地方就是内容添加过滤,复制的这个站点的空格会变成问号——新建一个站点,没有设置任何规则都是这样,所以应该不是规则的问题。
 楼主| 发表于 2009-5-21 12:06:58 | 显示全部楼层
看了论坛里有些朋友采集时也有这些问题,我想是不是有一些站点的空格格式是火车头无法区分的?所以就变成问号?
 楼主| 发表于 2009-5-21 12:21:56 | 显示全部楼层
rq204同学可以采下http://www.yeeyan.com/articles/view/lovedzc/2852看看,这篇文章段落较多,马上就看到空格变问号的问题了。
发表于 2009-5-21 20:00:48 | 显示全部楼层
这个问题目前最简单的方法就是在规则里面把空格代码替换成空格
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 00:11

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表