alsyat 发表于 2009-4-7 20:53:36

采集回来的源码里有乱码怎么屏蔽

本帖最后由 alsyat 于 2009-4-7 22:51 编辑

问题解决了,可以采集到多张图了,但是新的问题又来了。我所采集的页面居然多处有乱码所以导致了图片在我站里发布的时候显示不出来。
现在我手动在内容排除里写入这些乱码,实在太累了,哪位老大有办法帮忙,谢谢下图就是乱码的,该怎么处理才能自动就全清除了,因为采集的页面太多如果逐一去清除,我还不如自己手动发布了。

都市乞丐 发表于 2009-4-7 21:18:44

查看数据库里的内容是否正常

alsyat 发表于 2009-4-7 22:51:33

希望哪位老大 看到了 帮个忙

chenjian0629 发表于 2009-4-7 23:30:56

中文出现“乱码”应该是编码的问题 ,默认的自动识别编码,你自己指定采集站点的编码就不会出现这个“乱码”了。
修改位置:编辑任务→文件保存及部分高级设置→高级设置

alsyat 发表于 2009-4-7 23:49:09

编码我也试了啊 常用的我都测试了,还是不行,我采集的站 页面其他的都显示中文,唯独图片中间夹的字是乱码,我该怎么才能查到他站使用的是什么编码呢?老大

zixing123 发表于 2009-4-11 12:30:34

看你的情况应该不是乱码
而是采集干扰文字
看下你的采集规则
吧标签过滤
最好是把采集结果发来看看

zixing123 发表于 2009-4-11 12:31:39

过滤<span style------------------</span>
页: [1]
查看完整版本: 采集回来的源码里有乱码怎么屏蔽