skuu 发表于 2007-11-23 14:25:48

程序的采集内容上有BUG

今天查一下以前采集的新闻,发现里面老有***字样,一开始以为是目标站过滤的,
过去一看发现不是,也不是CMS的过滤内容。

最后点了火车头的采集页面测试,发现,他在采集的时候就过滤了。

本身我自己就没有设置字符替换。但是软件还是自己过滤了

目前发现自动被过滤的是“奸淫”

比如日本鬼子的奸淫杀掠。自动就变成日本鬼子的***杀掠。。

能不能手动调整这些过滤内容呢???

[ 本帖最后由 skuu 于 2007-11-23 14:33 编辑 ]

火车头 发表于 2007-11-23 17:18:21

ali33ls这都被你发现了,不是bug,是我们的一个全局关键词和近义词的替换功能,免费版没有集成修改和设置的界面
内容在System/Config.mdb的Words表内

skuu 发表于 2007-11-23 19:54:38

里头怎么都是近义词啊。。。这个功能的意义有啥用啊。。呵呵

给我搬个热心奖吧。。HOHO、、、

xyyfx 发表于 2007-11-24 12:37:13

回复 3楼 的帖子

可以尽量替换近义词,近乎原创哈:lol

zengfenghua 发表于 2007-11-25 15:31:30

呵呵,不好的词是该替换!

sushy 发表于 2007-11-28 13:12:52

不好的词应该在恰当的时候替换。有时候需要这些词汇的时候还是应该保留的。

sushy 发表于 2007-12-1 10:08:34

可是我注意到在这个表中的很多近义词不是必须替换的啊。比如把正确替换成准确。我不知道这个替换有什么目的。另外,我觉得老大设置个开关,有些人可能需要替换,有些人可能不需要。另外,要是能做个界面,让用户自己选择哪些替换,哪些保留,那就最好不过了。
页: [1]
查看完整版本: 程序的采集内容上有BUG