程序的采集内容上有BUG
今天查一下以前采集的新闻,发现里面老有***字样,一开始以为是目标站过滤的,过去一看发现不是,也不是CMS的过滤内容。
最后点了火车头的采集页面测试,发现,他在采集的时候就过滤了。
本身我自己就没有设置字符替换。但是软件还是自己过滤了
目前发现自动被过滤的是“奸淫”
比如日本鬼子的奸淫杀掠。自动就变成日本鬼子的***杀掠。。
能不能手动调整这些过滤内容呢???
[ 本帖最后由 skuu 于 2007-11-23 14:33 编辑 ] ali33ls这都被你发现了,不是bug,是我们的一个全局关键词和近义词的替换功能,免费版没有集成修改和设置的界面
内容在System/Config.mdb的Words表内 里头怎么都是近义词啊。。。这个功能的意义有啥用啊。。呵呵
给我搬个热心奖吧。。HOHO、、、
回复 3楼 的帖子
可以尽量替换近义词,近乎原创哈:lol 呵呵,不好的词是该替换! 不好的词应该在恰当的时候替换。有时候需要这些词汇的时候还是应该保留的。 可是我注意到在这个表中的很多近义词不是必须替换的啊。比如把正确替换成准确。我不知道这个替换有什么目的。另外,我觉得老大设置个开关,有些人可能需要替换,有些人可能不需要。另外,要是能做个界面,让用户自己选择哪些替换,哪些保留,那就最好不过了。
页:
[1]