fiveok 发表于 2010-12-10 16:15:55

用户自定义分词应该先匹配长词后匹配较短的词

比如这个   无线网卡   有线网卡网卡 三个关键词

应该最后匹配网卡,这样才准确,现在的方式是直接把有线和无线分开,直接匹配网卡。感觉这样的话,那用户自定义词库就不准了。

gbi6 发表于 2011-5-10 16:43:46

用户自定义分词有用吗。

flaven 发表于 2011-10-5 23:07:05

这个建议有道理,帮你顶

anine 发表于 2011-10-6 14:57:39

嗯,这个嘛。确实是比较蛋疼地。我来构思下方向,我也弄个智能匹配器。(其实我几乎都不用火车里的那个)
1.根据概率原理,出现率越大就首先匹配。向谷歌学习,人家的匹配,几乎不让人蛋疼。
2.先匹配字,再匹配词,再到短句,再到长句。
3.这个是开复老师提出的,就是系统计算排除,功能比较强大。

lbjyuer 发表于 2016-2-8 16:13:20

和你们一块学习。。。
页: [1]
查看完整版本: 用户自定义分词应该先匹配长词后匹配较短的词