用户自定义分词应该先匹配长词后匹配较短的词
比如这个 无线网卡 有线网卡网卡 三个关键词应该最后匹配网卡,这样才准确,现在的方式是直接把有线和无线分开,直接匹配网卡。感觉这样的话,那用户自定义词库就不准了。 用户自定义分词有用吗。 这个建议有道理,帮你顶 嗯,这个嘛。确实是比较蛋疼地。我来构思下方向,我也弄个智能匹配器。(其实我几乎都不用火车里的那个)
1.根据概率原理,出现率越大就首先匹配。向谷歌学习,人家的匹配,几乎不让人蛋疼。
2.先匹配字,再匹配词,再到短句,再到长句。
3.这个是开复老师提出的,就是系统计算排除,功能比较强大。 和你们一块学习。。。
页:
[1]