火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3500|回复: 4

用户自定义分词应该先匹配长词后匹配较短的词

[复制链接]
发表于 2010-12-10 16:15:55 | 显示全部楼层 |阅读模式
比如这个   无线网卡   有线网卡  网卡 三个关键词

应该最后匹配网卡,这样才准确,现在的方式是直接把有线和无线分开,直接匹配网卡。感觉这样的话,那用户自定义词库就不准了。
发表于 2011-5-10 16:43:46 | 显示全部楼层
用户自定义分词有用吗。
发表于 2011-10-5 23:07:05 | 显示全部楼层
这个建议有道理,帮你顶
发表于 2011-10-6 14:57:39 | 显示全部楼层
嗯,这个嘛。确实是比较蛋疼地。我来构思下方向,我也弄个智能匹配器。(其实我几乎都不用火车里的那个)
1.根据概率原理,出现率越大就首先匹配。向谷歌学习,人家的匹配,几乎不让人蛋疼。
2.先匹配字,再匹配词,再到短句,再到长句。
3.这个是开复老师提出的,就是系统计算排除,功能比较强大。
发表于 2016-2-8 16:13:20 | 显示全部楼层
和你们一块学习。。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-4-29 00:53

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表