这几天开发了一套分词系统,请大家帮忙测试一下
本帖最后由 mdytds 于 2009-11-5 18:08 编辑经过几天的努力终于初具雏形,肯定还有很多不完善的地方,请大家帮忙指出.在分词的时候肯定不会那么准确,这就要靠词库了,词库符合要求了分词也就准确了,比如:"大家伙儿", "谁个","俺村","各户","本镇"这些词在做伪原创处理和TAG关键词的时候是没用的,那么这些词就要在词库中禁用.词库维护起来很麻烦,这套系统采用数据库来存放词库,目前已经收集到了10万多条.标题组合是在百度提取了10个相关搜索,随机和标题组合在一起,或者在前或者在后
这套系统使用了部分dedecms源代码版权仍归dedecms所有
测试地址:http://www.2taowu.com/tag/test.html
页:
[1]