mdytds 发表于 2009-11-5 17:20:45

这几天开发了一套分词系统,请大家帮忙测试一下

本帖最后由 mdytds 于 2009-11-5 18:08 编辑

经过几天的努力终于初具雏形,肯定还有很多不完善的地方,请大家帮忙指出.在分词的时候肯定不会那么准确,这就要靠词库了,词库符合要求了分词也就准确了,比如:"大家伙儿", "谁个","俺村","各户","本镇"这些词在做伪原创处理和TAG关键词的时候是没用的,那么这些词就要在词库中禁用.词库维护起来很麻烦,这套系统采用数据库来存放词库,目前已经收集到了10万多条.标题组合是在百度提取了10个相关搜索,随机和标题组合在一起,或者在前或者在后
   这套系统使用了部分dedecms源代码版权仍归dedecms所有
   测试地址:http://www.2taowu.com/tag/test.html
页: [1]
查看完整版本: 这几天开发了一套分词系统,请大家帮忙测试一下