关键词提取工具的词库制作工具今天下午开工,需要的朋友期待吧
采用的思想就是这里提到的http://bbs.locoy.com/spider-36123-1-1.html
本来考虑到采集部分就使用火车头了,但是,为了降低程序使用难度,决定自己写采集部分,这样就可以边采集边统计分析了,词库制作计划使用傻瓜式一键制作完成。
最终实现的目标就是 你只要输入目标列表地址,指定目标页面地址规则,其他的事情完全交给程序来搞定,这样制作一份属于你自己专业方面的字典就不再变得困难。
有兴趣的朋友可以一起来讨论,这里面涉及到词性方面的问题。
目前有两种方案,一种是所有采集到的词都标记为名词,另外一种就是通过原有字典分析得到词性。
同时关键词最大长度为4 ,是否对采集到的关键词进行切词后再统计还是直接统计正在考虑中,也想听听大家都高见 支持,期待软件快完成 呵呵 楼主又有动作了~~ 支持 期待中。。。。
页:
[1]