火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2489|回复: 3

关键词提取工具的词库制作工具今天下午开工,需要的朋友期待吧

[复制链接]
发表于 2009-3-7 00:52:38 | 显示全部楼层 |阅读模式
采用的思想就是这里提到的
http://bbs.locoy.com/spider-36123-1-1.html
本来考虑到采集部分就使用火车头了,但是,为了降低程序使用难度,决定自己写采集部分,这样就可以边采集边统计分析了,词库制作计划使用傻瓜式一键制作完成。
最终实现的目标就是 你只要输入目标列表地址,指定目标页面地址规则,其他的事情完全交给程序来搞定,这样制作一份属于你自己专业方面的字典就不再变得困难。
有兴趣的朋友可以一起来讨论,这里面涉及到词性方面的问题。
目前有两种方案,一种是所有采集到的词都标记为名词,另外一种就是通过原有字典分析得到词性。
同时关键词最大长度为4 ,是否对采集到的关键词进行切词后再统计还是直接统计正在考虑中,也想听听大家都高见
发表于 2009-3-10 17:40:28 | 显示全部楼层
支持,期待软件快完成
发表于 2009-3-10 17:53:55 | 显示全部楼层
呵呵 楼主又有动作了~~ 支持
发表于 2009-4-26 13:54:25 | 显示全部楼层
期待中。。。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-20 11:04

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表