火车头网页正文提取演示程序
信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。正文提取就是将网页中的正文部分抽取出来。合肥乐维信息技术公司根据此前的技术积累,做成此演示程序供大家测试。希望大家积极提供宝贵的测试意见,以便我们应用到在正进行的站群软件开发中,服务广大站长。
该演示程序支持 任意网页(当然最好是内容正文页),自动识别编码,支持中英文等内容主体识别,经简单测试,正确率在90%以上,欢迎大家试用。
下载见:http://board.locoy.com/?post=65 ali62ls ali9ls {:1_208:} 能集成到火车头里么 {:2_130:}支持哦~~ 这个东西太强大了 也来支持下,不知道站群出来多少大洋 谢谢。很好用的。 先学习,然后才敢说话。 能集成到火车头里么 本帖最后由 蓝海 于 2011-1-11 13:26 编辑
多来看看 还是有好处的 嘿嘿