火车头 发表于 2010-12-21 18:48:27

火车头网页正文提取演示程序

信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。

正文提取就是将网页中的正文部分抽取出来。合肥乐维信息技术公司根据此前的技术积累,做成此演示程序供大家测试。希望大家积极提供宝贵的测试意见,以便我们应用到在正进行的站群软件开发中,服务广大站长。

该演示程序支持 任意网页(当然最好是内容正文页),自动识别编码,支持中英文等内容主体识别,经简单测试,正确率在90%以上,欢迎大家试用。

下载见:http://board.locoy.com/?post=65

笑书神侠 发表于 2010-12-21 22:25:06

ali62ls ali9ls {:1_208:}

wmdly 发表于 2010-12-22 08:52:16

能集成到火车头里么

y2kzero 发表于 2010-12-22 09:05:43

{:2_130:}支持哦~~

afanfan2007 发表于 2010-12-22 12:29:22

这个东西太强大了

lyw5811772 发表于 2010-12-22 16:09:20

也来支持下,不知道站群出来多少大洋

lance5 发表于 2010-12-24 22:37:53

谢谢。很好用的。

河南监控工程网 发表于 2011-1-10 10:31:08

先学习,然后才敢说话。

vippp 发表于 2011-1-11 08:26:41

能集成到火车头里么

蓝海 发表于 2011-1-11 13:21:03

本帖最后由 蓝海 于 2011-1-11 13:26 编辑

多来看看 还是有好处的 嘿嘿
页: [1] 2 3
查看完整版本: 火车头网页正文提取演示程序