火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 19172|回复: 25

火车头网页正文提取演示程序

 关闭 [复制链接]
发表于 2010-12-21 18:48:27 | 显示全部楼层 |阅读模式
信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。

正文提取就是将网页中的正文部分抽取出来。合肥乐维信息技术公司根据此前的技术积累,做成此演示程序供大家测试。希望大家积极提供宝贵的测试意见,以便我们应用到在正进行的站群软件开发中,服务广大站长。

该演示程序支持 任意网页(当然最好是内容正文页),自动识别编码,支持中英文等内容主体识别,经简单测试,正确率在90%以上,欢迎大家试用。

下载见:http://board.locoy.com/?post=65
发表于 2010-12-21 22:25:06 | 显示全部楼层
发表于 2010-12-22 08:52:16 | 显示全部楼层
能集成到火车头里么
发表于 2010-12-22 09:05:43 | 显示全部楼层
支持哦~~
发表于 2010-12-22 12:29:22 | 显示全部楼层
这个东西太强大了
发表于 2010-12-22 16:09:20 | 显示全部楼层
也来支持下,不知道站群出来多少大洋
发表于 2010-12-24 22:37:53 | 显示全部楼层
谢谢。很好用的。
发表于 2011-1-10 10:31:08 | 显示全部楼层
先学习,然后才敢说话。
发表于 2011-1-11 08:26:41 | 显示全部楼层
能集成到火车头里么
发表于 2011-1-11 13:21:03 | 显示全部楼层
本帖最后由 蓝海 于 2011-1-11 13:26 编辑

多来看看 还是有好处的 嘿嘿
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-15 12:01

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表