Internet上的文本数据挖掘 |
| |
引用本文: | 王伟强,高文.Internet上的文本数据挖掘[J].计算机科学,2000,27(4):32-36. |
| |
作者姓名: | 王伟强 高文 |
| |
作者单位: | 中国科学院计算技术研究所,北京,100080 |
| |
摘 要: | 1 引言今天Internet已不再是科学家及工程师们独享的通讯工具,已成为数字化时代的世界性图书馆,变成了为各行各业的人们交流思想、获取信息的便利手段。人们在使用WWW浏览服务时,检索、获取最多的信息数据就是文本数据。但这种在巨大的Internet信息仓库中占信息比重最大的数据类型却缺乏结构化、组织的规整性,并且随意地散布在这个网络的各个角落,还降低了人们对丰富的信息资源的利用效率。数据挖掘是人们对一些巨型数据库中的数据进行分析、使用感到力不从心时而发展出的一门新的技术,它将人工智能技术与数据库技术紧密结合起来,让计算机帮助人们从庞大的数据中智能地、自动地抽取有价值的知识模式,以满足人们不同应用的需要。当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称文本数据挖掘。Internet上缺乏结构化、组织规整性的超巨量文本数据自然让人们想到运用文本数据挖掘技术来帮助提高人们在Internet上检索信息、利用信息的效率。
|
关 键 词: | 信息检索 文本数据挖掘 Internet网 数据库 |
Text Mining on the Internet |
| |
Abstract: | The booming growth of the Internet has made text mining on it a promising research field in practice. The paper summarily introduces some aspects about it,which involve some potential applications,some techniques used and some present systems. |
| |
Keywords: | Text mining Word sequence Feature subset |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|
点击此处可从《计算机科学》下载全文 |
|