首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
使用KNN算法的文本分类   总被引:32,自引:2,他引:30  
张宁  贾自艳  史忠植 《计算机工程》2005,31(8):171-172,185
介绍了数据挖掘的一个分枝——文本自动分类的相关技术,在对数据进行预处理的基础上,实现了K最近邻居分类算法,并结合实验结果对数据预处理在文本分类中的重要性进行了讨论。  相似文献   

2.
文本挖掘研究进展   总被引:2,自引:0,他引:2  
文本挖掘又称为文本数据挖掘或文本知识发现,是指在大规模文本集合中发现隐含的、以前未知的、潜在有用的模式的过程.本文首先介绍了文本挖掘的概念,包括文本挖掘的定义、特点、与其它几个研究领域(数据挖掘、信息检索、信息抽取、计算语言学等)的关系;然后讨论了文本挖掘模型、文本特征抽取与中间表示、文本挖掘的分类与实现技术;最后介绍了几个文本挖掘产品.  相似文献   

3.
Web数据挖掘技术及工具研究   总被引:29,自引:0,他引:29  
Internet应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于Web的应用。文章就Web挖掘技术的概念、分类及文本挖掘和用户访问模式挖掘的实现技术做了详细的阐述,并在此基础上介绍了一些实用的Web挖掘工具。  相似文献   

4.
应用数据仓库技术实现民航决策支持系统   总被引:3,自引:0,他引:3  
在介绍数据仓库、联机分析处理、数据挖掘的概念和技术的基础上,研究了面向主题的需求分析方法、多维数据库的建立及多维视图的显示等技术,并以此提出一种实现民航决策支持系统的方案。  相似文献   

5.
基于Web数据挖掘的信息获取系统的研究及设计   总被引:1,自引:0,他引:1  
潘静  饶若楠 《计算机工程》2004,30(Z1):136-138
首先对数据挖掘的发展现状作了简要的阐述,然后就数据挖掘在Web上的应用进行讨论,并着重于Web文本挖掘技术的分析.同时,提出了一个在专业新闻信息获取系统的原型,以该系统原型为背景,利用Web信息搜索和Web文本挖掘的相关技术实现在Web上获取信息的应用.  相似文献   

6.
在文本特征值的信息隐藏过程中,特征值是一个句子固有的属性,具有随机性.通过分析特征值之间的相关关系,找出其分布变化规律,才能控制其变化,以实现更好的信息隐藏.针对文本信息,首先在VC平台下设计出自动的特征值提取算法,然后利用SPSS统计软件统计分析了文本的特征值.实验结果表明该算法的统计分析给出了有效的特征值数据.  相似文献   

7.
数据挖掘技术在ERP系统中的应用   总被引:1,自引:0,他引:1  
张毅 《福建电脑》2008,24(6):90-91
文本分析了ERP系统在数据分析和决策支持方面存在的局限,在分析数据挖掘主要特征的基础上,阐明了应用数据挖掘技术提高ERP性能可行性,给出了分类方法在ERP销售子系统中应用的实例,并通过模型实验检测了这种挖掘策略的有效性。  相似文献   

8.
入侵特征值识别和发现算法是误用入侵检测中的关键技术。采用数据挖掘技术从主机和网络的数据中发现入侵特征值,建立入侵行为和正常行为规则库,已经广泛用于入侵检测技术中。针对数据挖掘中经典的Apriori和AprioriTid算法中存在项集生成瓶颈问题,提出了一种基于规则约束制导的Apriori算法,考虑到强规则事件并不一定是有趣事件并且大部分入侵行为都是基于已有入侵模式基础上变异得到,加入兴趣度约束和递减支持度约束。通过实验演示,结果表明该算法可大幅提高效率并在入侵检测漏报率上有很好的改善。  相似文献   

9.
基于SQL Server 2005的数据挖掘的研究   总被引:1,自引:0,他引:1  
提高数据挖掘的效率是目前信息技术研究的热点问题之一。介绍了数据挖掘的概念、过程模型以及体系结构,讨论了基于Microsoft SQL Server2005的数据挖掘方案和采用SQLServer分析服务实现数据挖掘的相关技术。采用SQLServer分析服务的数据挖掘.实现了数据挖掘、数据仓库与应用程序的紧密耦合,从而大大提高了数据挖掘的效率。  相似文献   

10.
入侵特征值识别和发现算法是误用入侵检测中的关键技术。采用数据挖掘技术从主机和网络的数据中发现入侵特征值,建立入侵行为和正常行为规则库,已经广泛用于入侵检测技术中。针对数据挖掘中经典的Apriori和AprioriTid算法中存在项集生成瓶颈问题,提出了一种基于规则约束制导的Apriori算法,考虑到强规则事件并不一定是有趣事件并且大部分入侵行为都是基于已有入侵模式基础上变异得到,加入兴趣度约束和递减支持度约束。通过实验演示,结果表明该算法可大幅提高效率并在入侵检测漏报率上有很好的改善。  相似文献   

11.
文本挖掘及其关键技术与方法   总被引:29,自引:0,他引:29  
从1969年美国国防部的计算机网络ARPANET起步,至今已有32年历史的Internet,已经发展成为包含多种信息资源、站点遍布全球的巨大信息服务系统,为其用户提供了极具价值的、巨大的数据资料。在数字图书馆和Internet上,在线可获得的信息量呈指数级增长,导致了信息爆炸。WWW以超文本的形式呈现给用户,一个网页里包含了多种不同的数据类型,其中最主要的信息源就是文本数据。文本表达了大量的、丰富的信息,同时包含了许多未被所有者发现的潜在知  相似文献   

12.
随着数据挖掘应用的深入,非结构化和半结构化数据的挖掘,将成为下一个数据挖掘应用的热点。文本挖掘是一种典型的非结构化数据挖掘,而Web挖掘则是典型的半结构化数据挖掘。所以将信息处理技术中的汉语分词、信息抽取、语义分析等技术应用到Web挖掘研究技术是必然的发展趋势。本文根据Web挖掘的特点,运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,以便使数据提取更加准确。  相似文献   

13.
随着计算机网络技术的不断发展,对于Web Service检索技术的要求也越来越大。并且现在网络环境当中数据信息流量十分庞大,对于信息可以做到深入搜索,实现全方位信息查询是非常有必要的。为此,利用网络数据挖掘技术在智能检索引擎中的应用,以文本描述为信息作为本文的研究对象,为用户提供运用查询要求实现概念检索功能。其中强调在智能搜索引擎当中的网络数据挖掘技术进行优化研究,从结构设计以及算法分析上总结出当前网络数据挖掘应用智能检索的可能性。最终设计出一种利用数据挖掘技术的智能检索模型,实现在众多网络数据中可以准确快速的进行详细的信息检索功能。  相似文献   

14.
朱卫星  徐伟光  何红悦  李雯 《计算机科学》2017,44(Z11):411-413, 456
文本数据是存储和交换信息最自然的方式,文本挖掘技术可以发现海量文本数据中隐藏的潜在知识模式。研究了文本数据主题挖掘与关联搜索技术,首先通过文本解析提取、分词预处理和索引等进行文本信息处理,然后利用基于潜在语义关系的主题发现模型挖掘大量文本数据中隐藏的主题信息,最后利用主题模型计算关键词间的关联程度进行查询扩展,从而实现关联搜索。实现了一个文本数据挖掘与关联搜索的原型系统,对Tancorp数据集进行主题发现和关联搜索,并以视化和网页同步显示关联搜索的过程。  相似文献   

15.
医学文本相似性问题是医学文本挖掘中的重要内容,如何能够快速计算出大数据量下的医学文本的相似性情况是医学文本相似性计算的重点.针对基于传统余弦公式医学文本相似性分析算法在性能上的缺陷,提出了一种基于全文索引技术与余弦公式医学文本相似性分析算法,对医学文本相似性进行分析.采用全文索引技术对医学文本数据相关关键词进行索引,并根据若干关键词在索引中检索出部分数据,从而减少计算复杂度,提高效率.实验表明,该方法比基于传统余弦公式医学文本相似性分析算法具有更优的性能.  相似文献   

16.
本文在分析Web数据挖掘相关理论基础上,深入探讨XML在Web数据挖掘中应用问题,利用XML和Web数据挖掘技术的结合点,提出建立基于XML的Web文本数据挖掘模型,为如何从大量的Web资源中获得有价值的知识提供了一种可行的解决方案。  相似文献   

17.
随着社交媒体的迅速发展,信息过载问题越发严重,因此如何从海量、短小而充满噪声的社交媒体数据中发现和挖掘出热点话题或者热点事件成为一个重要的问题。结合社交媒体数据实时性、地理性、包含较多元数据等特点,提出了用户行为分析与文本内容分析相结合的热点挖掘方法。在内容分析过程中,提出了从更细的词语粒度进行聚类,以代替传统的在消息粒度进行聚类的经典方法。为了提高话题关键词提取的效果,引入了基于词向量技术,并通过语义聚类的方法进行热点挖掘。在真实数据集上的实验结果表明,该方法提取的关键词语义关联性强、话题划分效果好,在主要指标上优于传统的热点挖掘方法。  相似文献   

18.
建立了一种基于高维聚类的探索性文本挖掘算法,利用文本挖掘的引导作用实现数据类文本中的数据挖掘。算法只需要少量迭代,就能够从非常大的文本集中产生良好的集群;映射到其他数据与将文本记录到用户组,能进一步提高算法的结果。通过对相关数据的测试以及实验结果的分析,证实了该方法的可行性与有效性。  相似文献   

19.
基于Multi-agent技术的Web文本挖掘模型及应用   总被引:3,自引:0,他引:3  
姜丽华  黄敏  马永光  佟振声 《计算机工程》2005,31(1):217-218,221
介绍了一个基于Multi-agent技术的Web文本挖掘模型,该模型利用多智能体技术,将文本挖掘和多维文件分析技术结合起来实现了文档收集、预处理、分类、聚类等功能。最后给出了根据该模型设计和实现的某企业人才素质评价系统的实例,系统运行结果证明了模型的有效性和科学性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号