首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
随着我们对地学信息的不断深入理解与应用,地矿勘查工作所面临的是海量信息与数据—"数据海洋"。数据量越来,数据处理越困难。如何及时有效地分析处理这些海量数据,从数据背后挖掘出隐藏着的重要信息,为决策起到重要的支持作用,数据挖掘也就应运而生。  相似文献   

2.
利用决策树进行数据挖掘中的信息熵计算   总被引:19,自引:1,他引:19  
张维东  张凯  董青  孙维华 《计算机工程》2001,27(3):71-72,89
介绍了怎样通过信息量和熵的比较来构造一个决策树的数据挖掘算法,并且就一些特殊的地方进行了讨论分析,例如怎样处理高分枝属性,数值属性和缺失数据以及怎样剪枝,利用模型系统的一些源代码来具体地实现算法中的一些模块,并且描述了国内外的有关数据挖掘的研究情况。  相似文献   

3.
基于局部信息熵的加权子空间离群点检测算法   总被引:7,自引:0,他引:7  
离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象.“维度灾殃”现象的存在使得很多已有的离群点检测算法对高维数据不再有效.针对这一问题,提出基于局部信息熵的加权子空间离群点检测算法SPOD.通过对数据对象在各维进行邻域信息熵分析,生成数据对象相应的离群子空间和属性权向量,对离群子空间中的属性赋以较高的权值,进一步提出子空间加权距离等概念.采用基于密度离群点检测的思想,分析计算数据对象的子空间离群影响因子,判断是否为离群点.算法能够有效地适应于高维数据离群点检测,理论分析和实验结果表明算法是有效可行的.  相似文献   

4.
基于信息熵的空间对象群聚类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
刘建兴  鲍培明 《计算机工程》2011,37(16):176-178
针对利用空间关系建立空间对象群聚类的问题,提出一种基于信息熵的空间对象群聚类算法ESOGC。该算法考虑空间数据的复杂性和数据之间的联系,根据邻域范围内信息熵的变化情况,捡起或放下当前空间对象群,从而实现对空间对象群的聚类。实验结果表明,该算法能解决空间对象群中对象类型、对象属性值和对象数量不一致性的问题。  相似文献   

5.
基于信息熵理论和抽样测试的数据挖掘   总被引:2,自引:0,他引:2  
该文综合利用香农(Shannon)信息熵理论以及抽样测试理论,对数据库中的关系属性规则进行挖掘。这种全新方法从定性与定量相结合的角度来考虑问题,完全不同于传统算法的支持度-可信度框架,可以有效减少对数据库扫描的次数。  相似文献   

6.
基于邻接关系的空间数据挖掘   总被引:17,自引:0,他引:17  
空间邻接关系是空间数据库对象之间的特征联系,其处理过程直接影响着空间数据挖掘算法的实现与效率,基于3种邻接关系,给出了邻接图,邻接路径的概念和几个基本操作,并分析了几种典型的空间数据挖掘算法。  相似文献   

7.
基于云模型的Web日志数据挖掘技术   总被引:1,自引:0,他引:1  
提出了一种基于云模型理论测试网页对访问者吸引程度的Web日志挖掘方法,协助管理者优化站点结构,改善Web信息服务质量。  相似文献   

8.
基于图像信息熵的商标图像检索   总被引:5,自引:0,他引:5  
提出了一种基于图像信息熵的商标图像检索系统,该系统使用图像的单元熵作为特征来描述图像形状,用欧氏距离来度量熵矢量间的相似性。用1310幅图像构成的数据库进行实验,结果表明,该系统输出的相似图像与人的视觉感应吻合性较好,并且具有了的比例不变性较好,并且具有很好的比例不变性,抗噪声性和抗和浓谈性。  相似文献   

9.
基于信息熵和聚类分析的评价模型   总被引:1,自引:0,他引:1  
建立一个基于信息熵和聚类分析的评价模型,由信息熵确定指标权重,并通过聚类分析进行综合评价。通过实例分析验证该模型的有效性。  相似文献   

10.
空间数据挖掘发展研究   总被引:8,自引:1,他引:8  
空间数据挖掘是指对空间数据库中非显式存在的知识、空间关系或其它有意义的模式等的提取,在地理信息系统、地理市场、遥感、图像数据勘测、医学图像处理、导航、交通控制、环境研究等各种领域有着广泛的应用。该文从空间数据挖掘的定义、过程、特征和任务等方面对空间数据挖掘技术进行了研究,并介绍了一个空间数据挖掘原型—GeoMiner和未来的研究方向。  相似文献   

11.
微博作为一种新型的社会媒体,以其信息的高实时性、话题动态关注、传播速度快的特点,逐渐被人们所接受和使用。筛选出相关话题的微博信息,帮助用户关注话题的动态发展,成为迫切需要解决的问题。由于微博信息篇幅极短、包含的信息和特征少等特点,为相关话题微博信息的筛选带来了新的挑战,而传统的文本分类技术已不再适用。该文提出了基于信息熵的筛选规则学习算法,利用学习得到的规则对微博信息进行有效的筛选。算法利用信息熵来评价规则的好坏,同时基于模拟退火的随机策略使算法中的规则选择避免了过于贪心。分别通过来自新浪微博的约九万条标注数据和TREC2011中约三千条特定话题的标注数据进行实验,该文算法相比于CPAR和SVM算法,学习得到的规则在筛选时取得了较高的F值。  相似文献   

12.
基于信息熵构造判定树的数据挖掘算法的设计与实现   总被引:6,自引:0,他引:6  
该文讨论了信息量或熵构造判定树的数据挖掘算法,阐明了算法中如何处理高分枝属性、数据清理及剪枝等关键环节,并说明了具体实现方法。  相似文献   

13.
指挥信息系统为军事作战系统提供正确的决策辅助。针对现代军事活动中"数据爆炸但知识贫乏"的现象,提出了一种基于XML规范的数据挖掘模型。该模型可以为指挥决策人员提供智能的、自动化的辅助手段,从而极大地提高作战指挥效能和整体作战能力。  相似文献   

14.
关联规则挖掘是数据挖掘的重要方面;纳税异常管理是税收管理的核心内容。本文以“对纳税异常进行关联规则挖掘”为研究对象,提出了建立纳税异常星型模式的思想,设计并实现了纳税异常数据模型,给出了在此模型上进行关联规则挖掘的应用实例。  相似文献   

15.
基于数据挖掘的入侵特征建模   总被引:6,自引:0,他引:6  
通过分析数据挖掘技术在入侵特征搜寻中的作用,提出了一个应用在基于网络和主机的混合模式入侵检测系统中的特征挖掘模型。该模型的特点是完全运用数据挖掘技术来建模,不仅对各种已知和未知入侵行为具有很好的辨别度,而且非常适合于现在流行的混合模式的入侵检测系统。  相似文献   

16.
数据挖掘技术在烟草企业中的应用   总被引:6,自引:0,他引:6  
虞文进 《计算机工程》2002,28(4):268-270
介绍了烟草企业销售主题数据仓库的构建方法和运用数据挖掘技术深入进行客户分析、市场分析、产品分析、促销分析、预警分析的思路,论述烟草企业运用数据挖掘技术,提高企业信息管理水平,是使企业建立以客户为中心的经营模式和提高企业竞争力的支撑。  相似文献   

17.
本文首先对数据挖掘技术进行了系统的分析和说明,并详细叙述了数据挖掘的过程以及几种技术和方法,最后对数据挖掘技术在各个领域的应用做了叙述。  相似文献   

18.
数据挖掘与机器学习技术日益趋向成熟并且被广泛应用于实际问题的处理中,但该领域仍面临着诸多挑战,如不平衡数据集分类问题.利用过采样技术处理这类问题时,通常只考虑数量的不平衡,而不考虑数据分布是否平衡.利用信息熵度量数据集的局部密度信息,从分布上考虑数据集的不平衡程度,并提出了基于熵的危险集的概念和它的三种使用策略,即基于...  相似文献   

19.
基于时间衰减模型的数据流频繁模式挖掘   总被引:1,自引:0,他引:1  
吴枫  仲妍  吴泉源 《自动化学报》2010,36(5):674-684
频繁模式挖掘是数据流挖掘中的重要研究课题. 针对数据流的时效性和流中心的偏移性特点, 提出了界标窗口模型与时间衰减模型相结合的数据流频繁模式挖掘算法. 该算法通过动态构建全局模式树, 利用时间指数衰减函数对模式树中各模式的支持数进行统计, 以此刻画界标窗口内模式的频繁程度; 进而, 为有效降低空间开销, 设计了剪枝阈值函数, 用于对预期难以成长为频繁的模式及时从全局树中剪除. 本文对出现在算法中的重要参数和阈值进行了深入分析. 一系列实验表明, 与现有同类算法MSW相比, 该算法挖掘精度高(平均超过90%), 内存开销小, 速度上可以满足高速数据流的处理要求, 且可以适应不同事务数量、不同事务平均长度和不同最大潜在频繁模式平均长度的数据流频繁模式挖掘.  相似文献   

20.
关联规则发现中的聚类方法   总被引:2,自引:0,他引:2  
算法MARC(Mining Association Rules using Clustering)将聚类技术应用到关联规则的发现上,MARC利用聚类技术压缩交易数据库,从而减少开采算法需要处理的数据量以提高开采效率,同时算法提出了聚类汇总转换的概念用以减轻压缩数据带来的信息丢失.在几个实际数据集上的实验表明该算法可以达到高精度和高性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号