共查询到20条相似文献,搜索用时 78 毫秒
1.
随着我们对地学信息的不断深入理解与应用,地矿勘查工作所面临的是海量信息与数据—"数据海洋"。数据量越来,数据处理越困难。如何及时有效地分析处理这些海量数据,从数据背后挖掘出隐藏着的重要信息,为决策起到重要的支持作用,数据挖掘也就应运而生。 相似文献
2.
3.
基于局部信息熵的加权子空间离群点检测算法 总被引:7,自引:0,他引:7
离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象.“维度灾殃”现象的存在使得很多已有的离群点检测算法对高维数据不再有效.针对这一问题,提出基于局部信息熵的加权子空间离群点检测算法SPOD.通过对数据对象在各维进行邻域信息熵分析,生成数据对象相应的离群子空间和属性权向量,对离群子空间中的属性赋以较高的权值,进一步提出子空间加权距离等概念.采用基于密度离群点检测的思想,分析计算数据对象的子空间离群影响因子,判断是否为离群点.算法能够有效地适应于高维数据离群点检测,理论分析和实验结果表明算法是有效可行的. 相似文献
4.
5.
基于信息熵理论和抽样测试的数据挖掘 总被引:2,自引:0,他引:2
该文综合利用香农(Shannon)信息熵理论以及抽样测试理论,对数据库中的关系属性规则进行挖掘。这种全新方法从定性与定量相结合的角度来考虑问题,完全不同于传统算法的支持度-可信度框架,可以有效减少对数据库扫描的次数。 相似文献
6.
基于邻接关系的空间数据挖掘 总被引:17,自引:0,他引:17
空间邻接关系是空间数据库对象之间的特征联系,其处理过程直接影响着空间数据挖掘算法的实现与效率,基于3种邻接关系,给出了邻接图,邻接路径的概念和几个基本操作,并分析了几种典型的空间数据挖掘算法。 相似文献
7.
8.
9.
10.
空间数据挖掘发展研究 总被引:8,自引:1,他引:8
空间数据挖掘是指对空间数据库中非显式存在的知识、空间关系或其它有意义的模式等的提取,在地理信息系统、地理市场、遥感、图像数据勘测、医学图像处理、导航、交通控制、环境研究等各种领域有着广泛的应用。该文从空间数据挖掘的定义、过程、特征和任务等方面对空间数据挖掘技术进行了研究,并介绍了一个空间数据挖掘原型—GeoMiner和未来的研究方向。 相似文献
11.
微博作为一种新型的社会媒体,以其信息的高实时性、话题动态关注、传播速度快的特点,逐渐被人们所接受和使用。筛选出相关话题的微博信息,帮助用户关注话题的动态发展,成为迫切需要解决的问题。由于微博信息篇幅极短、包含的信息和特征少等特点,为相关话题微博信息的筛选带来了新的挑战,而传统的文本分类技术已不再适用。该文提出了基于信息熵的筛选规则学习算法,利用学习得到的规则对微博信息进行有效的筛选。算法利用信息熵来评价规则的好坏,同时基于模拟退火的随机策略使算法中的规则选择避免了过于贪心。分别通过来自新浪微博的约九万条标注数据和TREC2011中约三千条特定话题的标注数据进行实验,该文算法相比于CPAR和SVM算法,学习得到的规则在筛选时取得了较高的F值。 相似文献
12.
基于信息熵构造判定树的数据挖掘算法的设计与实现 总被引:6,自引:0,他引:6
该文讨论了信息量或熵构造判定树的数据挖掘算法,阐明了算法中如何处理高分枝属性、数据清理及剪枝等关键环节,并说明了具体实现方法。 相似文献
13.
14.
15.
16.
数据挖掘技术在烟草企业中的应用 总被引:6,自引:0,他引:6
介绍了烟草企业销售主题数据仓库的构建方法和运用数据挖掘技术深入进行客户分析、市场分析、产品分析、促销分析、预警分析的思路,论述烟草企业运用数据挖掘技术,提高企业信息管理水平,是使企业建立以客户为中心的经营模式和提高企业竞争力的支撑。 相似文献
17.
18.
19.
基于时间衰减模型的数据流频繁模式挖掘 总被引:1,自引:0,他引:1
频繁模式挖掘是数据流挖掘中的重要研究课题. 针对数据流的时效性和流中心的偏移性特点, 提出了界标窗口模型与时间衰减模型相结合的数据流频繁模式挖掘算法. 该算法通过动态构建全局模式树, 利用时间指数衰减函数对模式树中各模式的支持数进行统计, 以此刻画界标窗口内模式的频繁程度; 进而, 为有效降低空间开销, 设计了剪枝阈值函数, 用于对预期难以成长为频繁的模式及时从全局树中剪除. 本文对出现在算法中的重要参数和阈值进行了深入分析. 一系列实验表明, 与现有同类算法MSW相比, 该算法挖掘精度高(平均超过90%), 内存开销小, 速度上可以满足高速数据流的处理要求, 且可以适应不同事务数量、不同事务平均长度和不同最大潜在频繁模式平均长度的数据流频繁模式挖掘. 相似文献
20.
关联规则发现中的聚类方法 总被引:2,自引:0,他引:2
算法MARC(Mining Association Rules using Clustering)将聚类技术应用到关联规则的发现上,MARC利用聚类技术压缩交易数据库,从而减少开采算法需要处理的数据量以提高开采效率,同时算法提出了聚类汇总转换的概念用以减轻压缩数据带来的信息丢失.在几个实际数据集上的实验表明该算法可以达到高精度和高性能. 相似文献