首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
数据约简是包括数据压缩、数据调整和特征提取在内的数据挖掘技术中的重要课题,但已有的数据约简方法主要聚焦在特征或者维度的约简,而针对样本个数的约简方法,往往是针对具体的数据集开发,缺乏一般性.针对数据集中数据分布的一般特征,定义一种新的基于张开角的测度.该测度能够区分数据集中核心对象和边界对象分布的本质区别,实现数据集中以核心对象为中心的数据压缩.通过对UCI公共测试平台上20个具有不同特征的典型样本集进行数据约简和测试,结果表明:约简能够有效地提取数据集中的核心目标;通过对约简前后数据集采用经典K均值算法聚类,发现约简后数据集中聚类正确率明显高于约简前数据集.  相似文献   

2.
基于遗传算法的误差因子粗糙集模型   总被引:2,自引:0,他引:2  
粗糙集方法是数据挖掘的重要方法之一.针对当前粗糙集属性约简启发式方法的不足,本文提出了一个基于遗传算法的误差因子粗糙集模型.通过融合遗传算法,消除属性简约中约简属性相对集中的问题.通过引入误差因子,消除噪声数据的影响.利用关系型数据库的关系演算实现了算法,克服了基于文本方法的不足.通过一个舍有噪声的决策表实验,表明该模型是一个有效的算法改进.  相似文献   

3.
基于粗糙集理论的属性约简算法   总被引:5,自引:1,他引:4  
粗糙集理论是一种新的数据挖掘方法,其主要思想是保持分类能力不变的情况下,通过属性约简,达到发掘知识并简化知识的目的.从大量数据发现知识时,属性约简是一个关键问题.在理解和分析基于粗糙集理论的数据挖掘算法基础上,提出了一个基于属性依赖度的属性约简算法.实验结果表明,该算法能更有效地对决策系统进行约简.  相似文献   

4.
基于小波尺度系数的民航QAR数据约简及其性能分析   总被引:3,自引:0,他引:3  
民航班机的快速存取记录仪(QAR)记录了大量的飞行和性能参数,QAR数据的约简是对这些数据进行数据挖掘的一个重要环节.针对民航QAR数据的特点及为数据约简后应用数据挖掘算法的需要,在小波变换相关理论分析的基础上,提出了利用小波尺度系数进行QAR时间序列数据约简的方法及其性能分析方法,确定了相应的性能评价指标.实验结果表明了该方法对QAR数据约简的正确性及时域、频域数据特征兼顾,数据的主要特征失真小等优点.  相似文献   

5.
数据挖掘是近年来数据库领域中出现的一个新兴研究热点,它是从大量数据中获取知识。进行数据挖掘的方法很多,粗糙集方法便是其中的主要方法之一。属性约简算法是基于粗糙集理论的数据挖掘模型中的关键步骤,同时也是粗糙集理论研究中的一个研究重点。通过对粗糙集理论的属性约简算法的深入研究,本文提出了一种改进的属性约简启发式算法。该算法建立在可辨识矩阵计算基础上。改进算法基于Hu的算法与Jelonek算法,在计算可辨识矩阵的基础上,保证最终能够找到决策信息系统的一个约简,同时较Jelonek算法相比,运算时间明显减少。  相似文献   

6.
属性约简是应用粗糙集理论进行数据挖掘有效的方法之一,HORAFA属性约简算法它的不足之处在于约简效率和完备性.应用粗糙集对知识分类的特点,建立了新的数据挖掘模型.在模型的属性约简模块中,详细分析了HORAFA算法,提出了对其改进的HORAFA-AFVDM算法.该算法是在核中依次加入属性重要性最大的属性a,对于Red=Red è{a},当POSred-ai(D)=POSC(D)时删除a,直到不能再删为止,保证了算法的完备性.实验在MATLAB环境下实现,算法的测试数据来源于UCI数据集,通过对改进前后两种算法的比较,证实了改进后算法从属性约简效率和算法运行时间上均比之前的算法有显著的提高,文中将该数据挖掘模型应用到短信数据挖掘系统中.  相似文献   

7.
徐袭  刘玉波  范学鑫 《微计算机信息》2007,23(18):174-175,178
针对大量连续属性值的数据挖掘,提出了一种基于模糊工具箱和ROSETTA软件的粗糙集数据挖掘方法.在粗糙集理论的基础上,应用模糊工具箱中的模糊聚类方法离散分类连续属性值,并将其转化为粗糙集易于处理的知识表格.应用粗糙集数据挖掘软件ROSETTA对这些知识表格进行知识约简处理.通过约简知识属性和属性值,得到连续属性值的核心知识规则,并以实测数据为例,说明了该方法的实现过程和有效性.  相似文献   

8.
本文提出了一种基于粗糙集理论和遗传算法的方法,即对样本数据的属性集进行约简后通过遗传算法对约简后数据进行数据挖掘,并将该方法应用在教学质量评估中.通过实例验证了该方法使得评估结果更加科学、客观,具有实用性和可行性.  相似文献   

9.
基于核属性依赖的属性约简算法研究   总被引:1,自引:0,他引:1  
路松峰  胡波 《计算机仿真》2007,24(4):69-71,107
数据库中的数据往往含有大量冗余或不必要的属性,严重降低了数据挖掘算法的时间效率和算法质量,因此删除数据的冗余属性和无关属性即属性约简就成了数据预处理过程中的主要任务,而粗糙集理论是处理属性约简的一个非常实用的理论工具.在深入研究粗糙集理论的基础上,结合数据库操作知识给出了基于核属性依赖的属性约简新方法.该算法能过滤掉属性集合中的无关属性和冗余属性,从而得到满意的属性约简,该算法复杂度较小.实验结果证明了该算法有效.  相似文献   

10.
知识约简是基于粗集理论进行数据挖掘的重要步骤获取最优知识约简是典型的Np-hard问题.在实际应用中,数据属性往往具有成本约束,并且数据本身含有噪声.本文提出了将粗集理论与遗传算法相结合来求解这种信息表的最优知识约简和近似知识约简的方法实验结果表明该方法具有很强的全局搜索能力,在有限的代数内找到信息表的最优约简:最小基约简集、最小成本约简集.当信息表含有噪声数据时,该方法能找出信息表的近似知识约简.  相似文献   

11.
数据仓库是连接底层数据源与上层应用的枢纽。该文介绍了数据仓库的填充(与数据源的连接)和数据仓库的访问(与应用界面的连接)技术,包括与数据库数据源和非数据库数据源的连接以及采用组件工具访问数据仓库的方式和实现方法。  相似文献   

12.
为了解决实际问题,大数据分析处理系统需要获取数据,然而实际场景中收集到的实际数据通常不完备.另外,大多数问题的解决方案通常是由问题引导或者仅仅进行数据分析,运行参数调整和设定带有较大的盲目性,难以达到应用的智能性.为此,文中提出平行数据的概念和框架,根据实际数据经计算实验产生真正的虚拟大数据,结合默顿定律,以期待的解决方案与问题进行广义对偶,引导大数据聚焦到实际问题.实际数据与虚拟数据动态互动,平行演化,形成一个虚实相生、数据动态变化的过程,最终使数据具备智能,进而解决未知的问题.平行数据不但是一种数据表示形式,更是一种数据演化机制与方式,其特色是虚实互动,所有数据的动力学轨迹构成了数据动力学系统.平行数据为数据处理、表示、挖掘和应用提供了一个新的范式.  相似文献   

13.
吴昊 《电脑学习》2001,(2):36-37
为有效地解决实际问题,可能要使不同语言进行混合编程,这样就涉及到数据的传递和不同类型的数据文件之间的转换,这里讨论几种常用数据交换问题。  相似文献   

14.
陈元  陈文伟 《计算机工程》2000,26(10):9-10,85
通过定义SOL数据挖掘抽取器,设计了数据挖掘算法和数据库管理系统的接口的框架体系。并通过一个常用的数据挖掘算法简单贝叶斯算法说明了这种标准的SOL数据挖掘抽取器的适用性。  相似文献   

15.
Making a business decision using data from severaldifferent enterprise databases can be complicated. Data warehousesconsolidate data into a central repository and give you the OLAP toolsnecessary to retrieve data pertinent to the solution.DefinitionA data warehouse is used to consolidate this data into a central storeand to arrange it to make analysis easier, which means the data is lessnormalized than your traditional application database. Data is typicallytransferred in batch to the centra…  相似文献   

16.
数据仓库中的数据提取   总被引:18,自引:2,他引:16  
连立贵  金凤  蔡家楣 《计算机工程》2001,27(9):61-62,99
数据仓库的思想和工具在企业中得到了越来越广泛的体现和应用,在当前典型的数据仓库应用中,数据仓库的填充或者说数据的提取,转换和加载是设计人员遇到的最大挑战之一,预计在数据仓库的设计过程中,80%的努力都将用于此过程。该文从工程角度介绍了数据提取、转换和加载的过程和实现方式,并介绍了4种可灵活应用的数据提取方法。  相似文献   

17.
数据转换过程的串行化方法   总被引:2,自引:1,他引:2  
随着数据仓库和数据集成的发展,数据清洗的工作越来越多,用户在进行数据清洗时需要对数据的内容进行多次处理。在设计清洗的建模过程中,用户可能对同一个数据进行多次的清洗和转换处理,由于步骤多,用户往往不知道清洗和转换步骤出现错误。该文对前述问题进行论述,并针对这种清洗和转换处理中的赋值冲突和范围冲突提出解决方法。  相似文献   

18.
数据仓库中数据质量控制研究   总被引:18,自引:1,他引:18  
随着数据仓库的深入应用,数据质量问题成为关系到数据仓库建设成败和数据能否有效应用的重要关键问题。该文首先讨论数据仓库环境下存在的数据质量问题以及保证数据质量的重要性,然后提出数据质量的度量和评价指标,最后给出了数据仓库实施和运行过程中数据质量控制的数据质量成熟度模型和保证仓库数据质量的方法。  相似文献   

19.
面向客户数据仓库的数据集成方法   总被引:3,自引:0,他引:3  
数据集成问题是建立数据仓库过程中的重要问题之一,而客户资料又是其中最难以集成的数据,对于该问题目前还没有一个很好的解决方法。我们总结在实际实践中取得的经验,提出了一套切实可行的解决方案,同时兼顾了集成效率和准确率两方面因素,实际应用效果比较理想。  相似文献   

20.
数据仓库中的数据集成转换   总被引:2,自引:0,他引:2  
本文首先提出了数据仓库中数据集成的一个总体框架,然后列举了在数据转换中可能遇到的主要问题,最后根据这些转换规则,给出了一种描述性脚本语言来描述这些规则,继而给相应的处理模块解析处理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号