首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
数据挖掘中数据预处理的研究与实现*   总被引:18,自引:1,他引:17  
数据预处理将原始的真实数据库转换成适于数据挖掘的挖掘数据库,为挖掘算法更好的实现以及挖掘结果形象的显示打下了良好的基础。针对结构化数据讨论了数据预处理的两个目标:消除现实数据库中的数据缺陷;为数据挖掘做准备。并在此基础上,介绍了数据挖掘软件KDD中数据预处理技术的实现。  相似文献   

2.
金融时间序列的概念表示   总被引:1,自引:0,他引:1  
时间序列挖掘是数据挖掘技术的重要组成部分,本文针对常用的股票数据库信息,讨论了模糊划分的两种方法及如何对原始数据预处理,如何用云模型产生的语言变量来表示角度序列,如何将数值属性映射为离散的布尔属性表示。  相似文献   

3.
数据预处理将原始的真实数据库转换成适于数据挖掘的挖掘数据库,为挖掘算法更好的实现以及挖掘结果形象的显示打下了良好的基础。本文针对结构化数据讨论了数据预处理的两个目标:消除现实数据库中的数据缺陷;为数据挖掘做准备。  相似文献   

4.
数据挖掘技术在生源分析中的应用研究*   总被引:2,自引:0,他引:2  
对数据挖掘技术在生源分析中的应用进行了初步的探讨,目的是从大量的学生数据库中提取人们感兴趣的数据信息。建立一个基于数据挖掘的生源分析模型,包括数据预处理、算法的选择、创建数据挖掘模型、挖掘结果的分析处理以及结果可视化等。  相似文献   

5.
一个面向大规模数据库的数据挖掘系统   总被引:18,自引:0,他引:18  
钱卫宁  魏藜  王焱  钱海蕾  周傲英 《软件学报》2002,13(8):1540-1545
数据挖掘融合了数据库技术、人工智能和统计学,是目前的研究热点.为了能够集成当前数据挖掘的主要技术并使它们协同工作,在进行数据挖掘基本算法研究的基础上研制开发了一个数据挖掘系统--Golden-Eye.系统实现了在数据挖掘研究中的一些最新成果,集成了泛化、数据清洗这两个数据准备操作以及关联规则发现、例外规则发现、时序模式发现、分类器构造、聚类分析等基本数据挖掘操作,并实现了对挖掘操作的基本管理和结果的图形化显示.整个框架设计充分体现了系统的完整性、协调性和高效性:自底向上将存储控制模块、数据预处理模块、挖掘操作模块、挖掘库管理模块有机地结合在一起,在底层实现了对包括中间结果在内的数据的统一管理,在上层为用户提供了可视化的界面.实验结果表明,该系统能够在大规模数据库上成功地完成用户所指定的数据挖掘操作.  相似文献   

6.
中医药数据预处理方法的设计与实现   总被引:6,自引:2,他引:4  
钱增瑾  辛燕 《计算机工程与设计》2005,26(12):3199-3200,3218
中药作为一种天然药物,它由我国传统使用的植物、动物和矿物药及其成药组成,由于中药文化的地区差异使得中药中的不确定性较高,因此将关联规则发现算法应用于原始中药专利数据库发现规则,存在一定的难度。阐述了一套规范原始中医药数据的处理方法,改进了数据质量,使得数据挖掘技术可以在预处理后的中药方剂数据库中成功地发现中药单方之间的配伍规律,为研制中药新药提供决策信息。  相似文献   

7.
隐私保护是当前数据挖掘领域的一个研究热点,其目标是在不暴露原始数据信息的前提下准确地实现挖掘任务。针对隐私保护序列模式挖掘问题,提出了项集的布尔集合关系概念,设计了基于随机集和扰乱函数对原始序列库进行数据干扰的方法模型,并通过扰乱函数的特性还原出原始序列库的频繁序列模式的真实支持度,完成了在保护原始数据隐私的前提下准确地挖掘出频繁序列模式的任务。理论分析和实验结果表明,该方法模型具有很好的数据隐私保护性、挖掘结果准确性和算法执行高效性。  相似文献   

8.
“数据库主成份提取”方法及其应用   总被引:2,自引:0,他引:2  
庞大数据库中所蕴藏着丰富而有益的数据信息正随着数据挖掘技术的发展得到进一步分析和挖掘。数据仓库作为数据挖掘的重要平台,其质量的高低将直接影响数据挖掘的效率。构建数据仓库是数据预处理的主要目标之一,“数据库主成份提取”方法可以在信息损失最小的前提下,利用了一种降维的方法,用少数综合变量来概括原多变量的数据库,使重新构建的数据仓库的数据量相对减少,使得数据类的概率分布尽可能的接近使用所有属性的原分布,从而使重新构建的数据仓库中的数据挖掘更加容易执行和高效率。数据库主成份提取分析方法对主成份的解释可以进一步明确影响整个数据仓库构成的主要因素和构成数据仓库系统的主要特征。  相似文献   

9.
数据挖掘中的三维缩减   总被引:5,自引:0,他引:5  
1 引言在知识发现和数据挖掘技术的实际应用中,为了对大规模数据库进行高效处理,通常采用数据缩减的预处理方法。数据缩减(又称数据浓缩)就是将原始数据转换到某种更加紧凑形式而又不丢失有意义的语义信息的过程。有效的数据缩减方法不仅能显著削减数据量,提高知识发现效率,而且还可以简化学习获得的  相似文献   

10.
目前,许多高校都具有相应的排课选课系统,这些系统中存在着大量的原始数据。通过挖掘数据信息,可帮助高校相关部门进行教学资源合理分配,并设计出相应的排课选课系统。本文探讨了数据预处理和数据挖掘技术,并基于数据挖掘技术对高校排课选课系统的设计和实现进行了相应研究,通过使用关联规则中的相关算法对选课数据进行挖掘,得到了一些有价值的规则信息,并展现出了良好的应用效果。  相似文献   

11.
本文依据现有地物波谱数据采集标准和自定义标准,对矿区各类地物的波谱数据库结构进行了设计,采用基GDI+技术的波谱曲线可视化技术、基于关系数据库的波谱分类管理技术以及渡谱数据质量控制技术等,已经实现了针对于矿区植被大类的农作物属性信息和光谱数据的批量入库、查询、显示等,并通过自主开发的图形控件实现了光谱曲线的批量绘制和比较,为进一步的地物波谱数据应用提供了联动的、丰富的原始观测信息。  相似文献   

12.
基于隐私保护的序列模式挖掘   总被引:1,自引:1,他引:0  
基于隐私保护的数据挖掘是信息安全和知识发现相结合的产物.提出一种基于隐私保护的序列模式挖掘算法PP-SPM.算法以修改原始数据库中的敏感数据来降低受限序列模式的支持度为原则,首先构建SPAM序列树,根据一定的启发式规则,从中获得敏感序列,再进一步在原始数据库中找到敏感数据,对其做布尔操作,实现数据库的清洗.实验表明,该算法在完全保护隐私的情况下,对于D6C10T2.5S4I4数据集,当修改3.5%的原始数据后,其序列模式丢失率为2%.  相似文献   

13.
基于Multi-agent技术的知识发现新模型KDD的设计   总被引:3,自引:0,他引:3  
KDD模型是基于双库协同机制的知识发现新模型,是结构化数据挖掘领域研究的一个新的分支。为了进一步提高KDD的智能性,文章设计了一个基于Multi-agent技术的智能数据挖掘系统。利用多智能体技术,实现了数据预处理、数据挖掘、知识的自动获取、基础数据库与知识库的同步进化与协调、知识的评价与表示等功能,为智能信息系统的发展提供了重要支持。  相似文献   

14.
决策树在XML数据库挖掘中的研究   总被引:2,自引:1,他引:1  
传统数据挖掘是基于关系型数据库的,XML技术的出现,使它在短时间内成为表示和交换信息的标准,为数据挖掘提供了新的方法.对决策树、XML技术作了简要介绍,并对基于XML的数据挖掘基本过程进行了探讨研究,提出了一种决策树在XML数据库挖掘的分析模型.最后,通过一个实例来说明如何利用这个模型进行数据挖掘,并指明了今后的研究方向.  相似文献   

15.
大数据时代,人们获取所需信息的困难度提高,而数据挖掘是当下解决此问题的关键技术。Apriori算法作为数据挖掘中的常用算法,通过挖掘数据背后的潜在关联规则。考虑到传统Apriori算法执行过程中,数据扫描频繁、候选集获取繁琐等问题,提出采用加权Apriori算法,即将冗余记录存储一次,并将记录的重复次数占全部记录数的比值作为权重,压缩空间;采用二进制的布尔矩阵替代原有数据集,通过矩阵内部“与运算”,获取最大频繁集,降低时间复杂度。考虑到原始数据冗余性以及粗糙集属性约简的不精确性,在提取关联规则前,提出采用多粒度粗糙集的属性约简算法,通过知识粒度细化属性值来提高约简精度,降低空间复杂度。最后,将所提方法与基于频繁矩阵的Apriori算法以及原始Apriori算法进行比较,验证所提方法的实用性和有效性。  相似文献   

16.
In this article we investigate an attribute-oriented induction approach for acquisition of abstract knowledge from data stored in a fuzzy database environment. We utilize a proximity-based fuzzy database schema as the medium carrying the original information, where lack of precise information about an entity can be reflected via multiple attribute values, and the classical equivalence relation is replaced with the broader fuzzy proximity relation. We analyze in detail the process of attribute-oriented induction by concept hierarchies, utilizing the original properties of fuzzy databases to support this established data mining technique. In our approach we take full advantage of the implicit knowledge about the similarity of original attribute values, included by default in the investigated fuzzy database schemas. © 2007 Wiley Periodicals, Inc. Int J Int Syst 22: 763–779, 2007.  相似文献   

17.
本文对某型航空发动机试车数据的数据挖掘技术应用作了研究。根据数据的特点采用粗糙集理论,研究了数据离散化处理,通过知识约简,形成了分类规则。结果表明,所得出的规则是正确的,为试车工作提供了有价值的决策信息。  相似文献   

18.
数据挖掘技术是指从数据集中发现有效的、新颖的、潜在有用的和最终可以理解模式的高级处理过程,FP-growth算法是数据挖掘算法的一种。FP-growth算法是一种基于FP-tree的频繁项集挖掘算法,此算法是将原始数据集压缩到一棵FP-tree上,对原始数据集进行两次扫描,挖掘过程不产生候选项集,不用候选测试的算法,它使用紧缩的数据结构,避免了对数据库的重复扫描,运算速度快。文中收集了乐购二手车交易平台2016年1月到2018年12月共3年的数据,系统中可供挖掘的模块包括:二手车信息模块,拍卖品管理模块,购物车管理模块,订单管理等信息模块。利用FP-growth算法对乐购二手车交易系统数据库中的车辆品牌、使用年限、车载人数、行驶里程、车辆价格、保养状况等信息进行整理、转换、对比、分析,从中发现二手车交易中的规律,挖掘用户购车和卖车的有关规律,提高了车辆的成交率。  相似文献   

19.
高智慧        邹广天     《智能系统学报》2018,13(2):214-219
针对海量住宅建筑设计信息的应用需求,借助学科交叉理论与方法,提出基于ArcGIS软件的可拓住宅建筑设计数据库构建方法。包括可拓住宅建筑设计数据的分类表达方法、数据信息整理、数据库的逻辑结构设计、图像数据与属性数据的匹配方法。在此基础上,基于某居住区实例构建数据库。实验结果表明,该方法能够将住宅建筑设计图像与属性信息分别转化为统一格式、可量化的结构数据库,并进行匹配,从而便于计算机识别,并形成高效的住宅数据存储平台,为可拓住宅建筑设计和后续的数据挖掘过程提供丰富的数据基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号