首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
随着各个领域数据量的与日俱增,数据仓库技术在进行海量数据资源的管理过程中,数据断层现象已经成为亟待解决的一个重要问题。断层的概念来源于地质学上对于由储层非均质性而引起的岩石断裂且两侧发生明显位移的构造描述,对能源开采、地震预防等问题具有重大的现实意义。借鉴地质断层的理论,引入数据断层的系列概念定义数据与数据之间发生局部位移的趋势,首次从宏观和微观两方面对数据仓库中的各种数据非均质现象进行知识描述,通过数据断层剖面的分析,系统地阐述数据预处理过程中的数据断层现象,给出数据断层在显隐断层、内间断层之间相互转化的规则和算法,初步形成了数据断层理论体系的基础,并通过实验验证了该理论的有效性。  相似文献   

2.
李衷怡  徐欣康 《微机发展》2007,17(10):16-19
通过二维断层图像进行三维对象重建是现今较为活跃的研究领域,而二维断层数据的质量将直接影响到三维重建的效果。提出了一种对医学断层离散数据在三维重建前进行预处理的方法,通过单层轮廓平面内平滑以及多层轮廓基于层间关系的B样条曲线拟合对原始数据进行了平滑处理,减少了重建后层与层之间的锯齿现象,使得在此基础上的三维重建效果得到了明显的改善。算法具有一定的通用性,同样适用于其它领域的数据处理。  相似文献   

3.
通过二维断层图像进行三维对象重建是现今较为活跃的研究领域,而二维断层数据的质量将直接影响到三维重建的效果。提出了一种对医学断层离散数据在三维重建前进行预处理的方法,通过单层轮廓平面内平滑以及多层轮廓基于层间关系的B样条曲线拟合对原始数据进行了平滑处理,减少了重建后层与层之间的锯齿现象,使得在此基础上的三维重建效果得到了明显的改善。算法具有一定的通用性,同样适用于其它领域的数据处理。  相似文献   

4.
为解决支持向量机(SVM)在处理无标签数据多类分类上的难题,提出了一种基于支持向量数据描述(SVDD)的无标签数据多类分类算法。该方法只需要建立一个分类模型就可以实现多类聚类分类。首先采用主成分分析作数据预处理,提取输入数据的统计特征值,得到主成分特征指标输入到SVDD分类器进行多类聚类分类。以珠三角地区物流中心城市分类评价为研究对象,实证结果表明,采用主成分分析降低了数据维度,有效浓缩了评估信息,SVDD分类器很好地区分了各中心城市,实现了多类分类的目的。  相似文献   

5.
大数据时代数据纷繁复杂,同时在数据挖掘过程中数据质量又至关重要,数据质量的高低将直接影响数据挖掘结果的好坏,但现实中数据缺失和噪声数据的现象在所难免。针对上述问题,通过引入空间对象的自相关性理论和模糊集理论,提出一种基于空间自相关性和模糊集的空间数据噪声点检测算法。该算法首先运用邻域对象的空间自相关性理论,计算出特定对象与邻域内其他对象的距离,进而将距离以模糊隶属度的概念予以表达,最后通过与该属性的置信水平进行比较,以此来判定噪声数据。理论分析和实验对比结果均表明,该算法对于处理空间数据噪声点问题是有效可行的。  相似文献   

6.
以陕西工业职业技术学院校园"一卡通"中教职工交易流水数据为研究对象,通过对提取的数据进行预处理、整理与分析、最终实现数据可视化,以满足后勤餐饮部门的管理要求。提取了118249条交易数据,使用Python、SPSS 24、Excel 2010对数据进行预处理和统计分析。首先,讨论了职工餐厅与学生餐厅中教职工消费数据的综合关系;然后,整体研究了职工餐厅近一年来消费情况;最后,从不同方向进一步研究教职工的就餐规律,为学校优化资源配置和科学决策提供参考依据。  相似文献   

7.
银行信用卡分类挖掘数据的预处理   总被引:9,自引:0,他引:9  
翟凌慧  马少平  唐焕玲 《计算机工程》2003,29(11):195-196,F003
描述了信用卡数据分类挖掘中的数据预处理过程,先从纷杂的应用数据中选择与分析主题有关的数据表,经过一系列数据库操作,从这些数据表中获得样本的输入信息,然后从交易历史信息中抽象出对样本分类的相关参数,将分类标准量化后得到对样本的分类。最后经过数据规格化、异常处理、缺失处理等数据清理方法对样本数据进行加工,得到分类挖掘所需的样本数据。  相似文献   

8.
高质量的决策依赖于高质量的数据,数据预处理是数据挖掘至关重要的环节.传统的数据预处理系统并不能很好的适用于大数据环境,企业现阶段主要使用Hadoop/Hive对海量数据进行预处理,但普遍存在耗时长、效率低、无交互等问题.提出了一种基于Spark的交互式数据预处理系统,系统提供一套通用的数据预处理组件,并支持组件的扩展,数据以电子表格的形式展现,系统记录用户的处理过程并支持撤销重做.本文从数据模型、数据预处理操作、交互式执行引擎以及交互式前端四个方面描述了系统架构.最后使用医疗脑卒中的真实数据对系统进行验证,实验结果表明,系统能够在大数据场景下满足交互式处理需求.  相似文献   

9.
时空轨迹数据的获取变得越来越容易,轨迹数据刻画了移动对象的行为模式与活动规律,是对移动对象在时空环境下的移动模式和行为特征的真实写照,在城市规划、交通管理、服务推荐、位置预测等领域具有重要的应用价值。这些过程通常需要通过对时空轨迹数据进行模式挖掘才能得以实现。简述了轨迹数据挖掘的预处理和基本步骤,归纳了异常轨迹检测方法的分类,分析、总结了近年来基于轨迹数据的四种模式挖掘,从管理决策角度对轨迹数据挖掘进行相关综述和分析,有望为轨迹数据的模式挖掘与管理决策提供必要的文献资料和理论基础。  相似文献   

10.
基于数据挖掘的中医药数据预处理方法   总被引:7,自引:0,他引:7       下载免费PDF全文
朱金伟  鞠时光  辛燕 《计算机工程》2006,32(15):280-282,F0003
中药文化的地区差异带来了中医药数据的众多不确定性,为解决基于数据挖掘的新药研制决策支持系统的数据问题,提出了一套规范原始中医药数据的处理方法。应用了数据归约技术、聚类的方法、模糊集理论改进了中医药数据的质量,使得在预处理后的中药方剂数据库中成功挖掘出重要规则,为研制中药新药提供了有力的决策支持。  相似文献   

11.
热点事件     
比亚迪转型之痛 最新销售数据显示,比亚迪连续第三个月出现同比负值。7月份高端车型M6的推出,释放出比亚迪转型的信号。比亚迪正借M6进军利润空间更大的中高级轿车市场,按照规划,比亚迪还将陆续推出i6、G6、S6,定位在B级车的i6,将是品牌旗下最高端的旗舰车型。而企业制定这个新车战略之时,完全没有想到其再次翻倍的计划将受到打击,  相似文献   

12.
动态的实时数据总是包含对应的时间信息,现有实时数据库技术没有充分考虑时间信息的建模问题;另一方面,大型实时数据库中数据存取效率的瓶颈在于磁盘的机械运动.提出了一种新型实时数据模型--钟面模型.建立了钟面模型与实时数据的时间属性之间的逻辑对应关系,分析了钟面模型与磁盘存储介质的圆柱状结构之间的逻辑对应关系,以及根据数据在逻辑钟面的偏移位置,确定数据在物理磁盘上的偏移位置的计算方法.初步研究结果表明基于钟面模型的实时数据模型及其对应的数据存取技术,可以减少磁盘的机械运动,缩短定位操作所消耗的时间,显著提高数据处理效率.  相似文献   

13.
模糊知识数据库数据模型及其实现技术   总被引:1,自引:0,他引:1  
本文提出一种能处理模糊知识的知识数据库数据模型,详细介绍了其模糊知识表示,模糊关系代数及不精确推理的实现策略。  相似文献   

14.
数据采集   总被引:1,自引:0,他引:1  
本文针对经济和管理领域计算机应用的新问题,运用系统工程思想,提出了数据采集概念,系统完整地归纳出在计算机信息系统各层次采集数据的通用方法及其基本原理,并分析对比各种方法的利弊,从而找到最适合广大非计算机专业的经济和各类管理人员使用的数据采集方法。  相似文献   

15.
数据可视化在数据挖掘中的应用   总被引:2,自引:0,他引:2  
数据挖掘是从大量历史数据中抽取潜在的、有价值的知识或规则的过程。数据可视化对于快速分析数据,表示高维数据方面非常直观、有效。本文首先讨论了几种可视化技术,随后就数据可视化在数据挖掘的模型、过程中的应用进行探讨。  相似文献   

16.
基于数据属性描述的数据过滤方法   总被引:1,自引:0,他引:1  
本文研究了已有的各种基于Web的信息系统数据过滤方法,评价了它们的优缺点和适用范围,并实现了一种基于数据属性描述的数据过滤新方法。通过合理配置数据过滤程序,提高数据过滤的效率。该数据过滤方法实现了数据过滤的灵活定制和软件复用,减少了开发人员的重复工作。  相似文献   

17.
数据集成中XML数据查询语义重写   总被引:10,自引:0,他引:10  
查询重写是数据库研究的一个基本问题,它和查询优化,数据仓库,数据集成,语义缓存等数据库问题密切相关,为提高集成系统的查询效率,系统选择提交频率较高的XML查询物化为中间层视图,用户提交查询后,系统尽可能利用中间视图层中视图,而不是访问数据源来回答查询,这个问题实际可以归结为半结构化查询重写问题,考虑到中间视图层空间的有限性,已有视图应当尽可能回答更多的查询,传统查询重写方法有考虑半结构化数据之间的约束,而根据约束可以等价变换查询,从而提高中间视图层中的表达能力,提出了一种新的半结构化查询重写的方法,该方法在保证算法正确性和完备性的基础上,利用上半结构化数据中的约束,尤其是XML文件中的路径依赖,来增强中间层物化视图的表达能力,理论分析和初步原型实验证明方法的有效性。  相似文献   

18.
kddcup99数据集的网络连接数据量很大,各特征属性的取值范围较广,决策类型的种类也很多。因此,如果直接在原数据集上进行数据预处理或是数据挖掘都将是一件十分困难的事情。通过对kddcup99进行数据分析,提出一种对其按照service属性的不同进行分块的新思路,在不失真的前提下,将大问题转化成小问题,从根本上解决了数据集过大的难题。  相似文献   

19.
结合大数据的特点和语义Web的理论,对大数据中的RDF语义数据的描述和存储进行研究。分析各种数据库存储RDF语义数据的优点和缺点,指出图数据库存储RDF语义数据的优势。最后采用Neo4j开源Java代码实现了一个图数据库系统,通过运行实例验证了以上结论。  相似文献   

20.
作为网络服务的底层硬件平台,数据中心的网络拓扑结构及工作机制对于上层的应用服务的性能具有决定性的作用。传统数据中心采用的树形分层结构已经难以满足新一代网络服务的需求,特别是在数据流的应用上传统的网络结构更加无法适用。因此,提出一种针对流数据处理的新型模块化数据中心拓扑构建方式并设计以服务器为中心的路由算法。该方案采用低造价的商业级交换机构建数据中心网络,在降低构建造价的同时提高网络的吞吐量及容错性能。实验表明,所提出的拓扑结构及路由算法在流数据处理上的网络吞吐量表现优于传统的树形结构并且具有更好的容错性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号