首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
通过数据概化,在多维属性的属性值概念分层上构造少量的具有抽象语义的元组来替换大量具有详细语义的原始元组,从而汇总数据表,这称作表语义汇总。给定原始数据表及其多维属性的属性值的概念分层,表语义汇总的目标是产生规定压缩率且保留尽可能多的语义信息的汇总表。现有算法采用在概化元组集合中寻找最佳概化元组组合的策略将其转换成Set-Covering问题来解决,尽管采取了多种优化策略(如预处理、分级处理)来提高效率,但仍存在转换开销大、算法框架复杂且不易扩展到高维属性等缺点。通过定义多维属性层次结构的度量空间将该问题转换为多维层次空间聚类问题并引入dewey编码来提高转换效率,提出了基于快速收敛的层次凝聚和基于层次空间分辨率调整的两种聚类算法来高效地建立语义汇总表。经真实数据集上的实验表明,新算法在执行效率和汇总质量上都优于现有方法。  相似文献   

2.
孙翀  卢炎生 《计算机科学》2013,40(8):165-171
将原始图中节点分配到多个分组并根据原始边来确立分组间关系,这样得到的图称作汇总图。汇总图的规模可以由用户设定,用户可以通过浏览小规模的汇总图来获得原始图的相关信息。K-SGS方法是一种新的基于节点概念分层的图汇总算法,它解决了传统K-SNAP算法的汇总图规模参数受限问题。为了解决该问题,算法引入了节点的属性值概念分层,从而增强了图汇总过程中节点分组的灵活性:不仅可以合并同值的节点,还可合并具有相似值的节点。除了关注汇总过程中边的信息损失外,K-SGS方法还关注节点的信息损失,它将图汇总问题建模成多目标规划问题,并通过分层序列法和基于分级的统一评价函数两种不同策略来解决该问题。算法上,提出了快速的层次聚类方法,使得每轮可以合并多个聚类,从而提高效率。经数据集上的实验表明,新算法能生产各种规模参数的汇总图,并具有较好的汇总质量。  相似文献   

3.
在联机分析处理(OLAP)中,有效地维度模型对海量数据的即席复杂分组聚集查询起着关键的作用.在偏序和映射的基础上,通过定义层次有序维,提出一种基于层次有序维的分组聚集算法.该算法利用维属性之间的聚集关系,通过约束层次链中的元素次序,实现了分组聚集计算中多表连接转换为维范围的查询,提高了连接和聚集效率.最后,实验结果验证了该算法的有效性.  相似文献   

4.
在ROLAP中往往涉及到大量数据的复杂即席查询,从SQL角度看,这些查询通常都包含多表连接和分组聚集操作。本文提出了一种连接和聚集操作的新算法JAMDHBJI,该算法充分考虑了ROLAP中复杂多维层次的特点,同时考虑到并非全部维都具有维层次的语义特性,将维层次编码和位图连接索引有效结合,把复杂的连接和分组聚集操作转化为在事实表上的区域查询,从而大大提高了连接和分组聚集的效率。理论分析表明该算法是高效的。  相似文献   

5.
广东发展银行大连分行的计算机网络以AS/400小型机为中心,在银行综合业务处理系统的基础上,又依据数据仓库的管理思想开发出一套基于Web的金融MIS系统,主要数据源通过Symbiator(数据复制工具)将数据实时采集到NT服务器上的MicrosoftSQL Server数据库中,构成了实时的Intranet企业网。用户端可使用浏览器方便的进行银行各项动态信息的查询,特别是该系统具有开放、通用、先进、易扩展的性能,可在此基础上进一步开展银行的网上业务,为广大客户提供方便、多样的服务。银行业务数据主要有银行内部帐数据(科目帐)和分户帐数据(客户帐),两类前台综合业务处理系统存储的数据只是为满足联机交易(OLTP)和生成银行报表的时点数据,要根据原始数据进行平均、汇总、分析预测(OLAP)比较困难。定时将前台帐务型数据经过过滤、转换,抽取到后台数据库中按时间序列(随时间变化)长期保存,并按数据用途、种类(主题)划分成不同的数据集市。再将数据集市中的数据在时间、业务种类、所属机构等几个维度上进一步进行层次划分和数据聚合处理(集成),如时间维可划分为按日→按月→按季→按年汇总的数据,机构维可划分为按网点→按支行→按分行汇  相似文献   

6.
大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要.  相似文献   

7.
随着数据采集技术的发展,人们获取数据的途径呈多样化,所得到的数据往往具有多个视图,从而形成多视图数据。利用多视图数据不同的信息特征,设计相应的多视图学习策略以提高分类器的性能是多视图学习的研究目标。为更好地利用多视图数据,促进降维算法在实际中的应用,对多视图降维算法进行研究。分析多视图数据和多视图学习,在典型相关分析(CCA)的基础上追溯多视图CCA和核CCA,介绍多视图降维算法从两个视图到多个视图以及从线性到非线性的演化过程,总结各种融入判别信息和近邻信息的多视图降维算法,以更好地学习多视图降维算法。在此基础上,对比分析多视图降维算法的特点及存在的问题,并对未来的研究方向进行展望。  相似文献   

8.
1.引言黑龙江信息资源网统计信息处理系统充分利用黑龙江信息资源网的基础信息,整合、处理和规范各类统计数据信息,满足以表格形式对各数据信息的收集、汇总、分析和服务领导决策的需求。该系统要求集数据填报、审核、汇总、分析和发布等功能于一体,同时要有基于图、表的简单直观表达和综合查询统计分析功能,方便为各部门和各级领导提供决策依据。2.设计思想整个系统设计采用了典型的多层体系架构,包括以下几个层次:(1)前段展现层:前段展现部分采用WEB方式,各类用户通过身份验证机制均可使用浏览器通过统一的信息门户对系统进行访问,用户…  相似文献   

9.
在线论坛中包含了大量的有用信息,通过检索论坛中的数据用户可以方便地获取所需的知识,然而论坛数据的层次特征给内容检索提出了严峻的挑战。本文针对论坛数据的层次特征,提出了一种基于层次评分函数的多粒度搜索方法。首先,将论坛数据用树形层次结构表示,并基于多个因素提出了融合话题、发言、语句和单词多个粒度的层次评分函数。接下来,为了避免多种粒度的数据在返回结果中具有重复性,提出了一种有约束的返回结果最大化模型。最后,将返回结果最大化模型转化为最大独立集合问题,并给出了一种启发式优化算法。实验表明,本文提出的算法在检索论坛数据时不仅具有很好的效率,而且准确性非常高。  相似文献   

10.
基于邻域的top-◢N◣推荐算法利用隐式反馈数据建立排序模型,其算法性能严重依赖于相似度函数的表现。传统相似性度量函数在隐式反馈数据上会遇到数据过于稀疏和维数过高两个问题,稀疏数据不利于推荐模型选取光滑的邻域,过高的数据维数会导致维数灾难问题,导致推荐算法表现较差。为此提出一种基于表征学习方法的推荐算法,改进算法实现了基于二部图网络的多目标节点表征学习方法,在节点表征中通过嵌入不同层次的网络结构信息和适合推荐任务的次序信息来提升推荐性能。三个不同规模真实数据集上的实验结果表明,该算法相较于常用的基于隐式反馈的推荐模型具有更高的准确率和召回率,特别是针对大规模数据集能够有效缓解矩阵稀疏性问题和维数灾难问题,提高推荐性能。  相似文献   

11.
用于不均衡数据集的挖掘方法   总被引:2,自引:0,他引:2  
传统的分类算法大多是基于数据集中各类的样本数是基本均衡的假设的,而实际应用场合中面临的往往是不均衡数据。针对不均衡数据集,利用传统的分类方法往往不能获得良好的性能,因而研究用于处理不均衡数据集的分类方法就显得相当重要,本文对相关的研究做了综述。  相似文献   

12.
《软件工程师》2015,(8):3-5
随着社会信息大爆炸和大量数据的产生,数据挖掘成了广泛关注的话题。本文从Check-in签到事件的数据出发,回顾了基于LBS的数据分析和挖掘现状。通过对Gowalla数据处理与分析,统计签到事件的数据分布规律,分析用户的签到行为,发现Check-in的时间戳具有明显的规律性,体现了人们的工作休闲活动特点,进一步探讨了签到数据在用户的行为习惯分析及兴趣发现等方面的应用。  相似文献   

13.
《软件》2019,(10):6-10
随着大数据产业的飞速发展,数据泄露和信息泄露事件也越来越多,基于这种情况下,如何对数据有力的保护成为我们研究的重点内容,本文利用简单替换加密和维吉尼亚两种传统的算法对数据进行加密,利用模糊集里面的隶属函数的方法,对数据进行简单的模糊化处理,并且运用匹配度公式和模糊量词的方法,对数据信息进行进一步的泛化处理,对单数据源的信息的保护起到了预期的效果。  相似文献   

14.
基于Clementine的图书馆流通数据挖掘   总被引:1,自引:0,他引:1  
数字图书馆改变了传统图书馆的服务模式,同时也积累了大量的读者信息,为个性化服务提供了数据基础。本文重点研究聚类分析技术及其在图书馆中的应用,利用Clementine的两步聚类模型实现对读者的聚类分析,将读者聚类为消极型、一般型和积极型三种类型,针对不同类型的读者,图书馆可以提供相应的个性化服务。  相似文献   

15.
多维数据管理的数据仓库技术研究   总被引:2,自引:0,他引:2  
新一代信息系统对多维数据管理提出要求,而目前的数据库系统无法发现数据中存在的关系和规则,数据仓库技术已成为信息决策系统的研究热点。以数据仓库技术思想为核心,研究在关系数据库和现有低资源环境下,设计基于多维数据管理的分布式数据库及信息管理系统。  相似文献   

16.
数据仓库的数据抽取技术研究   总被引:7,自引:0,他引:7  
钟巧华 《计算机工程》2004,30(Z1):62-63
介绍了数据抽取的几种技术,包括静态数据的捕获、通过日志文件捕获、通过数据库触发器捕获、基于日期和时间标记的捕获、在 源应用程序中捕获、通过文件的比较捕获。阐述了各种技术的优缺点,以及在实际环境中对各种技术的选择。  相似文献   

17.
《软件工程师》2019,(3):32-34
随着信息技术和计算机科技的进一步发展,互联网应用普及,以往人们忽视的数据资源价值更加凸显,由此发展的大数据技术更是将这些海量的数据信息资源充分挖掘出来,实现数据资源转化为经济来源,为学校优化管理方式和优化课程设置、为企业制定生产和发展决策、为政府制定相关管理政策等都提供了有效的参考。大数据在数据处理中,用到的相关技术较多,掌握这些技术应用,对于进一步推动大数据发展具有重要意义。本文分析了大数据的数据特点,分析目前大数据数据处理中的关键技术,并针对大数据数据处理技术的进一步优化和应用,提出几点建议。  相似文献   

18.
QAR数据的数据融合算法   总被引:1,自引:0,他引:1  
分析了QAR数据中影响飞机性能衰减的主要因素,采用自适应加权数据融合算法和扩展卡尔曼滤波算法对相关性能参数进行了状态参量的估计,并验证了自适应加权融合算法在外界环境影响较小时的便捷性和外界环境影响过大时的局限性.引入扩展卡尔曼滤波算法,加入高斯噪声的计算,提高了状态估计值的精确度,为航空公司改善飞机运行提供了参考.  相似文献   

19.
随着信息化技术的快速发展,高校的信息系统日趋完善,各种信息系统如学习平台、教学和办公应用系统都运行在数据中心,数据中心存储了大量的业务信息.对高校数据中心存储的各类应用数据进行抽取、转化和处理,建立面向主题的数据仓库.对系统数据进行挖掘和探索式分析,以可视化驾驶舱的方式直观地展现学校的实际数据状态,通过对数据的可视化分析可以为学校在办学、人才培养和学生管理等方面提供数据支持和决策.  相似文献   

20.
本文主要研究数据过滤器技术征数据链中的应用,并往此基础上提出了数据过滤器的关键技术,在数据管理和资源分配等工程领域具有参考价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号