期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王会举李孟萱黄卫卫周秋怡《计算机工程与科学》2021,43(3):518-524

数据量的增长加大了信息获取的难度,如何从大量数据中准确获得有效信息是当前的研究热点。借鉴隐马尔可夫模型的状态转移概率,构建了基于图模型的多真值发现算法GraphTD,借助各数据源中描述的可信度转移矩阵,计算出数据值为真的概率的收敛值。同时,提出改进的初始真值的确定算法CVote,可有效提高GraphTD的正确率,避免了投票法在多真值发现中存在的诸多不足。在书籍作者数据集上的实验结果表明,基于图模型的GraphTD真值发现算法能够提高真值识别的准确率,CVote算法通过对初始真值选择的改良,可以有效提高真值发现算法的正确率。相似文献

2.

数据管理技术的新格局 总被引：4，自引：0，他引：4

覃雄派王会举李芙蓉李翠平陈红周烜杜小勇王珊《软件学报》2013,24(2):175-197

数据获取技术的革命性进步、存储器价格的显著下降以及人们希望从数据中获得知识的客观需要等,催生了大数据.数据管理技术迎来了大数据时代.关系数据库技术经历了20世纪70年代以来40年的发展,目前遇到了系统扩展性不足、支持数据类型单一等困难.近年来,noSQL技术异军突起,对多种类型的数据进行有效的管理、处理和分析;通过并行处理技术获得良好的系统性能;并以其高度的扩展性,满足不断增长的数据量的处理要求.试图沿着数据库技术进步的历史脉络,从应用维度(操作型与分析型应用)入手,为读者展开当今数据管理技术的新格局,讨论具有挑战性的重要问题,并介绍作者自己的研究工作. 相似文献

3.

可扩展并行内存数据库系统:ScaMMDBⅡ

黄伟王占伟孙妍王会举张延松王珊《计算机研究与发展》2010,47(Z1)

面对OLAP海量数据查询处理的请求与单机内存容量有限的矛盾,设计了ScaMMDBⅡ系统.ScaMMDBⅡ系统将在单一节点上进行的包含可分布式聚集函数的海量数据OLAP查询操作转换为在多个节点子CUBE上并行执行的OLAP查询以及查询结果的合并运算,以此达到简化系统复杂度和提高查询的并行执行能力的目的;除此之外, ScaMMDBⅡ通过迭代的中值计算方法还能够处理不可分布式计算的聚集函数Median.通过分而治之的思想, ScaMMDBⅡ有效地解决了容量与性能之间的矛盾,并且具有高可扩展性. 相似文献

4.

架构大数据:挑战、现状与展望 总被引：18，自引：0，他引：18

王珊王会举覃雄派周烜《计算机学报》2011,34(10):1741-1752

大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点.为了设计适合大数据分析的数据仓库架构,文中列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的... 相似文献

5.

大数据分析——RDBMS 与MapReduce 的竞争与共生 总被引：9，自引：0，他引：9

覃雄派王会举杜小勇王珊《软件学报》2012,23(1):32-45

在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce的优秀思想改造自身,而以MapReduce为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置. 相似文献

6.

面向大规模机群的可扩展OLAP查询技术 总被引：1，自引：0，他引：1

王会举覃雄派王珊张延松李芙蓉《计算机学报》2015,38(1)

大数据时代,由中低端硬件组成的大规模机群逐渐成为海量数据处理的主流平台之一.然而传统基于高端硬件平台设计的并行OLAP查询算法并不适应这种由不可靠计算单元组成的大规模并行计算的环境.为改善其在新计算环境下的的扩展性和容错性,该文对传统数据仓库的数据组织模式及处理模式进行改造,提出了全新的无连接雪花模型和TRM执行模型.无连接雪花模型基于层次编码技术,将维表层次等关键信息压缩进事实表,使得事实表可以独立处理数据,从数据模型层保证了数据计算的独立性;TRM执行模型将OLAP查询的处理抽象为Transform、Reduce、Merge3个操作,使得OLAP查询可被划分为众多可并行执行的独立子任务,从执行层保证了系统的高度可扩展特性.在性能优化方面,该文提出了Scan-index扫描和跳跃式扫描算法,以尽可能地减少I/O访问操作;设计了并行谓词判断、批量谓词判断等优化算法,以加速本地计算速度.实验表明:LaScOLAP原型可以获得较好的扩展性和容错性,其性能比HadoopDB高出一个数量级. 相似文献