首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 500 毫秒
1.
本文对多媒体图像数据提出一套较灵活的存储、索引查询方式。针对多媒体数据库信息查询通用性的问题,构建了一个较为集成的特征库。针对高维数据查询效率问题,将基于内容、颜色、距离和形状的匹配算法与FNN算法及查找聚类重心的加速检索算法集成于查询检索引擎IRE,使查询更高效、应用更广泛。  相似文献   

2.
XML文档到关系数据库映射方法的研究*   总被引:4,自引:0,他引:4  
针对现有映射方法对XML文档格式要求过严等不足,在模型映射方法基础上提出一种XML文档映射关系数据库的新方法。通过给XML文档树做标志,将映射算法转换后的数据放到两张预先定义结构的表进行存储。给出了逻辑数据模型、详细设计、映射算法和实验。实验结果表明,该方法能有效地保持XML文档的结构,能够对存储的数据进行语义检索,适用于任何树型数据结构。  相似文献   

3.
为了解决传统字段匹配算法未能根据数据源数据特征进行匹配函数调整的缺陷,提出了一种基于关联token操作和支持向量机的自适应字段匹配算法.该算法使用关联操作集形式化描述字段间的相似性,提出了一种改进字段相似度计算的Cosme式,将关联操作集转换为描述字段相似度的规一化向量值,并设计了基于SVM学习的字段匹配算法.最后对实际实验数据进行了分析,结果表明了该算法对于不同数据质量的数据源都可取得较好的匹配精度.  相似文献   

4.
针对面向语义网络图匹配的特殊性, 在基于状态回溯搜索算法的基础上提出一种新的称为基于边映射表连接的匹配算法, 利用语义网络图的有向性, 将图匹配问题转换为对搜索路径的规划, 并采用深度优先算法形成搜索步, 同时对目标图的所有边建立索引, 加快以边匹配为中心形成边映射表的过程, 最后对边映射表进行连接形成结果集。在真实数据集上的实验结果表明, 该算法具有较高的执行效率。  相似文献   

5.
在大数据时代,海量的非结构化数据增速远大于结构化数据,HBase被广泛用于海量非结构化数据存储中。由于HBase内置的索引是基于行键(rowkey)设计的,具有很高的查询效率。但是,在根据字段进行条件查询时需要进行全表扫描,性能较低,无法应用于实时场景。针对此问题,提出一种基于协处理器(coprocessor)的HBase二级索引方法。该方法将经常需要查询的字段通过协处理器在HBase中建立映射到行键的索引,在查询时并行扫描索引数据获取行键,并利用行键快速查询记录。同时,在创建表时,通过对Region进行预分区。在插入数据时,在行键中添加Hash值。这不仅能提高数据插入速度,也避免了热点数据现象,同时保证索引数据和主数据位于同一个Region上,查询时就能减少一次RPC请求。在模拟数据集上的实验表明:提出的二级索引方法具有较好的查询性能。不仅高于HBase自带的过滤查询,也高于基于ElasticSearch的二级索引。同时,其空间开销小于基于ElasticSearch的二级索引。  相似文献   

6.
本文根据当前我国数字图书馆分布式异构特点带来的检索问题,提出了基于CORBA中间件的分布式异构信息检索模型,并对解决方案中的四大部分-IDL映射、数据字段统一映射、服务器端服务对象和客户端调用服务过程作了详细的分析与实现。  相似文献   

7.
深度包检测采用简单的字符串匹配技术将报文内容与一组固定字符串进行匹配,基于正则表达式匹配算法能提供更强的表达能力和灵活性,而复杂的正则表达式结构可能引起DFA的状态数膨胀,导致存储代价巨大;DFA拆分算法将DFA转换表拆分为三个表:间接索引表,转换输出表,直接转换表,实验结果表明DFA所占空间大大减小,实现了DFA的压缩存储。  相似文献   

8.
刘彬  程凯  于杰 《计算机系统应用》2018,27(12):210-215
针对传统单稀疏表存储模型存储空间利用率低以及块表存储模型重构租户逻辑关系时连接次数多的问题,提出了稀疏表与块表结合的存储模型.该存储模型中将租户基于SaaS应用服务商提供的逻辑表上定制的属性及自定义的逻辑表中的属性映射到列数合适的稀疏表中存储,而将租户一部分常见数据类型的自定义的属性存储到块表中,以此避免因扩展字段的列数超过稀疏表列数导致的数据迁移问题,最后通过定义查询重写器给出了从租户逻辑SQL请求到物理SQL请求的转换.实验结果表明,该存储模型在存储空间利用率及查询效率上相比传统的稀疏表存储模型都有所提升.  相似文献   

9.
针对语音数据在信道传输与云端存储时的安全性问题,以及由于语音数据数目大、维数高、空间复杂度高带来的检索效率问题,提出了一种基于双哈希索引的高效语音生物哈希安全检索算法。首先,在服务端分别提取语音信号的频谱通量与峭度因子特征并将两种特征融合,利用Bagging分类对语音信号的差分哈希分类,并基于分类结果构建密钥分配索引表;然后,根据密钥分配索引表建立具有单一映射密钥的生物特征模板,并将其量化构造生物哈希,得到哈希索引;同时,采用混合域置乱加密算法对原始语音加密,构建密文语音库;最后,将哈希索引与密文语音库上传至云端并构建云端生物哈希索引表。在移动端,采用归一化汉明距离进行匹配检索。实验结果表明:本文算法的匹配阈值区间为(0.2694,0.4173),说明该检索算法能够灵活选取匹配阈值,具有较好的鲁棒性和区分性;检索过程中单条语音平均检索时间仅为9.4957×10-4s,并且经过15种内容保持操作后的查全率与查准率均为100%,说明该算法具有较好的检索性能,可以满足各种环境下的语音检索需求;同时提出的加密算法密钥空间大小为1060,说明能够抵御穷举密钥攻击、保证语音数据的安全;此外,构建的生物特征模板具有良好的多样性、安全性和可撤销性。  相似文献   

10.
刘光霆  何宏 《现代计算机》2007,(12):139-140
分析交叉表数据入库的难点,提出以OLE方式启动Excel应用程序,配合文件到表、行列到字段的二级映射机制采集数据的方法,保证入库数据的有效性,解决了采集过程中名称转代码及名称与代码间的多对一映射问题.  相似文献   

11.
随着语义网数据规模的爆炸式增长,海量数据存储和检索面临越来越严峻的挑战,分布式数据库与并行计算已成为其主要解决方案。基于列存储分布式数据库HBase设计了一种多表语义网数据存储模型,实现从OWL本体定义到存储模型的映射。基于OWL本体定义信息对语义网数据实现按类划分,并将三元组存储于主体所属于的类的两张表里,采用MapReduce框架实现并行的数据划分和加载任务,最后在Hadoop集群环境下对方法进行了可行性验证。  相似文献   

12.
鉴于单节点数据库审计系统检索性能低下的现状,探讨应用Hadoop伪分布模式和HBase列存储模型重构数据库审计系统的检索存储体系,重点研究HDFS存储机制、MapReduce运算框架和HBase数据模型三者的集成,以提升数据库审计系统实时检索和综合分析的性能.重构方案有效提升了检索性能,但鉴于数据的高可靠性和大体积,提出结合生产现状应用Hadoop和HBase分布式集群的展望.  相似文献   

13.
在云存储应用中,用户文件不在本地存储,因此文件安全性、数据机密性和鲁棒性是关键问题。首先,针对现有文献提出的多个密钥服务器的安全擦除码存储系统未考虑数据鲁棒性导致数据恢复存在缺陷的问题,利用伪随机双线性映射构建云存储完整性检查策略威胁模型;其次,编制接口文件块结构,并参照相关文献算法进行完整性检查方案设计,实现多密钥服务器安全擦除码存储系统算法功能补充,并给出算法计算复杂度分析;最后,实验结果显示,所提出的完整性检查方案可实现较大的数据成功检索概率。  相似文献   

14.
张智  龚宇 《现代计算机》2014,(11):33-37
HBase是一个面向列的非关系型的开源分布式存储系统,它基于Hadoop HDFS文件存储系统,使用MapReduce来处理海量数据,利用Zookeeper作为协同服务,它使用简单的键值对映像关系为超大规模和高并发的海量数据实时响应系统提供一个很好的解决方案。对HBase的体系结构、数据模型、MapReduce算法设计等几个方面进行详细阐述,并对HBase的未来发展做出展望。  相似文献   

15.
海量气象观、探测数据是提高公共气象服务精细化、精准化和个性化水平的关键。日增TB级的海量气象数据在存储、检索、传输、共享方面的时效性要求对构建在传统的IOE技术架构上气象数据管理系统提出了严峻挑战。在HBase基础上,提出了一个基于索引的气象结构化数据查询优化架构HBase4M(HBase for Meteorology)。首先,根据HBase存储特性设计表结构;然后,利用协处理器建立和维护辅助索引,将字段查询转化为对索引表的行键查询,使得HBase4M在具备HBase可扩展性、低延迟的特性上可以支持结构化气象数据的灵活查询。实验结果表明,HBase4M的性能可以基本满足气象服务的业务需要。  相似文献   

16.
Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及...  相似文献   

17.
鉴于国内目前各大煤矿企业的实际情况,对井下人员定位系统进行研究,为了改进定位产生的海量数据所存在的不安全、不完整等弊端,采用云存储代替原有的存储模式。利用云存储量身定制这一特性,在企业内部搭建私有云,以Ha-doop为技术架构,运用HBase的RowKey确定检索的主键,HDFS的NameNode与DataNode完成数据间的交互,快速、高效的查找数据。将云存储应用于企业中,帮助企业顺应时代的脚步,有利于企业的发展,具有一定的价值。  相似文献   

18.
大数据时代背景下,列存储数据库使用场景愈加增多,推动了列存储相关领域的研究进展。为解决现有列存储数据库压缩策略在压缩过程中遇到的数据离散程度大,分类粒度小,配套分类算法缺陷导致的学习成本高,压缩效率难以保证的问题,本文提出了一种基于排序的列区混合压缩策略,首先根据HBase特点设计了一种对各列数据进行排序的方法加强数据紧密度,然后根据数据特点分别使用混级区压缩策略和混级列压缩策略进行压缩策略推荐,在TPC-DS标准数据集上与前人策略进行比较,实验结果显示本文方法在压缩率、压缩/解压时间方面均有优异的表现,从而证明了本文方法的有效性。  相似文献   

19.
HBase(HadoopDataBase)是ApacheHadoop项目下的一款非关系型数据库,它是一个基于列簇的开源数据存储系统,关于HBase的研究和应用越来越受到关注.由于HBase会在内存缓存数据后写文件系统,所以缓存的大小成为影响系统性能的一个重要因素.本文提出一种基于备份日志的持久性、可用性方案RemoteLogProcess,使得HBase能够在不同的缓存规模获得更好的写性能.实验证明,在保证数据的持久性和可用性前提下,RLP能够在不同的缓存大小下获得稳定的性能,并且在缓存不超过默认设置时明显提高写操作时间性能.  相似文献   

20.
为了实现对海量数据的高效存储和查询,众多NoSQL数据库被开发出来,HBase是其中之一。但原生的HBase数据库在进行数据查询时只支持主键索引,对非主键数据只能通过全表扫描的方式进行查询,极大降低了HBase的多条件查询速度。为此,提出了基于协处理器的HBase内存索引构建方案,通过协处理器实现对二级索引的快速构建并可根据HBase表的变化自动更新索引。同时,将建立的索引进行持久化操作,在使用时通过内存计算,极大地提高了索引数据检索速度,保证了索引的可用性和容错性。实验结果表明,该方案相比原生数据库的条件检索速度有了极大提升,相比于基于Solr和HiBase的二级索引方案检索速度也有所提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号