首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
一种基于动态平衡树的在线索引快速构建方法   总被引:2,自引:0,他引:2  
倒排索引的构建可以通过离线方式高效地完成,但是仅当整个数据集索引完毕后方可提供检索服务.在线索引可以在构建倒排索引的同时提供检索服务,新加入的文档即刻可供检索.提出了一种基于动态平衡树的在线索引更新策略,利用动态平衡树控制索引合并过程,使索引合并总是在大小相近的子索引之间进行,以减少索引合并代价,同时可以调节索引和检索之间的性能平衡.该方法提供了一个基于合并的在线索引更新框架,与已有方法相比具有更好的通用性、更高的性能和更好的规模可扩展性.在由4000万张网页构成的270 GB Web数据集上运行的实验表明,该方法在实际系统中是高效的,将索引更新的性能提高了92.28%,而检索性能仅下降4.79%,大幅度降低了在线索引构建的代价.  相似文献   

2.
澄江一米新真空大型天文望远镜(NVST)当前每天最大能产生2 TB,约十多万条的观测数据。由于这些数据量巨大并具有非结构化特性,使用离线构建索引会带来巨大时间开销,传统的关系型数据库难以满足快速索引和检索需求。针对这些问题,结合数据采集流程,提出了使用基于压缩的字对齐位图索引算法来在线实时构建索引。这种方式不仅克服了离线构建索引方式时,文件访问、FITS头读取和解析FITS头等操作带来的大量额外时间消耗问题,而且有助于解决海量太阳观测数据的高效检索难题。通过实验证明了在线实时构建索引方式能够极大地降低时间开销,也表明了该方式在天文海量数据索引和检索应用中的有效性和可行性。  相似文献   

3.
在基于案例推理的系统中,案例检索是一个关键的问题,案例检索的速度不仅与案例检索算法有密切关系,而且同案例库所使用的索引方法也有着紧密联系.准确、快速地获得案例的解决方案是评价基于案例推理系统的一个重要方面.当案例库中的案例数量较多时,案例的检索速度问题更为突出,采用多级索引的技术可以有效提高案例检索的速度.文中分析了如何采用聚类分析的方法来为案例库建立多级索引.  相似文献   

4.
一种支持快速相似检索的多维索引结构   总被引:9,自引:4,他引:5  
冯玉才  曹奎  曹忠升 《软件学报》2002,13(8):1678-1685
基于内容的图像检索是一种典型的相似检索问题,对于尺度空间上的图像相似匹配问题,一般认为距离计算费用很高.因此,需要建立有效的索引结构,以减少每个查询中的距离计算次数.为此,基于数据空间的"优化划分",并且使用"代表点",以层次结构方式划分数据,提出了一种新的基于距离的相似索引结构opt-树及其变种(-树.为了更有效地支持基于内容的图像检索,在(-树索引结构中采用了"(-最优化划分"和"(-对称冗余存储"策略,以提高相似检索的效率.详细讨论了这种索引结构的建立与检索等问题,并给出了相应的算法.实验结果显示了这种索引技术的有效性.  相似文献   

5.
特征文件索引、时间戳排序技术是数据库技术研究方面的两个重要课题,前者通常用于支持文本数据的索引和检索操作,后者为实现数据库并发控制的两个基本方法之一。本文主要讨论面向文本数据库管理系统(FIMS)基于索引时间戳概念的文本对象索引模型的形式化描述、检索相关性计算及特征文件系统逻辑设计等问题。  相似文献   

6.
HCSIM:一种长期高频Block-Level快照索引技术   总被引:5,自引:0,他引:5  
高频快照技术应用于备份时,能够为物理错误和人为错误提供数据保护,构建可靠数据存储环境.针对长期、高频block-level快照检索效率低下问题,在对目前常见的block-level快照技术建模、分析基础上,提出结合数据分布特征和检索模式的分层次二维索引结构--HCSIM.实验、分析结果表明:HCSIM索引技术应用于长期、高频快照管理时,比时空索引结构Overlapping B+Tree索引技术显著提高索引的存储效率和检索效率;通过定性的分析,HCSIM是目前存在的block-level快照索引模式中存储效率和检索效率相对平衡的索引技术.  相似文献   

7.
NITDB是南京工学院在高档微机系统Dual83/20上研制的一个多用户关系数据库管理系统.本文讨论了在设计和实现NITDB的关系运算库时的一些问题,介绍了库中所采用的顺序检索、有界顺序检索、有界二分顺序检索、辅助索引检索、聚集索引检索、二元(三元)直接多遍扫描联接、二元归并扫描联接和二元聚集索引联接诸关系运算实现函数的算法思想,并对这些函数的性能进行了分析和测试.  相似文献   

8.
针对CloSpan算法分两个阶段挖掘闭合序列模式中第一阶段需要保持候选序列且未充分利用项的位置信息、存在对数据库重复扫描和计算大小的不足,提出了posCloSpan算法。算法通过对二级索引结构进行检索实现向前剪枝,避免数据库重复扫描以及对超序索引表、子序索引表的检测,实现非闭合序列的修剪,无须保存候选序列。实验结果证明,算法在处理较长序列以及存在大量重复投影数据库的数据源时,有效降低了时间上的开销。  相似文献   

9.
建立文物图像数据库是建立文物数字博物馆的基础,在基于物理特征检索的图像数据库系统中应用了FAC-file这种索引方法,并对系统的检索性能进行测试。对采用索引结构和未采用索引结构的检索时间进行了对比,同时也对FAC-file索引方法的焦点数和索引文件大小进行了分析。测试结果验证了这种索引方法的有效性。  相似文献   

10.
基于内容的音频检索算法研究   总被引:3,自引:0,他引:3  
随着音频检索需求的提高,传统数据库越来越不能满足音频检索的需求,基于内容的音频检索的研究变得越来越重要.因此对音频特征的直方图表示及音频索引二叉树进行了调查,在此基础上详细描述了基于音频索引二叉树的检索算法(包括统一格式算法、非统一格式算法、部分匹配算法、虚拟节点算法),分析这些算法的时间复杂度,为下一步研究做准备.  相似文献   

11.
磁耦合无线充电技术不仅能够为水下设备不间断地提供能量,同时在其传输能量上加载特定 的信号也可以为水下设备构建高速、稳定的数据传输链路,成为摆脱水下设备供电以及通信瓶颈的有 效手段。该文提出一种基于磁耦合的水下无线携能传输技术,采用现场可编程逻辑门阵列(FPGA) 开发了基于频移键控(FSK)调制的无线信息传输和无线能量传输模块,输入功率为 20 W 时,可实 现 1 Mbps 传输速率的无线充电设备水下低功率损耗数能同传。针对水下设备的移动需求导致信道变 化的问题,使用支持向量机(SVM)机器学习的方法进行数据解码,实现了 99.9% 的解码成功率。实验 结果显示,该文所开发的无线携能传输原型系统在高速率、远距离传输条件下,具有良好的能量传输 效率和信号解码准确率。  相似文献   

12.
针对现有的最大频繁项集挖掘算法挖掘时间过长、内存消耗较大的问题,提出了一种基于构造链表B-list的最大频繁项集挖掘算法BMFI,该算法利用B-list数据结构来挖掘频繁项集并采用全序搜索树作为搜索空间,然后采用父等价剪枝技术来缩小搜索空间,最后再结合基于MFI-tree的投影策略实现超集检测来提高算法的效率。实验结果表明,BMFI算法在时间效率与空间效率方面均优于FPMAX算法与MFIN算法。该算法在稠密数据集与稀疏数据集中进行最大频繁项集挖掘时均有良好的效果。  相似文献   

13.
图像压缩是数据传输和存储中必不可少的过程,分形图像压缩方法因其压缩方法简单、可任意尺度下重构、解码速度快且压缩比高具有独特优势,但传统分形图像压缩方法存在编码时间过长的缺陷。针对压缩比和恢复效果之间的不平衡问题,在确保图像恢复效果前提下,需要解决编码时间过长的问题。因此,提出了一种基于质心特征和重要敏感区域分类的分形图像压缩算法,通过构造质心特征,将基本分形算法中R块在码本中搜索最小均方误差MSE的问题转换为利用质心特征码本寻找最佳匹配块的问题,简化了块搜索过程,将全局搜索变为局部搜索,同时对重要敏感区域采取全局搜索的方式,以增强恢复图像的视觉效果。实验仿真结果表明,质心特征方法可以有效缩短编码时间,在保证图像恢复效果前提下,本文所提算法相较于基本算法最高可以节省大约64%的编码时间,相较于双交叉和特征方法,可以达到更好的恢复效果。  相似文献   

14.
In a wireless mobile environment, data broadcasting provides an efficient way to disseminate data. Via data broadcasting, a server can provide location-based services to a large client population in a wireless environment. Among different location-based services, the k nearest neighbors (kNN) search is important and is used to find the k closest objects to a given point. However, the kNN search in a broadcast environment is particularly challenging due to the sequential access to the data on a broadcast channel. We propose efficient protocols for the kNN search on a broadcast R-tree, which is a popular multi-dimensional index tree, in a wireless broadcast environment in terms of latency and tuning time as well as memory usage. We investigate how a server schedules the broadcast and provide the corresponding kNN search algorithms at the mobile clients. One of our kNN search protocols further allows a kNN search to start at an arbitrary time instance and it can skip the waiting time for the beginning of a broadcast cycle, thereby reducing the latency. The experimental results validate that our mechanisms achieve the objectives.  相似文献   

15.
In this paper, we propose a new driver identification method using deep learning. Existing driver identification methods have the disadvantages that the size of the sliding time window is too large and the feature extraction is relatively subjective, which leads to low identification accuracy and long prediction time. We first propose using an unsupervised three-layer nonnegativity-constrained autoencoder to adaptive search the optimal size of the sliding window, then construct a deep nonnegativity-constrained autoencoder network to automatically extract hidden features of driving behavior to further complete driver identification. The results from the public driving behavior dataset indicate that relative to conventional sparse autoencoder, dropout-autoencoder, random tree, and random forest algorithms, our method can effectively search the optimal size of the sliding time window, and the window size is shortened from the traditional 60s to 30s, which can better preserve the intrinsic information of the data while greatly reducing the data volume. Furthermore, our method can extract more distinctive hidden features that aid the classifier to map out the separating boundaries among the classes more easily. Finally, our method can significantly shorten the prediction time and improve the timeliness under the premise of improving the driver identification performance and reducing the model overfitting.  相似文献   

16.
基于Metadata crosswalks的青藏铁路元数据系统设计   总被引:1,自引:0,他引:1       下载免费PDF全文
人们对数据的需求随着所要研究问题复杂程度的升高而变得复杂多样。青藏铁路地理信息系统数据库管理着不同来源、异质异构的海量数据,元数据在这样的大型系统中扮演着非常重要的角色。元数据分为两类,一类是地理空间元数据,用来描述青藏铁路沿线基础地理背景数据、地形数据、铁路工程数据、与空间相关的冻土和冻土工程地质数据,及数据库运行过程中产生的不同版本的空间数据等;一类是非地理空间元数据,包括属性数据和事务性数据,用来描述钻孔资料、项目研究论文、野外观测资料等。两类数据采用不同的元数据标准,需要引入Metadata crosswalks技术以解决不同标准元数据间的集成访问,从而为数据用户提供统一高效的元数据检索服务。XML技术是实现这种机制的最佳选择。探讨了Metadata crosswalks在青藏铁路地理信息元数据库系统中的适用性并对其进行了初步的设计。  相似文献   

17.
随着网络迅速的发展,数据逐渐向数据集中化、业务处理复杂化、数据增长较快向趋势变化,并集中于后台服务处理,通过网络向成千上万的网络用户提供服务。而随着网络应用系统用户访问量的增加,网络应用系统提供服务时所出现系统响应速度太慢,加载时间过长等现象,严重影响网络应用系统提供服务的质量,由此可见,对于IT服务系统的性能测试与优化值得对其进行深入的学习和研究。  相似文献   

18.
雷达电子战系统的宽带数字波束形成实时实现   总被引:1,自引:0,他引:1  
雷达电子战信号系统中宽带数字波束形成算法在工程中难以实时实现。要满足算法实时性要求主要面临两个瓶颈:其一是长点FFT运算量较大,难以实时实现;其二是多波束电子扫描时运算模块间实时数据传输量过大,难以保证实时传输。提出了一种应用在基于RapidIO总线信号处理平台的宽带数字波束形成的实时实现方案。该方案采用了FFT的二维分解算法,利用分模块流水线方法实现了长点FFT实时运算。采用分频段宽带数字波束形成算法,有效减少了多波束电子扫描时运算模块间实时数据传输量。该方案应用在基于RapidIO总线的数字信号处理平台的实时性能分析和算法仿真结果验证了该方案的可行性。该方案在雷达电子战系统应用中具有一定的理论研究意义和工程应用前景。  相似文献   

19.
关键词最优路径查询(KOR)查找在满足关键词全覆盖和路径长度约束条件下,时间开销最小的路线常用于旅行规划。现有优化算法虽然采用各种剪枝策略缩小搜索规模,但是本质上是广度优先搜索,在查找长路径时,搜索规模依然过大,执行时间长。针对该问题,提出一种关键词最优路径查询的分段拓展算法(SE-KOR)。SE-KOR算法根据关键词倒排索引表构建关键词顶点路径,将路径划分为多段分别拓展,降低搜索规模,从而缩短执行时间。该算法在路径拓展时给出路径走向,而现有剪枝策略不控制路径拓展方向,因此提出局部代价阈值剪枝,控制路径的走向沿关键词顶点路径拓展,并综合运用近似支配、可行解目标值剪枝和全局优先拓展策略加速拓展。实验结果表明,在不损失精度的情况下,该算法执行时间分别在不同关键词个数、代价阈值与查询图规模下至少缩短8.0%、61.0%和57.7%。  相似文献   

20.
传统数据删除方法易受到云存储环境中大量近似特征的影响,产生冗余数据,导致加解密时间过长、密钥可用率较低,为此提出一种基于特征迭代的云存储数据即时确定性删除方法。首先,提取云存储数据中的冗余数据特征,对云存储下冗余数据进行分类,迭代直至收敛,实现冗余数据高性能删除;其次,采用加密机制实现云存储数据在网络用户间的安全共享,将原始数据密文切分为剩余密文和采样密文;最后,把不完整的剩余数据密文上传至云端,同时引入可信任第三方对取样密文进行保存,通过销毁取样密文实现数据即时确定性删除。实验结果表明,所提方法的数据密文拆分所用时间较短,且密钥可用率较高,可达90%,说明其方法能够有效满足云存储系统中对冗余数据或过期数据的确定性删除要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号