首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
张军旗  周向东  施伯乐 《软件学报》2008,19(8):2054-2065
为了改进高维数据库查询的效率,通常需要根据数据分布来选择合适的索引策略.然而,经典的分布模型难以解决实际应用中图像、视频等高维数据复杂的分布估计问题.提出一种基于查询采样进行数据分布估计的方法,并在此基础上提出了一种支持最近邻查询的混合索引,即针对多媒体数据分布的不均匀性,自适应地对不同分布的数据使用不同的索引结构,建立统一的索引结构.为了实现混合索引,采用构造性方法:首先通过聚类分解分割数据并建立树状索引;然后使用查询采样算法,对数据实际分布进行估计;最后根据数据分布的特性,把稀疏数据从树状索引中剪裁出来,进行基于顺序扫描策略的索引,而分布比较密集的数据仍然保留在树状索引中.在4个真实的图像数据集上进行了充分的实验,结果显示,该索引方法明显优于iDistance,M-Tree等度量空间索引,在维数达到336时,查询效率仍高于顺序扫描.实验结果显示,该查询采样算法在采样数据量仅为N~(1/2)(N为数据量)的情况下即可获得满足索引需要的分布估计结果.  相似文献   

2.
新颖检测中,可应用高斯混合模型建立已知数据模型,拟合数据分布,但当数据维数较高时,自由参数太多,训练需要巨大的数据采样,而ICA搜寻数据的最大统计独立表示,可以将数据从高维空间投影到低维空间。提出一种基于ICA空间高斯混合模型的新颖检测,可有效减少估测的自由参数,降低训练数据采样的苛刻要求,实验也验证了该方法的可行性。  相似文献   

3.
向量空间划分类索引的动态更新代价分析   总被引:1,自引:0,他引:1       下载免费PDF全文
代价分析是借助代价模型预测和评估空间索引结构的一种有效方法。针对索引的空间划分和数据划分这两种策略,在已有的索引结构基础上建立了向量空间划分类型索引的代价模型,该模型可实现查询以及动态更新的性能评价。以KDB-树系为评估对象,从结点存取次数(NA)值推导计算出页面存取次数(PA)的估计值,并在标准数据分布上对估计值的相关误差率进行了验证。结果表明代价模型的平均相关误差率较低,不超过12%。代价分析的结果有助于对索引结构的动态更新代价的预估和查询的优化。  相似文献   

4.
杨彦  赵力 《数据采集与处理》2015,30(6):1233-1239
为了进一步提高基于高斯混合模型的与文本无关说话人识别系统的识别性能,本文针对高斯混合模型在建模时需要较多的训练数据的缺陷,提 出了一种新的应用于小样本说话人识别系统的与文本无关说话人识别方法,该方法综合考虑了模糊集理论、矢量量化和高斯混合模型的优点,通过用模糊矢量量化误差尺度取代传统高 斯混合模型的输出概率函数,减少了建模时对训练数据量的要求,提高了模型精度和识别速 度。同时由于模糊集理论起到了“数据整形”的作用,所以增强了目标说话人数据的相似性。实验结果表明该方法针对小样本数据的说话人识别系统,识别性能优于传统的基于高斯混合模型的说话人识别系统。  相似文献   

5.
由于从病例库中进行病例的相似性检索关系到能否提供给医生充分且正确的候选病例,因此如何高效、准确地实现影像病例的相似性检索是学术界和医学界的研究热点之一.迄今为止,很多文献提出了用于提高查询精度的检索策略,但涉及检索效率的文章还为之甚少.基于此,提出了一种融多种度量空间相似性计算于一体的M2+-树高维索引技术.该索引将病例中的文本和影像合成一个高维多特征向量,该向量在度量空间上将数据空间划分成若干子空间,并借助关键向量对划分后的数据子空间再进行向量空间上的二次划分.关键向量的无重叠划分和三角不等式过滤原理可以加快病例的检索速度.总之,在度量和向量空间上的两次数据划分使得M2+-索引树大大减少了待查询病例与数据库病例间的不必要相似性计算的次数,从而加快了相似性病例的检索速度.实验结果表明,M2+-树的性能优于典型的度量空间多特征索引代表M2-树的性能.  相似文献   

6.
针对图像的72维HSV颜色特征,提出了一种新的降维索引方法.区别于传统的降维机制,该方法在降维的过程中不仅保留了原始数据空间整体的重要信息,也准确抓住了高维个体数据的重要特性.在大规模图像库上的实验表明,基于本文索引机制的搜索算法不仅显著减少了支配检索时间的I/O开销,而且具有较高的查询准确率.  相似文献   

7.
基于混合概率PCA模型高光谱图像本征维数确定   总被引:1,自引:1,他引:1       下载免费PDF全文
普鑫 《计算机工程》2007,33(9):204-206
如何有效实现降维是现代成像光谱仪辨识地物类别的一个难点所在。该文在已知高光谱图像地物类别数的情况下,提出了一种采用混合最小描述长度(MMDL)模型选择准则确定高光谱图像本征维数的方法。该方法在期望最大化算法框架下同时实现混合PPCA降维和聚类,并根据MMDL准则确定数据降维维数,可以得到数据在概率意义下的精确的降维表征。仿真数据和真实数据进行的比较实验表明,该方法能精确地选择数据的本征维数。  相似文献   

8.
针对传统模糊聚类分割方法无法有效模拟数据分布特征的问题,提出基于邻域约束高斯混合模型的模糊聚类图像分割算法.利用高斯分布刻画聚类内像素光谱测度统计特征,定义像素与其邻域像素相关性的先验概率,并作为高斯混合模型中各高斯分量权重系数,构建包含特征场邻域作用的高斯混合模型.利用高斯分量描述像素与聚类间的非相似性测度,建立基于高斯混合模型的模糊聚类目标函数.在传统模糊聚类方法基础上,采用高斯混合模型定义像素与聚类间的非相似性测度,并在高斯混合模型中融入邻域作用,有效解决数据具有多峰值特征的问题.最后通过实验验证文中算法的准确性.  相似文献   

9.
一种面向服务器制图可视化的矢量数据多尺度组织方法   总被引:1,自引:0,他引:1  
提出了一种面向服务器制图可视化的矢量数据多尺度组织方法。基于矢量数据瓦片化思想,将矢量数据按照全球地理空间金字塔索引模型划分为层次化瓦片数据,将服务器制图可视化处理中对数据图层的空间查询操作,转化为对瓦片数据的数据读取操作。实验及应用表明,该方法减少了数据读取时间,降低了I/O代价,提高了矢量数据服务器制图可视化的整体性能。  相似文献   

10.
多维向量动态索引结构研究   总被引:4,自引:0,他引:4  
多维向量的索引技术是多媒体数据库系统中的关键技术之一.集中研究基于向量空间模型的动态索引结构,以解决在图像数据库系统中按内容快速检索图像的对象问题.在分析研究R-Tree和R*-Tree的基础上,提出了ER-Tree动态索引结构.该索引树用超球体划分多维向量空间,以有利于计算最近邻;吸取R*-Tree树的重插技术,以增强索引树对数据集整体特征的表达能力,从而提高检索效率;通过引入插入安全点和删除安全点概念,有效地提高建树的效率.同时,给出了基于该结构的特征向量插入算法.实验结果表明,所提出的索引结构建树的  相似文献   

11.
基于概念空间的文本分类研究   总被引:3,自引:0,他引:3  
1.引言随着文本信息的快速增长,特别是Internet上在线信息的增加,文本(网页)自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。文本分类的方法分为两类:一是基于知识的分类方法;二是基于统计的分类方法。基于知识的文本分类系统应用于某一具体领域,需要该领域的知识库作为支撑。由于知识提取、更新、维护以及自我学习等方面存在的种种问题,使得它适用  相似文献   

12.
一种基于划分的孤立点检测算法   总被引:7,自引:0,他引:7       下载免费PDF全文
孤立点是不具备数据一般特性的数据对象.划分的方法是通过将数据集中的数据点分布的空间划分为不相交的超矩形单元集合,匹配数据对象到单元中,然后通过各个单元的统计信息来发现孤立点.由于大多真实数据集具有较大偏斜,因此划分后会产生影响算法性能的大量空单元.由此,提出了一种新的索引结构--CD-Tree(cell dimension tree),用于索引非空单元.为了优化CD-Tree结构和指导对数据的划分,提出了基于划分的数据偏斜度(skew of data,简称SOD)概念.基于CD-Tree与SOD,设计了新的孤立点检测算法.实验结果表明,该算法与基于单元的算法相比,在效率及有效处理的维数方面均有显著提高.  相似文献   

13.
Various prototype reduction schemes have been reported in the literature. Foremost among these are the prototypes for nearest neighbor (PNN), the vector quantization (VQ), and the support vector machines (SVM) methods. In this paper, we shall show that these schemes can be enhanced by the introduction of a post-processing phase that is related, but not identical to, the LVQ3 process. Although the post-processing with LVQ3 has been reported for the SOM and the basic VQ methods, in this paper, we shall show that an analogous philosophy can be used in conjunction with the SVM and PNN rules. Our essential modification to LVQ3 first entails a partitioning of the respective training sets into two sets called the Placement set and the Optimizing set, which are instrumental in determining the LVQ3 parameters. Such a partitioning is novel to the literature. Our experimental results demonstrate that the proposed enhancement yields the best reported prototype condensation scheme to-date for both artificial data sets, and for samples involving real-life data sets.  相似文献   

14.
目前,关系数据库中的分区技术应用相当广泛,但是用分区策略管理海量要素图层数据的存储与索引没有比较系统的技术方法。采用不同管理方式、不同分区粒度、不同索引方式及其组合的分区技术来系统地管理海量空间图层数据,进一步研究了不同的分区粒度及索引方式对查询效率的影响,并通过实验验证了关系数据库中的分区技术对海量要素图层数据的存储与管理具有优化作用。结果表明,在不使用分区键作为查询条件时,分区粒度越大查询效率越高;使用分区键作为查询条件时,本地分区索引查询效率更高等。利用合理的分区方案使得海量要素图层数据存储和管理得以优化,对矢量大数据的存储和管理研究具有重要意义,为更好地应用分区技术来解决实际遇到的存储与检索效率问题提供决策支持。  相似文献   

15.
一种改善支撑向量域描述性能的核优化算法   总被引:6,自引:0,他引:6  
赵峰  张军英  刘敬 《自动化学报》2008,34(9):1123-1128
  相似文献   

16.
This paper presents a new adaptive segmentation of continuous state space based on vector quantization algorithm such as Linde–Buzo–Gray for high-dimensional continuous state spaces. The objective of adaptive state space partitioning is to develop the efficiency of learning reward values with an accumulation of state transition vector in a single-agent environment. We constructed our single-agent model in continuous state and discrete actions spaces using Q-learning function. Moreover, the study of the resulting state space partition reveals a Voronoi tessellation. In addition, the experimental results show that this proposed method can partition the continuous state space appropriately into Voronoi regions according to not only the number of actions, but also achieve a good performance of reward-based learning tasks compared with other approaches such as square partition lattice on discrete state space.  相似文献   

17.
Copyright protection and information security have become serious problems due to the ever growing amount of digital data over the Internet. Reversible data hiding is a special type of data hiding technique that guarantees not only the secret data but also the cover media can be reconstructed without any distortion. Traditional schemes are based on spatial, discrete cosine transformation (DCT) and discrete wavelet transformation (DWT) domains. Recently, some vector quantization (VQ) based reversible data hiding schemes have been proposed. This paper proposes an improved reversible data hiding scheme based on VQ-index residual value coding. Experimental results show that our scheme outperforms two recently proposed schemes, namely side-match vector quantization (SMVQ)-based data hiding and modified fast correlation vector quantization (MFCVQ)-based data hiding.  相似文献   

18.
Vector quantization is a useful approach for multi-dimensional data compression and pattern classification. One of the most popular techniques for vector quantization design is the LBG (Linde, Buzo, Gray) algorithm. To address the problem of producing poor estimate of vector centroids which are subjected to biased data in vector quantization; we propose a fuzzy declustering strategy for the LBG algorithm. The proposed technique calculates appropriate declustering weights to adjust the global data distribution. Using the result of fuzzy declustering-based vector quantization design, we incorporate the notion of fuzzy partition entropy into the distortion measures that can be useful for classification of spectral features. Experimental results obtained from simulated and real data sets demonstrate the effective performance of the proposed approach.  相似文献   

19.
刘美茹 《计算机工程》2007,33(15):217-219
文本分类技术是文本数据挖掘的基础和核心,是基于自然语言处理技术和机器学习算法的一个具体应用。特征选择和分类算法是文本分类中两个最关键的技术,该文提出了利用潜在语义索引进行特征提取和降维,并结合支持向量机(SVM)算法进行多类分类,实验结果显示与向量空间模型(VSM)结合SVM方法和LSI结合K近邻(KNN)方法相比,取得了更好的效果,在文本类别数较少、类别划分比较清晰的情况下可以达到实用效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号