首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
相似性搜索是从数据库中检索出同给定数据对象相似的数据对象,已有的基于R-tree的相似性搜索,当搜索空间的维的个数较小时效率较高,但当搜索空间的维的个数较大时则效率很低.针对此问题,提出了新的度量空间分割方法和索引结构pgh-tree,利用数据对象与很少几个固定参考对象的距离之差进行数据分割和索引,产生一个平衡的索引树.在此基础上,提出了新的算法,利用查询数据对象与固定参考对象的距离之差过滤掉大部分的不相关数据,具有较小的I/O代价和距离计算复杂性,平均复杂性为θ(n^0.58),是目前复杂性最小的相似性搜索算法.另外还讨论了基于pgh-tree的最近相邻点搜索策略.  相似文献   

2.
度量空间中高维索引结构回顾   总被引:4,自引:0,他引:4  
1 引言近年来,高维数据库的应用得到快速的发展,如海量的多媒体数据库、大规模的文本数据以及生物信息学中庞大的DNA数据库等,这些信息一般使用特征抽取等方法映射为高维数据,然后通过计算这些高维数据之间距离实现相似性查询。例如,对于图像数据,往往采用颜色直方图来表征一幅图像,当需要从数据集查找与给定图像相似的图像时,通过计算  相似文献   

3.
时间序列分析正成为数据挖掘研究的热点,本文讨论了时间序列相似性研究的现状和典型方法,介绍了水文时间序列相似性系统的设计与实现,详细分析了系统采用的相似性度量方法。  相似文献   

4.
一种基于最大加权频繁项目集的数据库相似性判别算法   总被引:1,自引:0,他引:1  
在引入最大加权频繁项目集之后,给出一种新的数据库相似性度量模型,并提出基于最大加权频繁项目集的数据库相似性度量算法.该算法可有效地改进基于最大频繁项目集的数据库相似性度量方法,提高数据库相似性度量准确性.在实际应用中,改进模型为分布多库环境下数据挖掘的数据准备提供有效的框架,因而具有重要的使用价值.  相似文献   

5.
高维数据中有效的相似性计算方法   总被引:2,自引:0,他引:2  
相似性的计算是CBR和k-NN等Lazy Learning研究中十分关键的问题,研究了降低相似性计算代价的方法,并以k-NN为例,介绍了基于部分特征的相似性算法和基于投影的相似性算法,它们能够通过减少计算距离过程中所涉及的特征数目来提高算法的效率,实验表明效率的提高是明显的,其中基于部分特征的k-NN算法效率提高26%~28%,基于投影的k-NN算法效率提高48%~83%,作者已将该算法应用到工程  相似文献   

6.
化学结构相似性检索在现代化学研究中具有重要作用。而化学结构的相似性度量是进行相似度检索的基础和前提。目前在化学信息学的研究中,有数量众多的化学结构距离度量和相似度表示方法。本文采用了Daylight的分子指纹方法,并采用了Tanimoto系数定义的相似度度量方法。并根据这种度量方法使用CDK来进行计算化学结构的相似度指数。在上述研究工作的基础上,开发了基于浏览器/服务器模式的化学结构相似度检索系统,通过该系统可以在中药活性成分数据库中进行化学结构相似度检索。用户在进行化学结构相似度检索时,可以选择已存在的化学结构,也可以采用JME来绘制新的化学结构。下一步将在该数据库中进行聚类分析和分子多样性的研究。  相似文献   

7.
设计了在数据库中化学结构的存储方式,并在系统分析化学结构在计算机中的不同描述法的基础上,提出了一种基于Web的化学结构搜索法。该方法由Robot抓取Web文档中的化学结构信息,利用Oracle建立化学结构数据库,通过建立化学结构的索引,实现对化学结构的全结构、子结构、结构相似性检索。  相似文献   

8.
基于分子子结构相似性提出一种计算质谱相似性的算法, 可较有效地实现相似检索。  相似文献   

9.
传统特征匹配的相似性度量方法多假定特征为直方图形式,结构单一。结构相似性(SSIM)度量在图像质量评价领域表现良好,但其鲁棒性较差。针对上述问题,提出一种扩展结构相似性度量方法。从空间网格提取特征阵列的三阶张量结构丰富特征信息,以加和形式修改SSIM度量,并引入权值,将张量特征结构用于相似性度量,建立高鲁棒性的相似性度量方法。提供点积形式的显性特征映射,以加快相似性度量速度。对关键点匹配和图像检测任务进行实验,结果表明,与传统相似性度量方法相比,该方法具有鲁棒性更强的匹配效果,并且计算效率有较大提高。  相似文献   

10.
时间序列的模糊匹配方法   总被引:1,自引:0,他引:1  
一个时间序列可以定义为一系列的数值,每一个数值代表一个时间点的值。在数据库和数据仓库应用中,时间序列数据是一类非常重要的数据类型。时间序列的相似性的判定,有基于欧几里得距离的判定方法和包络线方法。欧几里得距离方法对序列中的噪声很敏感,而且欧几里得距离随着序列长度的增加而变大。Rakesh Agrawal等所提出的方法,是将匹配的子序列按顺序连接来判定两个序列的相似性,如果一个子序列落入另一个子序列的包络线区间内(如图1),那么认为这两个于序列是匹配的,例外的数据被忽略,该方法的本质是在两个序列中包含一定比率的相匹配的子序列。该方法避免了欧几里得距离的缺点,任意长度序列的相似性的判定使用统一的标准。但是相似性的判定在包络线边界处发生了突变。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号