首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
传统的实体识别中,往往是利用字符串相似性函数来计算元组对在每个属性值上的相似度从而来判断其总的相似性(例如,元组对的相似性等于每个属性值上的相似度的加权求和)。然而这一类相似性测度不能够反映属性值内部不同的词在元组对相似性计算中的不同重要性。由于不能区分哪些词对元组对匹配更重要,就导致仍然存在某些匹配的元组相似性不高,而不匹配的元组相似性高的情况,故很难将匹配元组对和不匹配元组对有效区分开。为了解决这个问题,提出了以词为特征的距离度量函数,设计了基于词特征的距离度量学习算法,和基于距离度量的实体识别算法。扩展性实验对所提出的算法的有效性进行了验证。  相似文献   

2.
刘雪莉  王宏志  李建中  高宏 《软件学报》2015,26(6):1421-1437
按照元组描述的实体对其进行组织和查询处理,是一种管理劣质数据的有效方法.考虑到同一个实体的同一属性存在多个描述的值,因此,基于实体的数据库上的连接是支持多个值的相似性连接.与字符串的相似性连接相比较,实体的相似性连接在数据清洗、信息集成、模糊关键字查询、诈骗检测和文本聚集等领域有着更好的应用效果.通过建立双层索引结构,提出了实体数据库上相似性连接算法ES-JOIN.同时,该方法适用于解决集合中字符串模糊匹配的相似性连接问题,而传统的集合相似性连接只针对集合中元素精确匹配的情况.为了加速连接,还提出了过滤措施对算法进行优化,进一步给出了优化算法OPT_ES-JOIN.实验验证了ES-JOIN算法和OPT_ES-JOIN算法具有很好的效率和可扩展性.实验结果表明,过滤措施具有很好的过滤效果.  相似文献   

3.
结合流形排序和区域匹配的图像检索   总被引:1,自引:0,他引:1  
给出一种基于数据流形排序(Manifold Ranking)和分割区域匹配的图像检索方法.在Manifold Ranking方法的基础上,提出区域匹配图(Region Matching Graph,RMG)的方法,通过计算图像的区域匹配权值,进行第二次相似性匹配,提高了匹配准确性.在Corel图像数据库对该方法进行了检索仿真,结果表明该方法能有效提高检索的准确性.  相似文献   

4.
为了解决传统模板匹配算法在人脸检测中检测率低和速度慢的问题,提出一种新的人脸检测算法(BSICP).引入最佳相似性作为相似性度量,只考虑匹配图像之间的相似点,减少错误匹配;以尺度迭代最近点算法作为搜索策略代替传统的逐点扫描匹配方法,加快检测速度.实验结果表明,该算法在IMDB-WIKI数据库中的五组变换图像下检测率均能达到97%以上,而且速度保持在0.076 s左右,具有很好的检测效果.  相似文献   

5.
光谱图相似性匹配是推测化合物结构的重要研究方法之一,而如何在标准谱图数据库中进行相似性查找是关键步骤。传统的谱图匹配方法在数据量较大时,检索效率较低。本文首次将互关联后继树(TRST)算法思想应用于光谱图数据领域,从光谱图特征数据点出发,通过对算法的改进,提出了1种基于斜率序列的互关联后继树算法(SSIRST)实现光谱图相似性匹配查找,旨在通过减少匹配过程中的数据量缩短查找时间。实验结果表明,算法可以有效提高光谱图相似性匹配查找效率1倍以上。  相似文献   

6.
图数据库的相似性搜索是一个非常重要的研究内容,图的相似性匹配属于图同构的判定问题,是NP完全问题,传统的高开销搜索的方法已经不能满足复杂图查询的需要;另外,由于图数据库的复杂性和特殊性,已有的优化算法不能直接使用。为了提高图数据库的搜索效率,提出了一种基于索引的相似性搜索算法,通过数据库中的频繁结构建立特征索引,算法可高效准确地滤除大量的非相似图集合,避免了图之间精确匹配即图同构的计算,最后将本算法应用于化学数据库,实验结果证明了该方法的有效性和可行性。  相似文献   

7.
数据流上快速子序列匹配   总被引:1,自引:0,他引:1       下载免费PDF全文
数据流技术目前已广泛应用于金融分析、网络监控及传感器网络等诸多领域,而已有的相似性匹配技术主要针对时间序列数据库,难于直接应用于高速、连续、实时、海量的流数据,因此在数据流上渐进、实时地进行子序列匹配成为一个极具价值和挑战性的问题。在动态时间规整技术的基础上,设计了一种新颖的界限机制,充分利用相似性阈值,尽量减少冗余计算,算法完全符合数据流“单遍扫描”的性能要求,并通过大量的模拟和真实数据实验表明:与现有的SPRING算法相比,在不损失任何算法精度的前提下,仅增加几个字节的空间开销,速度至少提高3倍。  相似文献   

8.
基于FSS时间序列分析的DDoS检测算法   总被引:1,自引:0,他引:1       下载免费PDF全文
王硕  赵荣彩  单征 《计算机工程》2012,38(12):13-16
通过分析分布式拒绝服务(DDoS)攻击的特征和攻击发生时数据流五元组熵值的变化,提出一种基于数据流结构稳定性(FSS)的检测算法。采用AR自回归模型估计FSS时间序列多维特征参数,使用经过样本训练的支持向量机对特征参数进行分类来识别攻击。经实验验证,该算法具备较高的检测质量。  相似文献   

9.
相似性查询是一种非常重要的数据挖掘应用。由于数据流具有无限、高速等特性,传统的查询算法不能直接应用于数据流。提出了一种基于小波滑动窗口的多数据流相似性查询算法。算法首先将滑动窗口划分成若干等宽基本窗口,然后对每个基本窗口内的数据进行小波分解与系数约简,从而形成小波摘要窗口。执行相似性查询时,直接基于小波摘要进行计算,而无需数据重构。由于利用了小波分解的线性处理优点,算法具有较低的时间复杂度。最后,基于实际数据对算法进行了实验,实验结果证明了算法的有效性。  相似文献   

10.
在数据流聚类算法中,滑动窗口技术可以及时淘汰历史元组、只关注近期元组,从而改善数据流的聚类效果。如果同时数据流流速无规律地随时间动态变化,原来单纯的滑动窗口技术在解决这类问题时存在缺陷,所以,在充分考虑了滑动窗口大小和数据流流速之间关系的前提下,提出了基于动态可调衰减滑动窗口的变速数据流聚类算法。该算法对历史元组和近期元组分别赋予一定的权重进行处理,然后依据数据流流速的不同函数改变窗口的大小,从而实现数据流的聚类。提出了该数据流聚类算法的数据结构——变异数据流聚类的数据结构。通过真实数据和模拟数据来构造动态变速数据流从而作为验证算法的原始数据。实验结果表明,与Clu Stream聚类算法相比,该方法具有较高的聚类质量、较小的内存开销和较少的聚类处理时间。  相似文献   

11.
在图相似性搜索问题中,图编辑距离是较为普遍的度量方法,其计算性能很大程度上决定了图相似性搜索算法的性能。针对传统图编辑距离算法中存在的因大量冗余映射和较大搜索空间导致的性能低下问题,提出了一种改进的图编辑距离算法。该算法首先对图中顶点进行等价划分,以此计算映射编码来判断等价映射;然后定义映射完整性更新等价映射优先级,选出主映射参与扩展;其次,设计高效的启发式函数,提出基于映射编码的下界计算方法,快速得到最优映射。最后,将改进的图编辑距离算法扩展应用于图相似性搜索。在不同数据集上的实验结果表明,该算法具有更好的搜索性能,在搜索空间上最大可降低49%,速度提升了约29%。  相似文献   

12.
数据集成环境下基于相似度的数据库聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
郑凯  梁卓明  郑文栋 《计算机工程》2011,37(19):71-72,75
数据集成环境中的全局数据规划方法复杂度很高,且需要经历较长的周期。针对该问题,提出一种基于相似度集合运算的数据库聚类算法,利用自定义的相似数据库、数据库聚类和聚类距离描述数据库的聚类过程,并给出聚类效果的评价方法。实例分析结果证明,该算法简单且具有通用性。  相似文献   

13.
基于广义超曲面树的相似性搜索算法   总被引:2,自引:0,他引:2  
张兆功  李建中 《软件学报》2002,13(10):1969-1976
相似性搜索是数据挖掘的主要领域之一.它在数据库中检索出相似的数据,发现数据间的相似性.它可以应用于图像数据库、空间数据库和时间序列分析.对于欧氏空间(一种特殊的度量空间),相似性搜索算法中基于R-tree的方法,在低维时是高效的,当维数增加时,R-tre e的方法将退化为线性扫描.该现象被称为维数灾难(dimensionality curse),主要原因是存在数据重复.当数据量很大且维数很高时,距离计算和I/O操作将非常费时.提出了度量空间上新的空间分割方法和索引结构rgh-tree,利用数据库的数据对象与很少几个固定参考对象的距离信息进行数据分割和分布,产生一个各节点没有数据重复的平衡树.另外,在rgh-tree的基础上提出了相应的相似性搜索算法,该算法具有较小的I/O代价和距离计算次数,平均复杂性近似为o(n0.58).解决了目前算法存在的一些问题.  相似文献   

14.
一种基于最大加权频繁项目集的数据库相似性判别算法   总被引:1,自引:0,他引:1  
在引入最大加权频繁项目集之后,给出一种新的数据库相似性度量模型,并提出基于最大加权频繁项目集的数据库相似性度量算法.该算法可有效地改进基于最大频繁项目集的数据库相似性度量方法,提高数据库相似性度量准确性.在实际应用中,改进模型为分布多库环境下数据挖掘的数据准备提供有效的框架,因而具有重要的使用价值.  相似文献   

15.
Iterative Learning Control Using Information Database (ILCID)   总被引:2,自引:0,他引:2  
This paper presents an iterative learning control using an information database (ILCID) for linear as well as nonlinear continuous time systems. It is proposed that a proper and efficient selection of the initial control input using the experience of previously tracked trajectories can improve the convergence rate of an iterative learning controller without modifying its control structure. The information database consists of previously tracked trajectories and their corresponding control inputs. For a new trajectory, the database can be searched for a trajectory similar to the new one by using a similarity index defined in this paper. Initial control input for the new trajectory then can be set by using the control input of the similar trajectory found from the database. It is shown by the simulations that the convergence rate of the iterative learning controller can be improved by using this technique.  相似文献   

16.
在产品外观设计专利侵权纠纷的判定中,缺乏科学、客观、定量的评判依据。为此,提出一种改进的基于复球面映射的产品形状相似性度量算法。以STL模型表征产品三维模型的几何形状特征,将模型表面面片映射到经过经纬划分的最小外接球上,得到包含面片法向、面积和空间位置信息的特征描述子,利用统计特征方法计算模型之间的相似度。实验结果表明,该算法具有较好的稳定性和可靠性。  相似文献   

17.
One of the main steps toward integration or exchange of data is to design the mappings that describe the (often complex) relationships between the source schemas or formats and the desired target schema. In this paper, we introduce a new operator, called MapMerge, that can be used to correlate multiple, independently designed schema mappings of smaller scope into larger schema mappings. This allows a more modular construction of complex mappings from various types of smaller mappings such as schema correspondences produced by a schema matcher or pre-existing mappings that were designed by either a human user or via mapping tools. In particular, the new operator also enables a new “divide-and-merge” paradigm for mapping creation, where the design is divided (on purpose) into smaller components that are easier to create and understand and where MapMerge is used to automatically generate a meaningful overall mapping. We describe our MapMerge algorithm and demonstrate the feasibility of our implementation on several real and synthetic mapping scenarios. In our experiments, we make use of a novel similarity measure between two database instances with different schemas that quantifies the preservation of data associations. We show experimentally that MapMerge improves the quality of the schema mappings, by significantly increasing the similarity between the input source instance and the generated target instance. Finally, we provide a new algorithm that combines MapMerge with schema mapping composition to correlate flows of schema mappings.  相似文献   

18.
戴东波  熊赟  朱扬勇 《软件学报》2010,21(4):718-731
序列数据在文本、Web访问日志文件、生物数据库中普遍存在,对其进行相似性查找是一种重要的获取和分析知识的手段.基于参考集索引技术是一类解决序列相似性查找的有效方法,主要思想是找到序列数据库中的少数序列作为参考集,通过参考集过滤掉数据库中与查询序列不相关的数据,从而高效地回答查询.在现有基于参考集索引技术的基础上,提出一种过滤能力更强的序列相似性查询算法IRI(improved reference indexing).首先,充分利用了先前的查询结果集来加速当前的查询,其次考虑了基于序列特征的上界和下界,使得应用参考集进行过滤的上下界更紧,过滤能力进一步加强.最后,为了避免候选集中费时的编辑距离计算,则只计算前缀序列间的编辑距离,从而进一步加速算法运行.实验采用真实的DNA序列和蛋白质序列数据,结果表明,算法IRI在查询性能上明显优于现有的基于参考集索引方法RI(reference indexing).  相似文献   

19.
基于本体的概念间相似度计算已经在信息检索等诸多领域成为当今信息技术研究的热点问题之一。本文的工作是针对描述同一领域的多个本体间存在的异构问题,设计一种快速高效的映射算法来实现异构本体的融合。本文提出了一种基于异构本体的相似度计算方法,通过字面概念相似度和语义结构(包括节点深度、节点密度、边权重、信息量等)相似度等方面的综合计算,可以准确地得到异构本体间的概念映射关系;同时,通过对映射方法的优化,算法的匹配速度也有很大程度的提高。实验结果表明,该算法可以有效地排除本体异构的影响,得到较好的概念相似性计算效果。  相似文献   

20.
在豆瓣网络数据上对传统的协同过滤推荐算法进行改进,分别考虑最近邻和有向相似度方向的作用,对图书、电影和音乐收藏列表进行个性化推荐。推荐的结果在准确度、多样性和新奇性三种被广泛使用在衡量推荐算法效果的指标上进行比较和分析。结果表明,相比传统协同过滤推荐算法,两种改进算法均能够保证多样性和新奇性,同时最近邻算法可有效降低算法复杂度,而有向相似度算法则具有更高的推荐准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号