共查询到20条相似文献,搜索用时 203 毫秒
1.
传统的实体识别中,往往是利用字符串相似性函数来计算元组对在每个属性值上的相似度从而来判断其总的相似性(例如,元组对的相似性等于每个属性值上的相似度的加权求和)。然而这一类相似性测度不能够反映属性值内部不同的词在元组对相似性计算中的不同重要性。由于不能区分哪些词对元组对匹配更重要,就导致仍然存在某些匹配的元组相似性不高,而不匹配的元组相似性高的情况,故很难将匹配元组对和不匹配元组对有效区分开。为了解决这个问题,提出了以词为特征的距离度量函数,设计了基于词特征的距离度量学习算法,和基于距离度量的实体识别算法。扩展性实验对所提出的算法的有效性进行了验证。 相似文献
2.
按照元组描述的实体对其进行组织和查询处理,是一种管理劣质数据的有效方法.考虑到同一个实体的同一属性存在多个描述的值,因此,基于实体的数据库上的连接是支持多个值的相似性连接.与字符串的相似性连接相比较,实体的相似性连接在数据清洗、信息集成、模糊关键字查询、诈骗检测和文本聚集等领域有着更好的应用效果.通过建立双层索引结构,提出了实体数据库上相似性连接算法ES-JOIN.同时,该方法适用于解决集合中字符串模糊匹配的相似性连接问题,而传统的集合相似性连接只针对集合中元素精确匹配的情况.为了加速连接,还提出了过滤措施对算法进行优化,进一步给出了优化算法OPT_ES-JOIN.实验验证了ES-JOIN算法和OPT_ES-JOIN算法具有很好的效率和可扩展性.实验结果表明,过滤措施具有很好的过滤效果. 相似文献
3.
结合流形排序和区域匹配的图像检索 总被引:1,自引:0,他引:1
给出一种基于数据流形排序(Manifold Ranking)和分割区域匹配的图像检索方法.在Manifold Ranking方法的基础上,提出区域匹配图(Region Matching Graph,RMG)的方法,通过计算图像的区域匹配权值,进行第二次相似性匹配,提高了匹配准确性.在Corel图像数据库对该方法进行了检索仿真,结果表明该方法能有效提高检索的准确性. 相似文献
4.
为了解决传统模板匹配算法在人脸检测中检测率低和速度慢的问题,提出一种新的人脸检测算法(BSICP).引入最佳相似性作为相似性度量,只考虑匹配图像之间的相似点,减少错误匹配;以尺度迭代最近点算法作为搜索策略代替传统的逐点扫描匹配方法,加快检测速度.实验结果表明,该算法在IMDB-WIKI数据库中的五组变换图像下检测率均能达到97%以上,而且速度保持在0.076 s左右,具有很好的检测效果. 相似文献
5.
光谱图相似性匹配是推测化合物结构的重要研究方法之一,而如何在标准谱图数据库中进行相似性查找是关键步骤。传统的谱图匹配方法在数据量较大时,检索效率较低。本文首次将互关联后继树(TRST)算法思想应用于光谱图数据领域,从光谱图特征数据点出发,通过对算法的改进,提出了1种基于斜率序列的互关联后继树算法(SSIRST)实现光谱图相似性匹配查找,旨在通过减少匹配过程中的数据量缩短查找时间。实验结果表明,算法可以有效提高光谱图相似性匹配查找效率1倍以上。 相似文献
6.
7.
数据流技术目前已广泛应用于金融分析、网络监控及传感器网络等诸多领域,而已有的相似性匹配技术主要针对时间序列数据库,难于直接应用于高速、连续、实时、海量的流数据,因此在数据流上渐进、实时地进行子序列匹配成为一个极具价值和挑战性的问题。在动态时间规整技术的基础上,设计了一种新颖的界限机制,充分利用相似性阈值,尽量减少冗余计算,算法完全符合数据流“单遍扫描”的性能要求,并通过大量的模拟和真实数据实验表明:与现有的SPRING算法相比,在不损失任何算法精度的前提下,仅增加几个字节的空间开销,速度至少提高3倍。 相似文献
8.
9.
10.
《计算机应用与软件》2015,(11)
在数据流聚类算法中,滑动窗口技术可以及时淘汰历史元组、只关注近期元组,从而改善数据流的聚类效果。如果同时数据流流速无规律地随时间动态变化,原来单纯的滑动窗口技术在解决这类问题时存在缺陷,所以,在充分考虑了滑动窗口大小和数据流流速之间关系的前提下,提出了基于动态可调衰减滑动窗口的变速数据流聚类算法。该算法对历史元组和近期元组分别赋予一定的权重进行处理,然后依据数据流流速的不同函数改变窗口的大小,从而实现数据流的聚类。提出了该数据流聚类算法的数据结构——变异数据流聚类的数据结构。通过真实数据和模拟数据来构造动态变速数据流从而作为验证算法的原始数据。实验结果表明,与Clu Stream聚类算法相比,该方法具有较高的聚类质量、较小的内存开销和较少的聚类处理时间。 相似文献
11.
在图相似性搜索问题中,图编辑距离是较为普遍的度量方法,其计算性能很大程度上决定了图相似性搜索算法的性能。针对传统图编辑距离算法中存在的因大量冗余映射和较大搜索空间导致的性能低下问题,提出了一种改进的图编辑距离算法。该算法首先对图中顶点进行等价划分,以此计算映射编码来判断等价映射;然后定义映射完整性更新等价映射优先级,选出主映射参与扩展;其次,设计高效的启发式函数,提出基于映射编码的下界计算方法,快速得到最优映射。最后,将改进的图编辑距离算法扩展应用于图相似性搜索。在不同数据集上的实验结果表明,该算法具有更好的搜索性能,在搜索空间上最大可降低49%,速度提升了约29%。 相似文献
12.
13.
基于广义超曲面树的相似性搜索算法 总被引:2,自引:0,他引:2
相似性搜索是数据挖掘的主要领域之一.它在数据库中检索出相似的数据,发现数据间的相似性.它可以应用于图像数据库、空间数据库和时间序列分析.对于欧氏空间(一种特殊的度量空间),相似性搜索算法中基于R-tree的方法,在低维时是高效的,当维数增加时,R-tre e的方法将退化为线性扫描.该现象被称为维数灾难(dimensionality curse),主要原因是存在数据重复.当数据量很大且维数很高时,距离计算和I/O操作将非常费时.提出了度量空间上新的空间分割方法和索引结构rgh-tree,利用数据库的数据对象与很少几个固定参考对象的距离信息进行数据分割和分布,产生一个各节点没有数据重复的平衡树.另外,在rgh-tree的基础上提出了相应的相似性搜索算法,该算法具有较小的I/O代价和距离计算次数,平均复杂性近似为o(n0.58).解决了目前算法存在的一些问题. 相似文献
14.
一种基于最大加权频繁项目集的数据库相似性判别算法 总被引:1,自引:0,他引:1
在引入最大加权频繁项目集之后,给出一种新的数据库相似性度量模型,并提出基于最大加权频繁项目集的数据库相似性度量算法.该算法可有效地改进基于最大频繁项目集的数据库相似性度量方法,提高数据库相似性度量准确性.在实际应用中,改进模型为分布多库环境下数据挖掘的数据准备提供有效的框架,因而具有重要的使用价值. 相似文献
15.
Iterative Learning Control Using Information Database (ILCID) 总被引:2,自引:0,他引:2
Muhammad Arif Tadashi Ishihara Hikaru Inooka 《Journal of Intelligent and Robotic Systems》1999,25(1):27-41
This paper presents an iterative learning control using an information database (ILCID) for linear as well as nonlinear continuous time systems. It is proposed that a proper and efficient selection of the initial control input using the experience of previously tracked trajectories can improve the convergence rate of an iterative learning controller without modifying its control structure. The information database consists of previously tracked trajectories and their corresponding control inputs. For a new trajectory, the database can be searched for a trajectory similar to the new one by using a similarity index defined in this paper. Initial control input for the new trajectory then can be set by using the control input of the similar trajectory found from the database. It is shown by the simulations that the convergence rate of the iterative learning controller can be improved by using this technique. 相似文献
16.
17.
Bogdan Alexe Mauricio Hernández Lucian Popa Wang-Chiew Tan 《The VLDB Journal The International Journal on Very Large Data Bases》2012,21(2):191-211
One of the main steps toward integration or exchange of data is to design the mappings that describe the (often complex) relationships
between the source schemas or formats and the desired target schema. In this paper, we introduce a new operator, called MapMerge,
that can be used to correlate multiple, independently designed schema mappings of smaller scope into larger schema mappings.
This allows a more modular construction of complex mappings from various types of smaller mappings such as schema correspondences
produced by a schema matcher or pre-existing mappings that were designed by either a human user or via mapping tools. In particular,
the new operator also enables a new “divide-and-merge” paradigm for mapping creation, where the design is divided (on purpose)
into smaller components that are easier to create and understand and where MapMerge is used to automatically generate a meaningful
overall mapping. We describe our MapMerge algorithm and demonstrate the feasibility of our implementation on several real
and synthetic mapping scenarios. In our experiments, we make use of a novel similarity measure between two database instances
with different schemas that quantifies the preservation of data associations. We show experimentally that MapMerge improves
the quality of the schema mappings, by significantly increasing the similarity between the input source instance and the generated
target instance. Finally, we provide a new algorithm that combines MapMerge with schema mapping composition to correlate flows
of schema mappings. 相似文献
18.
序列数据在文本、Web访问日志文件、生物数据库中普遍存在,对其进行相似性查找是一种重要的获取和分析知识的手段.基于参考集索引技术是一类解决序列相似性查找的有效方法,主要思想是找到序列数据库中的少数序列作为参考集,通过参考集过滤掉数据库中与查询序列不相关的数据,从而高效地回答查询.在现有基于参考集索引技术的基础上,提出一种过滤能力更强的序列相似性查询算法IRI(improved reference indexing).首先,充分利用了先前的查询结果集来加速当前的查询,其次考虑了基于序列特征的上界和下界,使得应用参考集进行过滤的上下界更紧,过滤能力进一步加强.最后,为了避免候选集中费时的编辑距离计算,则只计算前缀序列间的编辑距离,从而进一步加速算法运行.实验采用真实的DNA序列和蛋白质序列数据,结果表明,算法IRI在查询性能上明显优于现有的基于参考集索引方法RI(reference indexing). 相似文献
19.
基于本体的概念间相似度计算已经在信息检索等诸多领域成为当今信息技术研究的热点问题之一。本文的工作是针对描述同一领域的多个本体间存在的异构问题,设计一种快速高效的映射算法来实现异构本体的融合。本文提出了一种基于异构本体的相似度计算方法,通过字面概念相似度和语义结构(包括节点深度、节点密度、边权重、信息量等)相似度等方面的综合计算,可以准确地得到异构本体间的概念映射关系;同时,通过对映射方法的优化,算法的匹配速度也有很大程度的提高。实验结果表明,该算法可以有效地排除本体异构的影响,得到较好的概念相似性计算效果。 相似文献