首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
基于比对相似度动态矩阵聚类算法在基因序列中的应用   总被引:1,自引:0,他引:1  
基于BAG图的聚类算法 ,利用聚类单元引导类的分割 ,保证聚类结果不会产生过多的类碎片 ,但其相似分数阈值Cutoff初始值和最长公共子串最小长度阈值Threshold如何确定并没有明确给出。提出基于比对相似度动态矩阵的聚类算法 ,并在此基础上明确给出了确定cutoff初始值和Threshold阈值的方法。实验结果表明该算法可以获得较好的聚类正确率。  相似文献   

2.
句子相似度的动态规划求解及改进   总被引:2,自引:1,他引:2  
基于例子的机器翻译,其很关键的步骤之一就是如何从语料库中找到待译句子的最佳相似句。论文针对这个问题提出了利用动态规划方法基于句子相似矩阵进行求解的方法。根据这个方法就可以从语料库中为待译句子找到最佳相似句,同时在求解过程中还做了一些改进:利用矩阵分块求解的方法保留了句子的连续相似块,保证了结果的质量,对提高EBMT系统的翻译质量起到了一定的促进作用。  相似文献   

3.
提出一种基于句子相似度的论文抄袭检测模型。利用局部词频指纹算法对大规模文档进行快速检测,找出疑似抄袭文档。根据最长有序公共子序列算法计算句子间的相似度,并标注抄袭细节,给出抄袭依据。在标准中文数据集SOGOU-T上进行的实验表明,该模型具有较强的局部信息挖掘能力,在一定程度上克服了现有的论文抄袭检测算法精度不高的缺点。  相似文献   

4.
汉语句子相似度计算方法比对之研究   总被引:1,自引:0,他引:1  
相似句子检索,在自然语言处理领域具有非常广泛的应用背景,如信息过滤技术中的句子模糊匹配,基于实例的机器翻译的原语言检索,自动问答系统中常问题集的检索以及问题与答案的匹配,基于双语语料库的英文辅助写作等。本文在介绍了汉语句子相似度计算的有关概念之后,对几种典型的汉语句子相似度的计算方法进行了介绍,并分析了各方法的优缺点。  相似文献   

5.
多种字符串相似度算法的比较研究   总被引:3,自引:0,他引:3  
对计算字符串相似度的编辑距离算法、最长公共子串算法、贪心字符串匹配算法、RKR-GST等多种算法,根据匹配过程是否有序,对这些算法进行了分类。然后对每种算法的实现原理进行了描述,并给出每个算法的运行步骤,结合一个实际的例子列出了算法运行的结果,最后给出每种算法计算相似度的计算公式和算法时间复杂度及应用领域。由于字符串相似度具有广泛的应用领域,对其中经典的几种算法进行总结对比是一件十分有意义的研究工作。  相似文献   

6.
一种基于模式的汉语句子相似度计算方法   总被引:3,自引:0,他引:3  
句子相似度计算是EBMT系统实现的关键。本文将模式这一特殊的句子结构形式应用于汉语句子相似度计算,并给出了基本的实现算法。  相似文献   

7.
基于改进编辑距离的字符串相似度求解算法   总被引:1,自引:0,他引:1  
编辑距离(LD)算法在求解两个字符串的相似问题时只考虑了编辑操作次数,未考虑字符串之间的公共子串对相似度的影响。为此,提出一种基于改进编辑距离的字符串相似度求解算法,对字符串相似度度量公式及Levenshtein矩阵计算方法进行改进。在计算编辑距离时,以原有矩阵求出两字符串的最长公共子串及所有LD回溯路径。选取一个单词作为源串,一组与源串不同程度相似的单词为目标串,将改进的相似度度量公式与现有的字符串相似度计算方法进行比较,改进公式减少了进入胜者表的目标串数,相似度的样本极差和标准差分别为0.331和0.150。实验结果表明,改进算法在不改变空间复杂度的情况下,计算字符串相似度的准确性更高,且查询方式更灵活。  相似文献   

8.
汉语句子相似度计算在FAQ中的应用   总被引:1,自引:3,他引:1       下载免费PDF全文
裴婧  包宏 《计算机工程》2009,35(17):46-48
通过对传统的汉语句子相似度模型进行改进,提出一种基于关键词加权的汉语句子相似度计算方法,在此基础上实现一个基于常问问题库的中文问答系统。该系统通过将用户输入的自然语言问句与常问问题库中的候选问题集进行相似度计算,自动返回最匹配的答案给用户,自动更新和维护常问问题库。实验结果表明该方法在问旬匹配上比传统方法具有更高的准确率。  相似文献   

9.
基于框架语义分析的汉语句子相似度计算   总被引:4,自引:0,他引:4  
句子相似度计算在自然语言处理的许多领域中发挥着重要作用.已有的汉语句子相似度计算方法由于考虑句子的语义不全面,使得相似度计算结果不够准确,为此提出一种新的汉语句子相似度计算方法.该方法基于汉语框架网语义资源,通过多框架语义分析、框架的重要度度量、框架的相似匹配、框架间相似度计算等关键步骤来实现句子语义的相似度量.其中多框架语义分析是从框架角度对句子中的所有目标词进行识别、框架选择及框架元素标注,从而达到全面刻画句子语义的目的;在此基础上根据句子中框架的语义覆盖范围对不同框架的重要度进行区分,能够使得相似度结果更准确.在包含多目标词的句子集上的实验结果显示,基于多框架语义分析的句子相似度计算方法相对传统方法获得了更好的测试结果.  相似文献   

10.
多层次结构句子相似计算的应用研究   总被引:1,自引:0,他引:1  
金春霞 《计算机应用与软件》2009,26(10):180-182,202
汉语句子的相似度计算是中文信息处理中的一个关键问题,也是自动阅卷系统中文字类主观题自动阅卷急需解决的核心问题.在词性、词义以及句子深层结构的基础上提出一种多层次结构句子相似度算法.该算法在自动阅卷系统中的应用能优化文字类主观题的自动评阅功能,提高自动批改的效率及准确性,具有较强的实用价值,并在实际的应用中已取得了较好的效果.  相似文献   

11.
数据流相似性查询广泛应用于智能家居、环境监测等领域.当前以LCSS(longest common subsequence)作为相似性测度函数的研究并不多.NAIVE算法使用基本动态规划方法计算测度函数值,通过该值与相似阈值的比较得到查询结果,对基于LCSS的数据流相似性查询问题进行研究.针对NAIVE算法必须在动态规划矩阵所有成员取值的计算完成后才能得到查询结果的缺点,提出了一种基于PS(possible solution)-CC(column critical)域优化策略的数据流相似性查询处理算法.该算法划定了每个窗口上动态规划矩阵的PS域和CC域,很好地利用了这2个域中成员所具有的性质和相似性查询的特点,无须获得测度函数的最终值便可得到查询结果,省略了很多矩阵成员的计算.实验部分证明了该算法的有效性,与同类算法相比,在处理具有更高精度结果要求的查询时效果更好.  相似文献   

12.
针对当前主要的汉语句子相似度计算方法存在的问题,通过对大量的中文语句进行构式语义分析,提取构式语块特征,构建构式义特征库,并提出了一种基于构式语块的中文句子相似度计算方法.该方法最大化语块粒度,缩小语义理解间隙.在计算时,首先,通过自上而下语块分析方法,利用HMM学习算法,对复杂多样的汉语句子进行构式语块识别;然后,采用自底向上的计算方式,获取得到构式块间的相似度;最后,计算得出句子间的相似度量值.对比句子相似度实验结果表明,论文提出的计算方法优于其他算法.  相似文献   

13.
句子相似度是衡量文档相似度的基础,在自然语言处理领域中有着非常重要的作用。目前的句子相似度计算方法忽略了句子的结构对相似度的影响。本文在分析已有研究工作的基础上,提出了一种改进的句子相似度计算方法。依据知网对"实体概念"的描述,构造出义原的语义层次树,由各个义原在树中的相对位置,计算出义原之间的相似度。对三种义原加权求和得到词语之间的语义相似度。综合句子的表层相似度和句子的词语语义以及词语的相对位置关系,得到句子的整体相似度。实验表明,在同等的测试条件下,本文所提出的句子相似度计算方法在相似度比较上更符合人的直观感觉。  相似文献   

14.
基于Hadoop的句群相似度计算   总被引:2,自引:1,他引:1  
介绍了Hadoop开源框架、Map/Reduce编程模型以及语句相似度计算原理,利用Hadoop框架下的Map/Reduce编程模型实现了句群相似度并行计算方法。通过实验验证了该算法的稳定性和处理大量数据的可行性。  相似文献   

15.
句子相似度的计算在自然语言处理的各个领域中都占有很重要的地位。文中深入分析了现有的一些句子相似度计算的方法,这些方法各自从词特征、词义特征或句法特征等某一侧面描述了句子相似的情况,未能全面地描述一个句子的完整信息。文中提出了一种新的基于多特征的汉语句子相似度的计算模型。该方法在基于词的基础上,从句子中词的表层到词的逻辑联系,从句子的局部结构到整体结构,用句子的区分度、相同词的相似度、长度相似度、词性相似度及词序相似度五个方面来综合考虑两个句子相似度的计算。实验结果表明,该方法合理、简便、可行。  相似文献   

16.
双语句子相似度旨在计算不同语言句子间的语义相似程度,在信息检索、平行语料库构建、机器翻译等领域有重要作用。由于汉语、老挝语平行语料稀少,且老挝语在语义表达、句子结构上与汉语有明显差异,导致汉老双语句子相似度研究的难度较大。该文提出了一种融合文本特征的汉老双语句子相似度计算方法,并构建了句子相似度模型。首先,在句子相似度模型中将汉语、老挝语的词性、数字共现等文本特征与GloVe预训练词向量融合,以此丰富句子特征,提升模型计算准确率。其次,由基于自注意力的双向长短时记忆网络组成多层孪生网络来提取长距离上下文特征和深层次语义信息,其中自注意力机制可以保证语义信息的有效利用。最后,采用迁移学习的方法将通用模型参数初始化,并使用不同的微调参策略增强模型的泛化能力。实验表明,该文提出的方法,其召回率、准确率和F1值分别达到了82.5%、85.78%和84.00%。  相似文献   

17.
语句相似度计算在主观题自动批改技术中的初步应用   总被引:23,自引:0,他引:23  
文字类主观题的自动批改是实现远程教学系统中在线考试功能的一个关键技术,由于其具有相当的难度,目前国内外在这方面的研究还不是很多,真正实用的系统更少。该文着重对语句相似度的计算进行了深入的研究,利用基于动态规划的语句相似度计算方法实现了文字类主观题的自动批改,测试结果初步达到预期目标。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号