首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
一种维吾尔语句子相似度算法的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
基于实例的机器翻译是一种重要的机器翻译技术,句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的维吾尔语机器翻译研究,维吾尔语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。提出了一种维吾尔语句子相似度的计算方法,采用的基于词形特征的粗选算法、散列单词倒排索引能够有效提高算法的查找速度,快速从语料库中筛选出候选句子集合;多策略精选算法中采用基于维吾尔语词频的单词区分度算法、连续单词序列抽取算法,可以有效衡量两个维吾尔语句子的相似程度,实验结果证明算法是有效的。  相似文献   

2.
基于实例的机器翻译(EBMT)是一种高效的机器翻译方法,如何快速地从海量实例模式库中找出与待翻译句子相似的候选实例,是EBMT研究的关键技术之一。统计分析维吾尔语单词字母的分布特征,构造了基于维吾尔语单词的倒排索引散列表,在等概率条件下,平均查找长度为1.59;依据散列冲突的同义词在维吾尔语料中出现的频率作为权值,提出了一种新颖的解决散列冲突的算法同义词次优树算法。实验显示,算法的性能比传统的顺序查找和二分查找算法分别高出了27.5 %,21.8%,证明了该算法在EBMT中有较高的检索效率。  相似文献   

3.
针对通用数据库海量数据检索速度慢的缺点,文章提出了一个数据检索优化系统.该系统通过将海量数据拆分成短语和单词,利用哈稀算法和基数排序算法,将拆分的短语和单词重新组织成词典,并对每个短语和单词建立倒排表,利用该倒排表对通用数据库中的海量数据做索引.使用这种基于倒排表的数据索引能够将数据检索速度降低到毫秒级.  相似文献   

4.
针对如何在大规模构件库中改善构件检索性能的问题,提出一种基于功能倒排索引与改进VSM(Vector Space Model)相似度的构件检索方法。应用功能倒排索引能够快速排除在功能上不相关的构件,有效缩小构件检索范围;对VSM相似度算法进行改进,提高构件检索的查准率。与常用检索方法的对比实验表明,该方法有效提高了检索速度,并且检索查全率与查准率也保持在较高水平。  相似文献   

5.
语句相似度计算在FAQ中的应用   总被引:1,自引:1,他引:1  
语句相似度主要用以衡量两个语句的相似程度。语句相似度计算方法应用于FAQ中,能够提高查找问题的精确性。文章提出的基于单字的倒排索引相似查找算法能够提高查找速度。  相似文献   

6.
提出了一种藏语句多特征融合的主观题自动评分算法,构建了关键词词形相似度计算模型、词序相似度计算模型、句子长度相似度计算模型和句子语义相似度计算模型。该算法将计算模型与最大相似度矩阵相结合,计算主观题的标准答案与学生答案之间句子、段落的相似度,最终做出自动评分。实验结果表明,与其他方法比较,该算法能有效降低平均误差值。  相似文献   

7.
根据本向量的维分布的稀疏性,提出了基于倒排索引的本相似搜索算法。该算法通过倒排索引进行维过滤,快速获得尽量小的目标集的超集。实验表明,在海量本环境下,该方法虽略微损失准确度,但其速度远远高于传统基于多维索引的算法。  相似文献   

8.
一种基于动态散列的GIS空间索引构造算法   总被引:1,自引:1,他引:0  
文章在介绍动态散列和传统空间索引四叉树的构造方法的基础上,综合二者的优点,提出了一种基于动态散列的空间索引构造算法,该方法改变了传统四叉树通过效率低下的空间对象的递归比较构造索引过程,采用计算机运算效率较高的二进制位运算和位比较的动态散列扩充散列值来构造空间索引。实践证明,该算法大大减少了空间索引的构造时间和效率,具有很高的应用价值。  相似文献   

9.
倒排索引是大型搜索引擎的核心数据结构,本质是倒排列表中整数序列的集合。倒排索引压缩可以有效减少倒排索引所占空间,提高对关键词的检索效率。本文提出的基于条件随机场(CRF)的分区倒排索引压缩算法主要关注域值分区的分区方式。该算法对序列进行预分区,并且使用条件随机场对预分区进行标注并重组,有效减少了压缩时间。根据分区类型,该算法使用相应的编码方式,进一步减少了压缩后的空间占用。与其他倒排索引压缩算法进行对比实验分析,结果表明本文算法在压缩率上超过目前一些域值分区的算法,并且在解压时间上与其他域值分区算法相当。该算法在时间和空间上取得了较好的平衡。  相似文献   

10.
基于分区的Elias-Fano算法被应用于倒排索引压缩,显示出良好的空间压缩性能。本文证明了Golomb-Rice算法的压缩性能优于Elias-Fano算法。结合基于分区的Elias-Fano算法中“分区”思想,提出一种基于分区的Elias-Fano-Golomb-Rice倒排索引压缩算法。实验结果表明,与其他倒排索引压缩算法相比,基于分区的Elias-Fano-Golomb-Rice倒排索引压缩算法有更好的压缩性能。  相似文献   

11.
目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要。实验结果表明,该方法能有效提升摘要质量。该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法。  相似文献   

12.
句子语义相似度的研究在自然语言处理等领域发挥着重要的作用.针对现有汉语句子相似度研究中存在的语义特征难以分析以及语序影响的问题,提出了一种基于DTW和匈牙利算法相结合的语义句子相似度处理模型.模型首先使用Word2vec深度学习模型训练百度新闻语料,得到200维的包含语义特征的词向量词典,并建立词向量空间,根据词向量组...  相似文献   

13.
在语义角色标注过程中,经常需要检索相似的已标注语料,以便进行参考和分析。现有方法未能充分利用动词及其支配的成分信息,无法满足语义角色标注的相似句检索需求。基于此,本文提出一种新的汉语句子相似度计算方法。该方法基于已标注好语义角色的语料资源,以动词为分析核心,通过语义角色分析、标注句型的相似匹配、标注句型间相似度计算等步骤来实现句子语义的相似度量。为达到更好的实验效果,论文还综合比较了基于知网、词向量等多种计算词语相似度的算法,通过分析与实验对比,将实验效果最好的算法应用到句子相似度计算的研究中。实验结果显示,基于语义角色标注的句子相似度计算方法相对传统方法获得了更好的测试结果。  相似文献   

14.
目前,对于动态手语的识别大多只是针对手语词汇的,对连续的手语语句的识别研究以及相应成果较少,原因在于难以对其进行有效的分割。提出了一种基于加权关键帧的手语语句识别算法。关键帧可以看作是手语词汇的基本组成单元,根据关键帧即可得到相关词汇,并将其组成连续的手语语句,从而避免了对手语语句直接做分割的难点。借助于体感设备,首先提出了一种基于手语轨迹的自适应关键帧提取算法,然后根据关键帧包含的语义对其进行加权处理,最后设计了基于加权关键帧序列的识别算法,得到连续的手语语句。实验证明,设计的算法可以实现对连续手语语句的实时识别。  相似文献   

15.
通过对语文古诗文阅读类主观题的分析,提出了结合学科情感分析与依存关系的相似度评分算法,并将其应用于高中语文古诗文阅读类主观题的评分中.首先,以中文维基百科语料为基础,增加了与评分相关的古诗文语料81927条,通过文本向量化算法Word2vec进行词向量训练,完成了对古诗文语料库的构建;基于学科评分特性建立了对应的古诗文...  相似文献   

16.
基于词典的汉藏句子对齐研究与实现   总被引:1,自引:0,他引:1  
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为 81.11%。  相似文献   

17.
为了改进传统以向量空间模型(VSM)为代表的基于词频统计的方法在中文段落相似度计算时存在的精度不高问题,在基于加权二部图匹配的思想上提出了一种计算中文段落之间相似度的方法。该方法将相似度计算分为段落和句子两个层次,将句子作为简单段落看待,也使用二部图匹配进行相似度计算。首先利用句子主干词汇提取算法来提取句子的主干词汇,将主干词汇作为二部图的顶点,把主干词汇之间的相似度作为二部图顶点之间的权值系数,进行句子相似度的计算。其次,将句子作为加权二部图的顶点,把句子之间的相似度作为二部图顶点之间的权值系数,进行段落之间的相似度计算。实验结果表明,该方法与VSM相比,由于它能准确识别同义词,自动匹配两个在段落中不同位置的相似词语,因而在准确度上有了很大的提高。  相似文献   

18.
传统的图像语义句子标注是利用句子模板完成对图像内容描述,但其标注句子很难做到符合语言逻辑。针对这一问题,提出基于统计思想从语料库中选出一条最优的句子来描述图像内容,设计以[N]-gram算法为主要思想的Sentence-Rank算法生成标注句子。首先执行机器视觉特征学习,选择标注性能最好的HSV-LBP-HOG融合特征完成图像分类,获得图像标注关键词。然后,利用字符串匹配算法从语料库中列出包含所有标注关键词的句子,并将得到的句子通过Sentence-Rank算法进行价值排序,选取评分最高的句子描述图像。实验结果表明,该方法得到的标注句子具有较低的困惑度,较好地解决了句子的语言逻辑问题。  相似文献   

19.
词义消歧是自然语言处理领域的一个重要研究课题。词义标注的一致性将直接影响语料库的建设质量,进而直接或间接影响到其相关的应用领域。由于语言本身的复杂性与发展性以及算法设计的难点和缺陷,目前各种词义标注的算法与模型还不能百分之百正确地标注词义,即不能保证词义消歧的正确性与一致性。而人工校验在时间、人力方面的投入是个难题。该文在对《人民日报》语料、语句相似度算法和语义资源《知网》研究的基础上,提出了对《人民日报》语料词义标注进行一致性检验的方法。实验结果表明,此方法是有效的。  相似文献   

20.
提出了一种基于句子级对齐的双语语料库的英汉词对齐方法。它建立在句对的集合表示形式的基础上。通过最小求交模型实现词对齐。使用倒排索引表和集合运算实现高效的最小求交算法。在对齐过程中引入高频干扰词表以提高召回率。实验结果表明,该方法优于使用共现互信息的词对齐和使用双语词典的词对齐方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号