共查询到14条相似文献,搜索用时 187 毫秒
1.
该文提出了一种字形相似度计算方法,旨在解决汉字中相似字形(称作形似字)的识别和查找问题。首先,提出了汉字拆分方法,并构建了偏旁部首知识图谱;然后,基于图谱和汉字的结构特点,提出2CTransE模型,学习汉字实体语义信息的表示;最后,将输出的实体向量用于汉字字形的相似度计算,得到目标汉字的形似字候选集。实验结果表明,该文所提出的方法对于不同结构汉字的字形相似度计算有一定效果,所形成的汉字部件组成库,为之后字形计算的相关研究提供了行之有效的数据集。同时,也拓宽了日语等类汉语语言文字字体相似度计算的研究思路。 相似文献
2.
汉语是一种开放大字符集语言,汉字字形相似度计算是汉语信息处理的一项基础研究,对于汉字识别、计算机辅助的汉语文章校对和汉字教学都有重要作用.本文对现有汉字字形结构描述方法从图形相似角度进行了改进,并给出了一种基于结构描述的字形相似度计算算法,该方法计算相似度无需字形样本实例的学习训练,对于常用字和难于获取书写样本的生僻字的相似度计算,都具有很好的适应性,可满足不断扩大的汉字集合计算相似度的需要.实验表明,采用此法计算得到的GB2312中6763个汉字的相似字表,与人的认知结果吻合度很好,并应用于计算机辅助校对系统中的别字修改提示,显示出较好效果. 相似文献
3.
一种笔段网格汉字字形描述方法 总被引:7,自引:0,他引:7
现有计算机汉字字形描述方法在特征选取、字形比对计算方面存在缺陷,无法解决输入错字、古籍异体字、拼合字和自动比对字形等问题.面向应用提出一种具有颗粒度适当、无歧义、规范化基元特征,能描述一切可能字形(包括错字、异体字、拼合字)骨架异同的笔段网格汉字字形描述方法,并基于该描述给出了简单笔画、复合笔画分类及自动提取、结构关系计算等算法.实验表明,该方法可用于支持各种字形的描画输入和字形整体、局部比对计算. 相似文献
4.
由于目前计算机缺乏对汉字字形统一有效的形式化描述和比对计算方法,致使无法描画输入所需的各种可能汉字,也无法利用计箅机对字形进行比对分析.提出一种具有颗粒度适当、无歧义、规范化基元,能描述各种可能字形(包括错字、古籍异体字、拼合字)骨架异同的笔段网格汉字字形描述方法;并基于该方法给出了字形比对算法,它能自动提取字形包含的简单笔画和复合笔画,根据字形的不同自适应地选取复合笔画或简单笔画,并以此为单位进行比对;最后将计算两字形最优配对笔画间的向量距离总和作为比对结果.实验结果表明,该方法具有很强的字形描述能力,字形比对算法对结构规范字形的比对准确牢较高,可用于支持各种汉字的描画输入及面向字形比对分析的各种应用. 相似文献
5.
目前汉字字形描述方法存在的主要问题是缺少能涵盖一切可能汉字的可计算的字形形式化描述体系,从而造成汉字处理应用中的一系列障碍。本文给出了一种汉字网格字形描述方法,实验表明,该方法具有描述一切可能汉字字形(包括错字)骨架的能力,支持不同颗粒度的构字元素、结构关系等字形特征的自动提取和计算,为字形特征的自动分析处理提供了一种有效的手段,从而也为基于字形计算的各种应用建立了可靠的基础。 相似文献
6.
基于部件的文本相似度计算 总被引:1,自引:0,他引:1
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,以汉字数学表达式理论为基础,提出了一种新的文本部件粒度表示方法,根据部件频次建立文本特征向量空间模型,并在此模型基础上给出了相应的文本相似度计算公式及算法,用于计算两文本之间的相似度.实验结果表明,该算法与现有典型的相似度计算方法相比,具有实现精度高、计算简便等优点. 相似文献
7.
8.
现有文本复制检测技术均基于相似度计算,针对其模型特征表示高维稀疏、算法设计复杂低效等问题,本文提出了一种新的基于汉字部件直方图的文本复制检测算法。其基本原理是根据汉字的数学表达式理论将文本中的所有汉字进行部件拆分,对部件频率进行统计,构造文本汉字部件直方图,以其作为文本的特征表示并将其间的相似度距离值作为复制检测评估依据。通过实验确定了巴氏距离为直方图相似度距离的计算公式。对比实验结果表明本算法查准率、召回率、F1值方面具有可取性。 相似文献
9.
10.
本文分析了目前汉字处理应用中存在的主要问题,归纳出问题的核心是由于缺少能涵盖一切可能汉字的、可计算的字形形式化描述体系,从而造成应用中有一系列障碍。发现了现有字形描述方法共同存在的特征选取缺陷,最后给出了一种可行的汉字网格字形描述方法,该方法不仅能表示一切可能的汉字字形(包括错字),而且为字形特征异同的自动计算奠定了可靠的基础。 相似文献
11.
12.
神经机器翻译技术是目前机器翻译应用中取得效果最好的方法。将外部语言学知识如单词词性、依存句法标签引入神经机器翻译系统以提高翻译性能已经被很多学者证明是一种行之有效的途径。相较于其他表音文字,汉字是一种形声字,其构造方法具有一半表音、一半表意的特殊结构,这种特殊的构造法使得汉字含有丰富的语义、语音和句法信息。该文在Marta R等工作的基础上,提出了一种新的将字形特征融入端到端模型的方法,并将之应用于中文到英文的翻译上。与基准系统相比,该方法在NIST评测集上获得平均1.1个点的显著提升,有效地证明了汉字字形特征可以对神经机器翻译模型起到促进作用。 相似文献
13.
命名实体识别(NER)作为自然语言处理的重要部分,在信息抽取和知识图谱等任务中得到广泛应用。然而目前中文预训练语言模型通常仅对上下文中的字符进行建模,忽略了中文字符的字形结构。提出2种结合五笔字形的上下文相关字向量表示方法,以增强字向量的语义表达能力。第一种方法分别对字符和字形抽取特征并联合建模得到字向量表示,第二种方法将五笔字形作为辅助信息拼接到字向量中,训练一个基于字符和五笔字形的混合语言模型。实验结果表明,所提两种方法可以有效提升中文NER系统的性能,且结合五笔字形的上下文相关字向量表示方法的系统性能优于基于单一字符的语言模型。 相似文献