首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 140 毫秒
1.
一种新颖的汉字字形相似度计算方法   总被引:1,自引:0,他引:1  
为了利用字形描述技术识别相似汉字, 提出了三元组递归表示的汉字字形相似度计算方法。该算法把汉字表示为汉字结构、字首部件和字尾部件三元组, 以部件为运算对象, 字型结构为运算符, 将汉字描述为前缀表达式。通过建立汉字字形相似度计算递归模型, 使计算过程被逐层分解为原子部件间的相似性比较, 从而更好地降低了计算的复杂性。然后将其用于计算汉字的最佳相似字。实验结果表明, 该方法与人的认知结果吻合度很好, 算法是有效可行的。  相似文献   

2.
该文提出了一种字形相似度计算方法,旨在解决汉字中相似字形(称作形似字)的识别和查找问题.首先,提出了汉字拆分方法,并构建了偏旁部首知识图谱;然后,基于图谱和汉字的结构特点,提出2CTransE模型,学习汉字实体语义信息的表示;最后,将输出的实体向量用于汉字字形的相似度计算,得到 目标汉字的形似字候选集.实验结果表明,该...  相似文献   

3.
一种笔段网格汉字字形描述方法   总被引:7,自引:0,他引:7  
现有计算机汉字字形描述方法在特征选取、字形比对计算方面存在缺陷,无法解决输入错字、古籍异体字、拼合字和自动比对字形等问题.面向应用提出一种具有颗粒度适当、无歧义、规范化基元特征,能描述一切可能字形(包括错字、异体字、拼合字)骨架异同的笔段网格汉字字形描述方法,并基于该描述给出了简单笔画、复合笔画分类及自动提取、结构关系计算等算法.实验表明,该方法可用于支持各种字形的描画输入和字形整体、局部比对计算.  相似文献   

4.
由于目前计算机缺乏对汉字字形统一有效的形式化描述和比对计算方法,致使无法描画输入所需的各种可能汉字,也无法利用计箅机对字形进行比对分析.提出一种具有颗粒度适当、无歧义、规范化基元,能描述各种可能字形(包括错字、古籍异体字、拼合字)骨架异同的笔段网格汉字字形描述方法;并基于该方法给出了字形比对算法,它能自动提取字形包含的简单笔画和复合笔画,根据字形的不同自适应地选取复合笔画或简单笔画,并以此为单位进行比对;最后将计算两字形最优配对笔画间的向量距离总和作为比对结果.实验结果表明,该方法具有很强的字形描述能力,字形比对算法对结构规范字形的比对准确牢较高,可用于支持各种汉字的描画输入及面向字形比对分析的各种应用.  相似文献   

5.
林民  宋柔 《中文信息学报》2008,22(3):115-123
目前汉字字形描述方法存在的主要问题是缺少能涵盖一切可能汉字的可计算的字形形式化描述体系,从而造成汉字处理应用中的一系列障碍。本文给出了一种汉字网格字形描述方法,实验表明,该方法具有描述一切可能汉字字形(包括错字)骨架的能力,支持不同颗粒度的构字元素、结构关系等字形特征的自动提取和计算,为字形特征的自动分析处理提供了一种有效的手段,从而也为基于字形计算的各种应用建立了可靠的基础。  相似文献   

6.
汉字词语的语义相似度计算是中文信息处理中的一个关键问题。文中利用网络搜索引擎提供的信息来计算汉语词对的语义相似性。首先通过程序访问搜索引擎,获取汉字词汇的搜索结果数,并依此实现了相似度计算模型WebPMI;然后描述了根据查询返回的文本片段进行语义相关性分析的模型CODC;最后,结合这个两个模型,给出了文中算法的伪代码。实验结果显示,文中的算法较好地利用了互联网信息,实现了一种较新的汉语词汇语义相似度计算方法,接近于利用词典提供的信息计算相似度的传统算法。  相似文献   

7.
一种基于云端信息保护的汉字计算模型   总被引:1,自引:0,他引:1  
提出了一种基于信息内容保护的信息安全模型。该模型利用将汉字笔画抽象为有向图的方法,设计了汉字笔画图抽象的具体方案,实现了对汉字字形结构的动态描述;建立了动态汉字字形描述库,设计了汉字字形的生成算法,实现了汉字字形的Web存储和特征字形的客户端输出。所提模型为汉字信息的云端存储和云端数据安全性保护提供了一种解决方案,不仅有助于汉字信息的安全保护,而且有助于汉字认知计算、语义计算等深度汉字信息计算。  相似文献   

8.
在信息检索,文本挖掘以及基于实例的机器翻译中,相似度计算都是一个关键问题.在实例机器翻译中,相似度计算一般是基于字符、词的匹配以及向量空间模型,但基于句子语义结构的相似度研究还不多见.借助了汉语框架语义网(Chinese FrameNet,简称CFN)的场景语义描述优势,提出了一种新的面向EBMT进行实例相似度计算的方...  相似文献   

9.
一个将黑白图象数据由离散化为连续的方法   总被引:4,自引:0,他引:4  
卫平  董韫美 《计算机学报》1989,12(8):601-609
本文提出一种求黑白图象连续表示的方法,针对质量要求最高的一种图象——汉字字形来讨论.所述方法可直接从汉字点阵数据得到描述汉字字形轮廓线的一组Bezier曲线,并可由此复原出原有点阵,从而表明了该方法对一般黑白图象的有效性.文章还讨论了实现字形数据连续化中遇到的若干计算机图形学方面的问题.  相似文献   

10.
手写汉字评价推动了计算机辅助教学的快速发展,如何通过手写汉字评价技术,在无教师帮助的情况下实现手写汉字的等级/规范性评价是当前研究的重点。对手写汉字评价相关概念以及发展趋势进行阐述;对手写汉字评价的不同研究方法进行详细介绍,包括基于规则、特征相似度计算、模糊矩阵以及机器学习等方面,并对各种方法的优缺点进行总结归纳;对手写汉字评价的反馈形式进行介绍,包括数据到文本生成、字形匹配与图形辅助等方面;分析手写汉字评价面临的多个问题,进一步思考其未来的发展。  相似文献   

11.
林民  宋柔 《计算机科学》2007,34(11):185-188
本文分析了目前汉字处理应用中存在的主要问题,归纳出问题的核心是由于缺少能涵盖一切可能汉字的、可计算的字形形式化描述体系,从而造成应用中有一系列障碍。发现了现有字形描述方法共同存在的特征选取缺陷,最后给出了一种可行的汉字网格字形描述方法,该方法不仅能表示一切可能的汉字字形(包括错字),而且为字形特征异同的自动计算奠定了可靠的基础。  相似文献   

12.
基于汉字结构的自然型文本水印算法*   总被引:6,自引:0,他引:6  
从汉字分类思维的角度,在充分利用汉字的二维象形性以及人眼视觉冗余特性的基础上,提出一种将结构化汉字字形拆分再重组的自然型文本水印算法。该算法通过汉字字形的拆分,增加了文档内容编码冗余,提高了水印信道容量,并通过调整汉字显示属性,增强水印的隐蔽性。最后对其进行实验验证,证明该算法兼具格式水印隐蔽性和语义水印鲁棒性的双重优点,并具有嵌入空间大的特点。  相似文献   

13.
针对部件组字过程中由于缩放变换造成的部件笔画粗细和衬线失真的问题, 提出了一种通过优化缩放变换直接生成目标字形的方法。通过部件变换序列的生成算法以及笔画变换操作算法实现了由原始部件直接生成目标部件的缩放变换。原型系统的实验结果表明, 该方法能够实现汉字部件的无失真缩放变换, 从而提高了汉字组字系统生成字形的质量以及字库自动化生成的效率。  相似文献   

14.
命名实体识别(NER)作为自然语言处理的重要部分,在信息抽取和知识图谱等任务中得到广泛应用.然而目前中文预训练语言模型通常仅对上下文中的字符进行建模,忽略了中文字符的字形结构.提出2种结合五笔字形的上下文相关字向量表示方法,以增强字向量的语义表达能力.第一种方法分别对字符和字形抽取特征并联合建模得到字向量表示,第二种方...  相似文献   

15.
神经机器翻译技术是目前机器翻译应用中取得效果最好的方法。将外部语言学知识如单词词性、依存句法标签引入神经机器翻译系统以提高翻译性能已经被很多学者证明是一种行之有效的途径。相较于其他表音文字,汉字是一种形声字,其构造方法具有一半表音、一半表意的特殊结构,这种特殊的构造法使得汉字含有丰富的语义、语音和句法信息。该文在Marta R等工作的基础上,提出了一种新的将字形特征融入端到端模型的方法,并将之应用于中文到英文的翻译上。与基准系统相比,该方法在NIST评测集上获得平均1.1个点的显著提升,有效地证明了汉字字形特征可以对神经机器翻译模型起到促进作用。  相似文献   

16.
TrueType汉字字形编辑器的设计与实现   总被引:4,自引:0,他引:4  
文中介绍了一个适合汉字汉字字形特点的、基于TrueType字形标准的汉这了字形编辑器,包括该编辑器的设计思想,关键技术以及实现情况。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号