共查询到15条相似文献,搜索用时 218 毫秒
1.
一种笔段网格汉字字形描述方法 总被引:7,自引:0,他引:7
现有计算机汉字字形描述方法在特征选取、字形比对计算方面存在缺陷,无法解决输入错字、古籍异体字、拼合字和自动比对字形等问题.面向应用提出一种具有颗粒度适当、无歧义、规范化基元特征,能描述一切可能字形(包括错字、异体字、拼合字)骨架异同的笔段网格汉字字形描述方法,并基于该描述给出了简单笔画、复合笔画分类及自动提取、结构关系计算等算法.实验表明,该方法可用于支持各种字形的描画输入和字形整体、局部比对计算. 相似文献
2.
目前汉字字形描述方法存在的主要问题是缺少能涵盖一切可能汉字的可计算的字形形式化描述体系,从而造成汉字处理应用中的一系列障碍。本文给出了一种汉字网格字形描述方法,实验表明,该方法具有描述一切可能汉字字形(包括错字)骨架的能力,支持不同颗粒度的构字元素、结构关系等字形特征的自动提取和计算,为字形特征的自动分析处理提供了一种有效的手段,从而也为基于字形计算的各种应用建立了可靠的基础。 相似文献
3.
本文分析了目前汉字处理应用中存在的主要问题,归纳出问题的核心是由于缺少能涵盖一切可能汉字的、可计算的字形形式化描述体系,从而造成应用中有一系列障碍。发现了现有字形描述方法共同存在的特征选取缺陷,最后给出了一种可行的汉字网格字形描述方法,该方法不仅能表示一切可能的汉字字形(包括错字),而且为字形特征异同的自动计算奠定了可靠的基础。 相似文献
4.
汉语是一种开放大字符集语言,汉字字形相似度计算是汉语信息处理的一项基础研究,对于汉字识别、计算机辅助的汉语文章校对和汉字教学都有重要作用.本文对现有汉字字形结构描述方法从图形相似角度进行了改进,并给出了一种基于结构描述的字形相似度计算算法,该方法计算相似度无需字形样本实例的学习训练,对于常用字和难于获取书写样本的生僻字的相似度计算,都具有很好的适应性,可满足不断扩大的汉字集合计算相似度的需要.实验表明,采用此法计算得到的GB2312中6763个汉字的相似字表,与人的认知结果吻合度很好,并应用于计算机辅助校对系统中的别字修改提示,显示出较好效果. 相似文献
5.
6.
《计算机应用与软件》2016,(5)
现有的Webfont汉字生成方法,需要设计专门的字库,工作量大且灵活性差。针对这一问题,将汉字特征点用字形动态描述库记录,在此基础上提出一种新的Webfont汉字的自动生成方法。研究基于特征点描述的汉字笔画提取、连接和优化方法,并对比基于B样条曲线和贝塞尔曲线的字形优化效果。为方便用户进行个性化字体生成,设计了用户自定义字形优化方法。实验结果证明,基于汉字字形动态描述库,用户无需下载字库,即可以在网页上生成符合自身需求的Webfont汉字。 相似文献
7.
8.
一种新颖的汉字字形相似度计算方法 总被引:1,自引:0,他引:1
为了利用字形描述技术识别相似汉字, 提出了三元组递归表示的汉字字形相似度计算方法。该算法把汉字表示为汉字结构、字首部件和字尾部件三元组, 以部件为运算对象, 字型结构为运算符, 将汉字描述为前缀表达式。通过建立汉字字形相似度计算递归模型, 使计算过程被逐层分解为原子部件间的相似性比较, 从而更好地降低了计算的复杂性。然后将其用于计算汉字的最佳相似字。实验结果表明, 该方法与人的认知结果吻合度很好, 算法是有效可行的。 相似文献
9.
10.
11.
神经机器翻译技术是目前机器翻译应用中取得效果最好的方法。将外部语言学知识如单词词性、依存句法标签引入神经机器翻译系统以提高翻译性能已经被很多学者证明是一种行之有效的途径。相较于其他表音文字,汉字是一种形声字,其构造方法具有一半表音、一半表意的特殊结构,这种特殊的构造法使得汉字含有丰富的语义、语音和句法信息。该文在Marta R等工作的基础上,提出了一种新的将字形特征融入端到端模型的方法,并将之应用于中文到英文的翻译上。与基准系统相比,该方法在NIST评测集上获得平均1.1个点的显著提升,有效地证明了汉字字形特征可以对神经机器翻译模型起到促进作用。 相似文献
12.
挖掘电商评论文本中的电商事件对分析用户购物行为和商品场景分类有重要帮助。该文给出电商事件的定义,将电商事件识别问题转换为序列标注问题,构建了一个基于电商评论文本的电商事件标注数据。该文首先在基于字符的BiLSTM-CRF神经网络模型上进行扩展,加入语言模型词向量(Embeddings from Language Models,ELMo)来提高识别性能。进而考虑中文字形特征,包括五笔和笔画特征。提出两种引入字形特征的新模型,即在预训练语言模型中结合事件的字形信息进行建模。实验结果表明融入字形特征的ELMo可以进一步提高模型性能。最后,该文分别使用新闻和电商领域两份大规模无标注数据训练语言模型。结果表明,电商领域语料对系统的帮助更大。 相似文献
13.
针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果进行改进。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,所以该文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance,共计31 210个文本句,包含4类实体。该文在语料库HITSZ-Finance上进行了一系列实验,实验结果均表明模型的有效性。 相似文献
14.
命名实体识别(NER)作为自然语言处理的重要部分,在信息抽取和知识图谱等任务中得到广泛应用。然而目前中文预训练语言模型通常仅对上下文中的字符进行建模,忽略了中文字符的字形结构。提出2种结合五笔字形的上下文相关字向量表示方法,以增强字向量的语义表达能力。第一种方法分别对字符和字形抽取特征并联合建模得到字向量表示,第二种方法将五笔字形作为辅助信息拼接到字向量中,训练一个基于字符和五笔字形的混合语言模型。实验结果表明,所提两种方法可以有效提升中文NER系统的性能,且结合五笔字形的上下文相关字向量表示方法的系统性能优于基于单一字符的语言模型。 相似文献