首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
提出基于胶囊神经网络(CapsNet)的汉字字形表征模型,通过表征汉字字形中的部件实现汉字字形的表征.首先,对任一汉字字形生成所有部件类别的表征向量.然后,根据部件存在概率,利用基于欧氏距离的离群点检测,选取相应的部件表征向量.最后,由选出的部件表征向量组成该汉字的字形表征.实验表明,文中模型在仅经过部件字形训练的情况下,即可有效识别汉字部件,同时自动生成汉字字形的有效表征.  相似文献   

2.
陈静  穆志纯  方新  杜大鹏 《计算机工程》2007,33(11):170-172
汉字识别是汉语、汉字认知研究的一个重要研究领域。该文提出了一个基于多层自组织神经网络的模型,从汉字字形聚类及汉字部件拆分的角度,对基于汉字认知的汉字识别过程进行了初步的探索。模拟研究结果表明,模型通过学习能够识别出汉字的结构类型和部件,发现汉字识别中的规律,在一定程度上模拟了汉字的识别。  相似文献   

3.
现有文本复制检测技术均基于相似度计算,针对其模型特征表示高维稀疏、算法设计复杂低效等问题,本文提出了一种新的基于汉字部件直方图的文本复制检测算法。其基本原理是根据汉字的数学表达式理论将文本中的所有汉字进行部件拆分,对部件频率进行统计,构造文本汉字部件直方图,以其作为文本的特征表示并将其间的相似度距离值作为复制检测评估依据。通过实验确定了巴氏距离为直方图相似度距离的计算公式。对比实验结果表明本算法查准率、召回率、F1值方面具有可取性。  相似文献   

4.
本文面向手写字符序列输入信号连续识别研究,分析了汉字及联机手写文本的特点,提出并构建了手写汉字部件集。基于该部件集,完成了GB2312-80的6,763个汉字的部件拆分编码和部件集的测试。统计编码数据发现,汉字依手写部件数的分布规律呈对数正态分布。本文从统计学和字符识别技术的角度对手写部件的构字能力作了分析和讨论,部件集的设计方案在部件选择和汉字拆分上均满足设计要求。实验表明,基于手写部件构造的部件识别器对手写汉字和连续汉字的部件识别率分别达到70.21%和58.49%。  相似文献   

5.
马华  郑阳  王新萍  韩忠东  张西学 《软件》2011,(10):44-46
针对在刻字软件中人工对汉字拆分费时费力的问题,提出一个EPS文件中矢量汉字拆分模型。该模型在分析EPS文件中矢量汉字的构成特点基础上,设计了两个类以及类中方法的算法,其中的EPS文件类的算法用来读写EPS文件、拆分汉字部件,汉字部件类的算法完成移动和绘制汉字部件等功能。模型用c#语言编程实现,结果表明模型稳定、准确、高效,大大减少了人们拆字的工作量。  相似文献   

6.
自动识别手写印刷体汉字系统中的部件分离问题   总被引:1,自引:0,他引:1  
在用抽取笔划有序列法自动识别手写印刷体汉字的系统中,分离出汉字“部件”是很必要的,这里所说的“部件”是指汉字中一些能分离的笔划组合,主要是汉字的偏旁部首(或字根),由计算机自动识别汉字的需要而定。 在以笔划为基元,用句法结构法识别汉字的系统中分离部件是为了恢复部件的有序性,本文提出了一种适合于分离手写印刷体汉字部件的方法,给出这种分离部件方法的框图和在PDP-11/23计算机上进行模拟试验所得到的结果。  相似文献   

7.
《信息处理用GB 13000.1字符集汉字部件规范》和《现代常用字部件及部件名称规范》这两个文件对规范汉字部件具有重要意义。但在实践中,它们存在着部件过多以及没有可行的拆分规则这两个最突出的问题,其原因是规范的制定缺乏系统和深层次的思考。要从根本上解决这些问题,就必须重新审视其中的拆分规则,将拆分规则和部件制定融为一体,并立足于有利于汉字输入、汉字教学和汉字检索这三者统一的层面来完善汉字部件规范。实验证明,这样做行之有效。  相似文献   

8.
为将《颜勤礼碑》现有碑文中的部件合成新颜体字,需要进行汉字部件处理。现有的主流图像处理软件无法在不改变字体部件大小、边缘形态的情况下对其横向、纵向加粗或者细化部件。为此,提出一种汉字部件膨胀、细化以及优化的旋转算法。该算法可解决采用普通算法对部件多次旋转后严重失真的问题。基于该算法编写的《颜勤礼碑》汉字软件可以通过人工微调的方式横向、纵向加粗或者细化部件笔画以及旋转部件,以使合成的新字整体上达到协调、美观的效果。  相似文献   

9.
汉字数学表达式的自动生成   总被引:10,自引:0,他引:10  
汉字的数学表达式是一种全新的汉字表示方法.通过对汉字部件特征的深入分析,利用图像处理技术对汉字数学表达式的自动生成做了探讨.选取了大约500个基本汉字部件,提取了各部件的连通数、亏格数、端点数、折点数、连接点数、交叉点数以及NMI,HNMI,VNMI值作为汉字部件的基本特征;并通过汉字连通区域的分割与合并进行汉字部件的划分和识别;最后,通过汉字结构的识别得到了汉字的数学表达式.实验中,汉字表达式自动生成的正确率为92%.这将在排版印刷、广告及包装设计、网络传输和中文移动通信等领域进一步促进中文信息的处理和传播.  相似文献   

10.
针对手写体汉字结构复杂、部件粘连等问题,提出一种基于结构知识的手写体汉字部件提取方法。依据汉字结构特征,结合投影法制定连通区域合并规则,实现汉字部件初步提取。在此基础上,针对部件间存在粘连等书写不规范问题,对传统滴水算法进行改进,实现粘连部件分割。经实验验证,该方法较传统滴水算法在粘连部件切分方面的效果有明显提升,可实现对多种结构汉字的部件提取,具有较高的实用价值。  相似文献   

11.
事件检测作为事件抽取的一个子任务,是当前信息抽取的研究热点之一。它在构建知识图谱、问答系统的意图识别和阅读理解等应用中有着重要的作用。与英文字母不同,中文中的字在很多场合作为单字词具有特定的语义信息,且中文词语内部也存在特定的结构形式。根据中文的这一特点,文中提出了一种基于字词联合表示的图卷积模型JRCW-GCN(Joint Representation of Characters and Words by Graph Convolution Neural Network),用于中文事件检测。JRCW-GCN首先通过最新的BERT预训练语言模型以及Transformer模型分别编码字和词的语义信息,然后利用词和字之间的关系构建对应的边,最后使用图卷积模型同时融合字词级别的语义信息进行事件句中触发词的检测。在ACE2005中文语料库上的实验结果表明,JRCW-GCN的性能明显优于目前性能最好的基准模型。  相似文献   

12.
朝鲜语自动分写问题类似于中文分词问题,属于朝鲜语自然语言处理中的基本问题。首先,针对传统的朝鲜语自动分写方法中依赖人工特征的问题,该文提出一种朝鲜语分写增强字符向量训练模型KWSE,用于获取包含语义及分写倾向性信息的字符向量。其次,将朝鲜语分写增强字符向量与LSTM-CRF模型结合,完成朝鲜语自动分写任务。实验结果表明该方法的单词级分写F1值为92.86%,优于其他方法。  相似文献   

13.
闫蓉  张蕾 《微机发展》2006,16(3):22-25
针对自然语言处理领域词义消歧这一难点,提出一种新的汉语词义消歧方法。该方法以《知网》为语义资源,充分利用词语之间的优先组合关系。根据优先组合库得到句中各个实词与歧义词之间的优先组合关系;将各实词按照优先组合关系大小进行排列;计算各实词概念与歧义词概念之间的相似度,以判断歧义词词义。实验结果表明该方法对于高频多义词消歧是有效的,可作为进一步结构消歧的基础。  相似文献   

14.
一种基于词义向量模型的词语语义相似度算法   总被引:1,自引:0,他引:1  
李小涛  游树娟  陈维 《自动化学报》2020,46(8):1654-1669
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题, 提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同, 在词义向量模型中多义词按不同词义被分成多个单义词, 每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息, 对语料库中不同上下文的多义词进行词义消歧; 然后基于词义消歧后的文本训练词义向量模型, 实现了现有词向量模型无法完成的精确词义表达; 最后对两个比较词进行词义分解和同义词扩展, 并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度.  相似文献   

15.
中文分词技术是把没有分割标志的汉字串转换为符合语言应用特点的词串的过程,是构建石油领域本体的第一步。石油领域的文档有其独有的特点,分词更加困难,目前仍然没有有效的分词算法。通过引入术语集,在隐马尔可夫分词模型的基础上,提出了一种基于自适应隐马尔可夫模型的分词算法。该算法以自适应隐马尔可夫模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现对石油领域专业术语和组合词的精确识别。通过与中科院的NLPIR汉语分词系统进行对比,证明了所提算法进行分词时的准确率和召回率有显著提高。  相似文献   

16.
一种基于字词结合的汉字识别上下文处理新方法   总被引:6,自引:0,他引:6  
根据字、词信息之间的互补性,提出一种字、词结合的上下文处理方法.在单字识别的基础上,首先利用前向一后向搜索算法在较大的候选集上进行基于字bigram模型的上下文处理,在提高文本识别率的同时可提高候选集的效率;然后在较小的候选集上进行基于词bigram模型的上下文处理.该方法在兼顾处理速度的同时,可有效地提高文本识别率.脱机手写体汉字文本(约6.6万字)识别中的实验表明:经字bigram模型处理,文本识别率由处理前的81.58%提高至94.50%,文本前10选累计正确率由94.33%提高到98.25%;再经词bigram模型处理,文本识别率进一步提高至95.75%。  相似文献   

17.
利用汉字数学表达式的思想,将汉字数学表达式库嵌入到开放式软件中,用来弥补汉字内码中包含信息量不足的缺点,使计算机能以比汉字更细粒度的汉字部件为基本单元来处理汉字,为中文信息处理提供了一种新思路。本文介绍了在开放式软件中,实现中文信息按汉字部件查找的设计方法。  相似文献   

18.
字标注分词方法是当前中文分词领域中一种较为有效的分词方法,但由于中文汉字本身带有语义信息,不同字在不同语境中其含义与作用不同,导致每个字的构词规律存在差异。针对这一问题,提出了一种基于字簇的多模型中文分词方法,首先对每个字进行建模,然后对学习出的模型参数进行聚类分析形成字簇,最后基于字簇重新训练模型参数。实验结果表明,该方法能够有效地发现具有相同或相近构词规律的字簇,很好地区别了同类特征对不同字的作用程度。  相似文献   

19.
刘金硕  张智 《计算机科学》2016,43(12):277-280
针对因中文食品安全文本特征表达困难,而造成语义信息缺失进而导致分类器准确率低下的问题,提出一种基于深度神经网络的跨文本粒度情感分类模型。以食品安全新闻报道为目标语料,采用无监督的浅层神经网络初始化文本的词语级词向量。引入递归神经网络,将预训练好的词向量作为下层递归神经网络(Recursive Neural Network)的输入层,计算得到具备词语间语义关联性的句子特征向量及句子级的情感倾向输出,同时动态反馈调节词向量特征,使其更加接近食品安全特定领域内真实的语义表达。然后,将递归神经网络输出的句子向量以时序逻辑作为上层循环神经网络(Recurrent Neural Network)的输入,进一步捕获句子结构的上下文语义关联信息,实现篇章级的情感倾向性分析任务。实验结果表明,联合深度模型在食品安全新闻报道的情感分类任务中具有良好的效果,其分类准确率和F1值分别达到了86.7%和85.9%,较基于词袋思想的SVM模型有显著的提升。  相似文献   

20.
中文汉字在横向、纵向展开具有二维的复杂结构。现有的中文词向量研究大都止步于汉字字符,没有利用中文笔画序列生成字向量,且受限于统计模型本质,无法为低频、未登录字词生成高质量向量表示。为此,该文提出了一种依靠中文笔画序列生成字向量的模型Stroke2Vec,扩展Word2Vec模型CBOW结构,使用卷积神经网络替换上下文信息矩阵、词向量矩阵,引入注意力机制,旨在模拟笔画构造汉字的规律,通过笔画直接生成字向量。将Stroke2Vec模型与Word2Vec、GloVe模型在命名实体识别任务上进行评测对比。实验结果显示,Stroke2Vec模型F1值达到81.49%,优于Word2Vec 1.21%,略优于GloVe模型0.21%,而Stroke2Vec产生的字向量结合Word2Vec模型结果,在NER上F1值为81.55%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号