首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 45 毫秒
1.
手写汉字生成是机器学习中一个重要的研究方向.近二十年来,针对手写汉字生成的研究大体可分为两个阶段:早期主要利用汉字的显式特征如结构和笔画等实现对汉字的分解,再通过算法实现汉字的生成.该类方法对汉字的分解准确度及数据集的精度要求较高,限制了该类方法的广泛应用.现阶段的汉字生成研究主要借助于深度神经网络来实现对汉字隐式特征的提取,从而生成更高质量的汉字并克服早期研究阶段数据集不足等问题.主要目的是对已有汉字生成研究进行全面系统的综述.  相似文献   

2.
手写汉字生成是机器学习中一个重要的研究方向.近二十年来,针对手写汉字生成的研究大体可分为两个阶段:早期主要利用汉字的显式特征如结构和笔画等实现对汉字的分解,再通过算法实现汉字的生成.该类方法对汉字的分解准确度及数据集的精度要求较高,限制了该类方法的广泛应用.现阶段的汉字生成研究主要借助于深度神经网络来实现对汉字隐式特征的提取,从而生成更高质量的汉字并克服早期研究阶段数据集不足等问题.主要目的是对已有汉字生成研究进行全面系统的综述.  相似文献   

3.
使用计算机生成图像是当前计算机视觉中图像识别研究常用的一种数据增强方法。设计一种基于深度卷积生成对抗网络(DCGAN)的手写汉字图像生成模型。通过消除传统网络中的全连接层,使用批量归一化和反卷积运算来创建深度卷积和反卷积网络结构,并将它们作为生成对抗网络中的判别模型和生成模型来实现对手写汉字图像的生成。实验表明,本设计具有较好的手写体汉字图像的生成效果。  相似文献   

4.
目前书法汉字的生成研究在汉字生成过程中需要大量先验汉字组成信息,不仅对前期数据收集工作的要求较高,而且影响研究成果的扩展性.针对此问题,文中提出基于结构约束的条件堆叠生成对抗网络的书法汉字生成方法.将源汉字图像直接提取的汉字笔迹作为结构约束条件,通过条件堆叠生成对抗网络模型生成高质量的书法汉字.同时提出通过伪目标样本的...  相似文献   

5.
蒙古文的每个字素在词的不同位置有着不同的书写形式,使得蒙古文字形结构多样且数量庞大,从而导致利用计算机辅助和传统人工方式设计蒙古文字体需要耗费大量的人力物力。故创建一种能自动生成蒙文字体风格的模型十分必要。国内外已有学者开展了对汉字和英文字体风格自动迁移的研究,但蒙古文领域仍处于空白阶段。因此,该文提出将条件生成对抗网络模型应用于蒙古文字体风格迁移,并给出了相关模型,实现了相应的算法和软件。在蒙古文字体数据集上进行实验,模型采用生成损失和判别损失衡量模型,Adam优化器自动调整学习率,逐渐减少差异值,直到生成器和判别器达到纳什平衡状态,可直接从蒙古文标题字体生成蒙古文手写体等字体,得到的生成字体样式基本接近真实字体样式,达到字体风格迁移的效果。  相似文献   

6.
手写汉字识别是模式识别与机器学习的重要研究方向和应用领域;近年来,随着深度学习理论方法的完善、新技术的层出不穷,深度神经网络在图像识别分类、图像生成等典型应用中取得了突破性的进展,其中,深度残差网络作为最新的研究成果,已成功应用于手写数字识别、图片识别分类等多个领域;将研究深度残差网络在脱机孤立手写汉字识别中的应用方法,通过改进残差学习模块的单元结构,优化深度残差网络性能,同时通过对训练集的预处理,从数据层面实现训练生成模型性能的提升,最后设计实验,验证深度残差网络、End-to-End模式在脱机手写汉字识别中的可行性,分析、总结存在的问题及今后的研究方向。  相似文献   

7.
手写汉字识别是手写汉字输入的基础。目前智能设备中的手写汉字输入法无法根据用户的汉字书写习惯,动态调整识别模型以提升手写汉字的正确识别率。通过对最新深度学习算法及训练模型的研究,提出了一种基于用户手写汉字样本实时采集的个性化手写汉字输入系统的设计方法。该方法将采集用户的手写汉字作为增量样本,通过对服务器端训练生成的手写汉字识别模型的再次训练,使识别模型能够更好地适应该用户的书写习惯,提升手写汉字输入系统的识别率。最后,在该理论方法的基础上,结合新设计的深度残差网络,进行了手写汉字识别的对比实验。实验结果显示,通过引入实时采集样本的再次训练,手写汉字识别模型的识别率有较大幅度的提升,能够更有效的满足用户在智能设备端对手写汉字输入系统的使用需求。  相似文献   

8.
关于手写汉字识别的研究   总被引:3,自引:0,他引:3  
本文在大量日本文献的基础上,援用"KJ"方法(综合不同性质的数据、信息,产生新的思想和概念的方法论),综述了手写汉字识别的研究.主要列举了本研究的各种算法和手段,也论述了on-line手写汉字识别以及与手写汉字识别的有关的应用领域.差不多全部归纳了手写汉字识别研究的必要的基本算法,阐述了研究的现状和动向.最后,也说明了手写汉字识别今后的研究课题和方向.  相似文献   

9.
郑宇  贾如  沈军  李茹 《计算机与数字工程》2021,49(12):2496-2500,2508
如今网络购物用户规模不断上升,评论数据成为消费者进行购买决策的主要依据.同时,商家需要利用评论明确用户.消费者没有充足时间、合适语言进行商品评论成为一个亟待解决的问题.然而,仅有少数网购平台在评论页面提供标签,只能说明商品局部特点,没有体现用户个性化需求.论文通过分析用户评论中彰显用户个性化的语言描述特点,不同种类商品的描述方面差异,设计能够自动生成个性化评论标签的算法,用标签充分体现商品特点与用户需求.将单个用户作为研究对象,其全部评论作数据集,在TextRank模型中加入词性-句法特征分析,捕获用户评论语言描述风格的内在联系.对比单独使用TextRank模型等三个成熟模型生成标签,算法效果更好.  相似文献   

10.
中文电子字典中汉字的属性有很多,如果每个属性都手工识别、计算、生成到汉字数据库中,整个系统会变得十分低效并且容易出现错误.分析了中文电子字典中汉字的属性特征,设计并实现了汉字各要素的生成算法和录入方案,将生成的数据保存在汉字数据库中,从而解决了由于汉字的复杂性使得数据库内容生成困难的问题,节省了大量的手工操作,并且能够迅速定位到要检索的数据,系统测试结果表明,该算法效率良好.  相似文献   

11.
HCL2000手写汉字数据库的更新及相关研究   总被引:2,自引:0,他引:2  
HCL2000 是目前最具影响力的手写汉字数据库之一,基于研究手写汉字规律的设计初衷,该数据库采用了以书写者为单位按文件形式组织和存放的方式。本文则从研究样本选择的应用角度出发,对HCL2000中的样本进行了重新组织,同时对该数据库中的错误进行了纠正,生成了一个新的手写汉字数据库HCL2004。文章最后基于HCL2004 数据库和方向线素特征进行了有关训练样本数对识别性能影响的研究,给出了3755类大字符集情况下的最佳训练样本数为300 的结论,同时还对识别过程中的样本选择问题进行了探讨。  相似文献   

12.
A comprehensive online unconstrained Chinese handwriting dataset, SCUT-COUCH2009, is introduced in this paper. As a revision of SCUT-COUCH2008 [1], the SCUT-COUCH2009 database consists of more datasets with larger vocabularies and more writers. The database is built to facilitate the research of unconstrained online Chinese handwriting recognition. It is comprehensive in the sense that it consists of 11 datasets of different vocabularies, named GB1, GB2, TradGB1, Big5, Pinyin, Letters, Digit, Symbol, Word8888, Word17366 and Word44208. In particular, the SCUT-COUCH2009 database contains handwritten samples of 6,763 single Chinese characters in the GB2312-80 standard, 5,401 traditional Chinese characters of the Big5 standard, 1,384 traditional Chinese characters corresponding to the level 1 characters of the GB2312-80 standard, 8,888 frequently used Chinese words, 17,366 daily-used Chinese words, 44,208 complete words from the Fourth Edition of “The Contemporary Chinese Dictionary”, 2,010 Pinyin and 184 daily-used symbols. The samples were collected using PDAs (Personal Digit Assistant) and smart phones with touch screens and were contributed by more than 190 persons. The total number of character samples is over 3.6 million. The SCUT-COUCH2009 database is the first publicly available large vocabulary online Chinese handwriting database containing multi-type character/word samples. We report some evaluation results on the database using state-of-the-art recognizers for benchmarking.  相似文献   

13.
基于可伸缩矢量图SVG的在线手写汉字是以SVG图像作为汉字图像格式、以SVG的path对象作为笔画的基本存储单元来对汉字进行显示和存储的,笔画的轮廓是以手写过程中记录的坐标值作为特征数值加以确定的。基于此种SVG手写汉字存储和表示形式,本文提出一种基于图论的在线连续手写汉字多步分割方法。该方法根据汉字笔画间的坐标位置关系对手写笔画序列构建无向图模型,并利用图的广度优先搜索将原笔画序列分割为互不连通的笔画部件,使偏旁部首分离较远、非粘连汉字得到正确分割;然后利用改进的tarjan算法对部件中的粘连字符进行分割,最后基于笔画部件间距,利用二分类迭代算法对间距进行分类,找出全局最佳分割位置,对过分割的部件进行重组合并。实验结果表明,该方法对于在线手写汉字的分割是有效可行的。  相似文献   

14.
目的 手写文本行提取是文档图像处理中的重要基础步骤,对于无约束手写文本图像,文本行都会有不同程度的倾斜、弯曲、交叉、粘连等问题。利用传统的几何分割或聚类的方法往往无法保证文本行边缘的精确分割。针对这些问题提出一种基于文本行回归-聚类联合框架的手写文本行提取方法。方法 首先,采用各向异性高斯滤波器组对图像进行多尺度、多方向分析,利用拖尾效应检测脊形结构提取文本行主体区域,并对其骨架化得到文本行回归模型。然后,以连通域为基本图像单元建立超像素表示,为实现超像素的聚类,建立了像素-超像素-文本行关联层级随机场模型,利用能量函数优化的方法实现超像素的聚类与所属文本行标注。在此基础上,检测出所有的行间粘连字符块,采用基于回归线的k-means聚类算法由回归模型引导粘连字符像素聚类,实现粘连字符分割与所属文本行标注。最后,利用文本行标签开关实现了文本行像素的操控显示与定向提取,而不再需要几何分割。结果 在HIT-MW脱机手写中文文档数据集上进行文本行提取测试,检测率DR为99.83%,识别准确率RA为99.92%。结论 实验表明,提出的文本行回归-聚类联合分析框架相比于传统的分段投影分析、最小生成树聚类、Seam Carving等方法提高了文本行边缘的可控性与分割精度。在高效手写文本行提取的同时,最大程度地避免了相邻文本行的干扰,具有较高的准确率和鲁棒性。  相似文献   

15.
开源数据集加速了深度学习的发展, 但存在许多不合理使用数据集的现象. 为保护数据集的知识产权, 近期工作提出数据集水印算法, 在数据集发布前预先植入水印, 当模型在此数据集上训练时该水印会被附着在模型中, 之后通过验证可疑模型是否存在水印来追溯数据集的非法使用. 但已有数据集水印算法无法在小扰动下提供有效并且隐蔽的黑盒水印验证. 为解决这一问题, 本文首次提出利用独立于图像内容与标签的风格属性来植入水印, 并限制对原数据集的扰动不涉及标签的修改. 通过不引入图像内容与标签的不一致性和额外的代理模型保证水印隐蔽性和有效性. 在水印验证阶段仅使用可疑模型的预测结果通过假设检验给出判断. 本文在CIFAR-10数据集上与现有5种方法相比较, 实验结果验证了本文提出的基于风格的数据集水印算法的有效性与功能不变性. 此外, 本文开展的消融实验验证了本文所提的风格优化模块的必要性, 算法在不同超参设定以及不同数据集下的有效性.  相似文献   

16.
The task of handwritten Chinese character recognition is one of the most challenging areas of human handwriting classification. The main reason for this is related to the writing system itself which encompasses thousands of characters, coupled with high levels of diversity in personal writing styles and attributes. Much of the existing work for both online and off-line handwritten Chinese character recognition has focused on methods which employ feature extraction and segmentation steps. The preprocessed data from these steps form the basis for the subsequent classification and recognition phases. This paper proposes an approach for handwritten Chinese character recognition and classification using only an image alignment technique and does not require the aforementioned steps. Rather than extracting features from the image, which often means building models from very large training data, the proposed method instead uses the mean image transformations as a basis for model building. The use of an image-only model means that no subjective tuning of the feature extraction is required. In addition by employing a fuzzy-entropy-based metric, the work also entails improved ability to model different types of uncertainty. The classifier is a simple distance-based nearest neighbour classification system based on template matching. The approach is applied to a publicly available real-world database of handwritten Chinese characters and demonstrates that it can achieve high classification accuracy and is robust in the presence of noise.  相似文献   

17.
针对卷积神经网络(CNN)在数据集(训练集)较小时,易发生过度拟合的现象,提出并实现了一种引入Selu激活函数并结合带参数归一化的Dropout方法的深度卷积生成式对抗网络用于图像增强,生成图像实现数据集扩充,从而解决深度学习图像分类研究中因图像数据不足造成的模型表达能力差、训练时易过度拟合的问题。通过裁剪、旋转、插值、畸变变换等扩充图像集的传统图像增强方法往往只能扩充样式单一甚至信噪比较低的图像,与传统图像增强方法扩充图像集不同,使用生成式对抗网络生成的图像明显区别于原始图像,不仅可以得到数量更多,内容更丰富的高质量图像,数据集扩充效率也得以提升。仿真实验表明,该生成式对抗网络得到了质量相对较高的图像,有效地扩充了数据集。  相似文献   

18.
Techniques for calculating the stroke directions of thinned binary characters and for detecting the intersections and end points of strokes by means of pattern matching and weighting method are proposed as a preprocessing of handwritten Chinese character recognition. We also propose a method for global classification of handwritten Chinese characters by means of projection profiles of strokes and show that the method is available for the Chinese characters written in the square style.  相似文献   

19.
目的 由于缺乏图像与目标语言域的成对数据,现有的跨语言描述方法都是基于轴(源)语言转化为目标语言,由于转化过程中的语义噪音干扰,生成的句子存在不够流畅以及与图像视觉内容关联弱等问题,为此,本文提出了一种引入语义匹配和语言评价的跨语言图像描述模型。方法 首先,选择基于编码器—解码器的图像描述基准网络框架。其次,为了兼顾图像及其轴语言所包含的语义知识,构建了一个源域语义匹配模块;为了学习目标语言域的语言习惯,还构建了一个目标语言域评价模块。基于上述两个模块,对图像描述模型进行语义匹配约束和语言指导:1)图像&轴语言域语义匹配模块通过将图像、轴语言描述以及目标语言描述映射到公共嵌入空间来衡量各自模态特征表示的语义一致性。2)目标语言域评价模块依据目标语言风格,对所生成的描述句子进行语言评分。结果 针对跨语言的英文图像描述任务,本文在MS COCO(Microsoft common objects in context)数据集上进行了测试。与性能较好的方法相比,本文方法在BLEU(bilingual evaluation understudy)-2、BLEU-3、BLEU-4和METE...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号