共查询到20条相似文献,搜索用时 62 毫秒
1.
字体识别是印刷文档识别重构的重要组成部分,是目前识别技术的一个难题。以印刷文档的单体单字高识别率为基础,论文提出了一种基于篇章字体导引的汉字单字符字体识别方法,结合字体排版的规律性,使得字体识别速度和精度大大提高。以常用报纸、杂志正文文本为样本进行实验,字体识别率达到了99%。 相似文献
2.
基于笔划特征的单字符汉字字体识别 总被引:1,自引:0,他引:1
在文档电子化的文本自动分析、理解和识别过程中,除了有关文档内容的字符识别外,还必须解决字体识别问题.字体识别不仅是版面分析、理解和恢复的重要依据,还有助于实现高性能字符识别系统.有别于目前基于多个字符组成的文本块的字体识别方法,本文提出了一种基于单个汉字字符的字体识别方法.在单个汉字字符上提取两类特征:笔划属性特征和笔划分布特征,分别构成两个分类器对单个汉字字符进行字体识别,并集成两个分类器的结果得到最终的识别结果.我们使用的笔划属性特征分类器是文本无关的,而笔划分布特征分类器是文本相关的,集成的分类器属于文本相关的字体识别分类器.我们在包含7种字体的样本集上进行了测试,测试结果显示基于单字的字体识别率达到94.48%. 相似文献
3.
基于纹理特征的汉字字体识别研究 总被引:2,自引:0,他引:2
介绍了字体识别的重要性和有待解决的问题,提出了一种利用Gabor滤波器提取版面纹理特征进行字体识别的方法,着重介绍了滤液器设计、纹理特征提取和字体识别的过程。这种方法是与内容无关的,不需要局部微细特征分析,可以解决实际版面样弱印刷质量差、变形多的问题。用于常见字体的识别,取得了较好的效果。 相似文献
4.
文字种类识别及字体辨别已成为继印刷体文字识别以后新的国内外研究的热点,关于单字的手写体和印刷体辨别的研究不多,但在表单中却极为常用。对于字体辨别问题,引入流形学习算法局部线性嵌套(LLE),假定数据为存在于嵌入高维空间的一个低维流形。提出了用于单字字体辨别的LLE泛化方法及邻域和内在维数的参数估计方法,基于印刷体/手写体汉字字符及数字的辨别实验表明,其性能优于直接支持向量机(SVM)分类,且经过LLE降维后的数据直接用线性判别分析方法(LDA)分类可以获得与LLE计算后SVM分类相近甚至更高的正确率和更快的分类速度。 相似文献
5.
6.
针对文本图像编辑任务中编辑前后文字风格样式不一致和生成的新文本可读性不足的问题,提出一种基于字体字符属性引导的文本图像编辑方法。首先,通过字体属性分类器结合字体分类、感知和纹理损失引导文本前景风格样式的生成方向,提升编辑前后的文字风格样式一致性;其次,通过字符属性分类器结合字符分类损失引导文字字形的准确生成,减小文本伪影与生成误差,并提升生成的新文本的可读性;最后,通过端到端微调的训练策略为整个分阶段编辑模型精炼生成结果。对比实验中,所提方法的峰值信噪比(PSNR)、结构相似度(SSIM)分别达到了25.48 dB、0.842,相较于SRNet(Style Retention Network)和SwapText分别提高了2.57 dB、0.055和2.11 dB、0.046;均方误差(MSE)为0.004 3,相较于SRNet和SwapText分别降低了0.003 1和0.002 4。实验结果表明,所提方法能有效提升文本图像编辑的生成效果。 相似文献
7.
随着经济与文化水平的迅猛提升,我国与世界的交流合作正在向全方位、立体化的态势发展。汉字作为中华民族文化的载体也在社会发展过程中不断创新与完善。设计者如何在原有字体的基础上发挥自身的才智及潜能去总结各种形式法则和变化规律,创造独具特色的视觉传达风格,丰富和增强字体形式的表现力及影响力成为我们不得不思考的问题。 相似文献
8.
基于SVM的脱机手写汉字机器学习识别方法研究 总被引:3,自引:1,他引:3
提出了一种模糊统计方法的脱机手写体汉字特征提取方法.结合小波网格方法和汉字笔画密度特征方法对汉字进行特征提取,并运用支持向量机方法,通过机器学习对脱机手写汉字识别。仿真实验表明,支持向量机方法在脱机手写汉字识别中有良好的识别性能及模糊统计方法是有效的。 相似文献
9.
10.
11.
12.
对4方向背景方向特征进行了改进,提出了8方向背景特征描述方法。与4方向背景方向特征描述方法相比,改进后的特征描述方法可以从0°、45°、90°、135°、180°、225°、270°、315°共8个方向来对汉字图像进行考察,从而进一步提高描述的精度。此外,为了消除笔划粗细的影响,还对背景方向特征进行了归一化处理。实验结果表明改进后的归一化8方向背景方向特征具有更高的识别精度。 相似文献
13.
Chinese character recognition :history ,status and prospects 总被引:1,自引:0,他引:1
Chinese character recognition (CCR) is an important branch of pattern recognition. It was considered as an extremely difficult
problem due to the very large number of categories, complicated structures, similarity between characters, and the variability
of fonts or writing styles. Because of its unique technical challenges and great social needs, the last four decades witnessed
the intensive research in this field and a rapid increase of successful applications. However, higher recognition performance
is continuously needed to improve the existing applications and to exploit new applications. This paper first provides an
overview of Chinese character recognition and the properties of Chinese characters. Some important methods and successful
results in the history of Chinese character recognition are then summarized. As for classification methods, this article pays
special attention to the syntactic-semantic approach for online Chinese character recognition, as well as the metasynthesis
approach for discipline crossing. Finally, the remaining problems and the possible solutions are discussed. 相似文献
14.
汉字由笔画或子笔画组成,笔画或子笔画特征在手写体汉字识别中得到了广泛应用。论文提出一种模糊子笔画抽取方法,解决了因无限制手写体笔画随意性而使得抽取的子笔画不稳定的问题。计算字符边缘点“横”、“竖”、“撇”、“捺”的模糊子笔画属性特征,并将其与模糊网格相结合,生成模糊子笔画统计特征。银行支票手写体汉字大写金额识别的实验结果表明应用模糊子笔画统计特征能取得更好的识别效果。 相似文献
15.
AbbasH.Hassin Xiang-LongTang Jia-FengLiu WeiZhao 《计算机科学技术学报》2004,19(4):0-0
The Arabic Language has a very rich vocabulary. More than 200 million people speak this language as their native speaking, and over 1 billion people use it in several religion-related activities. In this paper a new technique is presented for recognizing printed Arabic characters. After a word is segmented, each character/word is entirely transformed into a feature vector. The features of printed Arabic characters include strokes and bays in various directions, endpoints, intersection points, loops, dots and zigzags. The word skeleton is decomposed into a number of links in orthographic order, and then it is transferred into a sequence of symbols using vector quantization. Single hidden Markov model has been used for recognizing the printed Arabic characters. Experimental results show that the high recognition rate depends on the number of states in each sample. 相似文献
16.
17.
18.
19.