首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 74 毫秒
1.
中文文本压缩的自适应算法   总被引:7,自引:3,他引:4  
本文初步分析了中文文本的存储结构特征, 并将其应用于文本压缩。对LZW(Lemple Ziv Welch)算法进行了两方面的改进:1.采用变码长编码, 对短文本的压缩有显著的效果;2.建立一删除规则, 当码本加满以后对码本进行删除整理, 使编码过程一直能够积累输入文本的相关信息, 对较长文本, 其压缩效果比基本LZW算法有显著改善。  相似文献   

2.
现代计算机的显示信号传输过程存在的电磁泄漏,从电磁泄漏还原得到的图像会受到噪声的严重污染,使得其中的文本内容难以识别.本文提出了一种新的模型,利用基于特征强化的神经网络(Feature Enhancement based Neural Network,FENN)对电磁泄漏还原图像中的中文文本进行识别.模型将去噪自编码器...  相似文献   

3.
中文文本分类器的设计   总被引:6,自引:0,他引:6  
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类型的过程。文章应用球形的k-均值算法确定每个文本的类标签,并通过Boosting算法构建分类器。构建的分类器具有以下特点:分类器的设计针对未知类标签的语料库,实用性好;分类器能随着语料库中文本的变化而增加新的类,具有很好的可扩展性;分类器基于Boosting算法,具有很好的分类精度。  相似文献   

4.
中文文本压缩的LZSSCH算法   总被引:7,自引:2,他引:7  
本文结合中文的特点,从建模编码、自适应索引扩位和最大索引位长等方面对LZSS 算法进行了修改,得到的LZSSCH 算法对以中文为主的中西文混合文本文件的压缩比平均与LZSS 算法高出约8 % ,而其压缩和扩展速度以及可执行程序的大小均与LZSS算法相当。算法无须任何预处理,还可用于压缩其它非拼音文字文本文件。  相似文献   

5.
闫璟辉  宗成庆  徐金安 《软件学报》2024,35(6):2923-2935
实体识别是信息抽取的关键技术. 相较于普通文本, 中文医疗文本的实体识别任务往往面对大量的嵌套实体. 以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法, 为此, 提出一种融合实体嵌套规则的中文实体识别方法. 所提方法在训练过程中将实体的识别任务转化为实体的边界识别与边界首尾关系识别的联合训练任务, 在解码过程中结合从实际医疗文本中所总结出来的实体嵌套规则对解码结果进行过滤, 从而使得识别结果能够符合实际文本中内外层实体嵌套组合的组成规律. 在公开的医疗文本实体识别的实验上取得良好的效果. 数据集上的实验表明, 所提方法在嵌套类型实体识别性能上显著优于已有的方法, 在整体准确率方面比最先进的方法提高0.5%.  相似文献   

6.
针对图像处理(如OCR技术)对图像方向要求十分严格,文本图像方向具有不确定性的问题,提出了中文文本图像倒置快速检测算法.利用投影技术定位出文本字符,结合中文字符及标点符号结构特征,筛选出文本图像中的标点符号,根据标点符号像素分布特点判断出类型,结合标点符号的使用习惯,采用统计的方法判断中文文本图像是否倒置.实验结果表明,投影方法可以不用基于内容达到高效快速的要求,利用统计方法可以保证判别率,该方法可用于OCR预处理过程.  相似文献   

7.
吴冬梅  杨尚国  王佐臣 《福建电脑》2010,26(2):65-65,86
对周期性序列傅里叶变换的三种求解方法进行了分析和讨论。目前大多数教材中都是采用通过直接给出变换的结果,再代入反变换的公式中求证的方法,从教学效果看,这种方法比较抽象,使学生难以理解。本文提出的根据离散时间傅里叶变换(DTFT)和傅里叶变换(FT)的关系以及利用周期序列的离散傅里叶级数(DFS)的求解方法可以使求解过程简化,易于被学生掌握。  相似文献   

8.
给出了一种基于离散傅里叶不变特征的人脸识别方法。从连续傅里叶变换出发,讨论连续傅里叶变换情况下的傅里叶变换性质,给出离散傅里叶变换情况下的傅里叶变换性质。依据离散傅里叶变换性质,推导出离散傅里叶变换的不变特征,并将其用于人脸图像识别。人脸识别结果表明方法具有很好的识别能力。  相似文献   

9.
面向中文文本分类的C4.5Bagging算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
对于中文文本分类问题,提出一种新的Bagging方法。这一方法以决策树C4.5算法为弱分类器,通过实例重取样获取多个训练集,将其结果按照投票规则进行合成,最终得到分类结果。实验证明,这种算法的准确率、查全率、F1值比C4.5、kNN和朴素贝叶斯分类器都高,具有更加优良的性能。  相似文献   

10.
中文文本情感分析研究综述   总被引:3,自引:0,他引:3  
对中文文本情感分析的研究进行了综述。将情感分类划分为信息抽取和情感识别两类任务,并分别介绍了各自的研究进展;总结了情感分析的应用现状,最后提出了存在的问题及不足。  相似文献   

11.
姜倩  刘曼 《计算机系统应用》2020,29(10):248-254
细粒度的图片分类是深度学习图片分类领域中的一个重要分支,其分类任务比一般的图片分类要困难,因为很多不同分类图片中的特征相似度极高,没有特别鲜明的特征用以区分,因而需要优化一个传统的图片分类方法.在一般的图片分类中,通常通过提取视觉以及像素级别的特征用来训练,然而直接应用到细粒度分类上并不太适配,效果仍有待提高,可考虑利用非像素级别的特征来加以区分.因此,我们提出联合文本信息和视觉信息作用于图片分类中,充分利用图片上的特征,将文本检测与识别算法和通用的图片分类方法结合,应用于细粒度图片分类中,在Con-text数据集上的实验结果表明我们提出的算法得到的准确率有显著的提升.  相似文献   

12.
基于小波和DCT的灰度压印字符图像的特征抽取   总被引:1,自引:0,他引:1  
标牌压印字符是“反光差”的凹凸字符,通常的基于二值化图像的字符特征抽取方法都不适宜。提出了基于灰度图像的标牌压印字符特征抽取新方法,首先对灰度字符进行圆周投影,然后利用小波变换,将投影曲线分解为大致信号和细节信号的子样本,最后对子样本进行DCT变换,生成凹凸字符的特征矢量。该方法是直接对灰度图像抽取字符特征,不仅可以尽量多地保持原始字符的特征,而且克服了传统的字符图像特征抽取时,过分依赖于二值化算法、抗干扰性差等弊病。对标牌压印有限凹凸字符集进行特征抽取和识别实验表明,该特征抽取方法具有尺度和旋转不变性,有较好的抗干扰性和很好的分类性能,实用价值很高。  相似文献   

13.
中文命名实体识别常使用字符嵌入作为神经网络模型的输入,但是中文没有明确的词语边界,字符嵌入的方法会导致部分语义信息的丢失。针对此问题,该文提出了一种基于多颗粒度文本表征的中文命名实体识别模型。首先,在模型输入端结合了字词表征,然后借助N-gram编码器挖掘N-gram中潜在的成词信息,有效地联合了三种不同颗粒度的文本表征,丰富了序列的上下文表示。该文在Weibo、Resume和OntoNotes4数据集上进行了实验,实验结果的F1值分别达到了72.41%、96.52%、82.83%。与基准模型相比,该文提出的模型具有更好的性能。  相似文献   

14.
图像和视频中的文字获取技术   总被引:6,自引:0,他引:6       下载免费PDF全文
许多图像都包含丰富的文字信息,如用作网页设计的以图像形式存在的标语和视频图像中的字幕。这些文字的自动检测、分割、提取和识别,对图像高层语义内容的自动理解、索引和检索非常有价值,因此引起国内外众多学者的研究兴趣。为使人们对该领域有一个系统的了解,并使该领域研究人员有所借鉴,在对目前国内外图像和视频中文字获取技术相关文献综合理解的基础上,综述了该领域的发展现状,同时从文字检测、抽取和文字识别两个方面,重点讨论了其主要的技术方法及应用优缺点,并结合当前面临的问题,指出今后可进一步研究的方向。  相似文献   

15.
古印章文本因图像退化与超多分类等特点导致识别难度大,部分字符的标注数据不足造成基于深度学习的模型识别准确率不高,泛化能力差.针对上述问题,提出基于深度残差网络(ResNet)和迁移学习的古印章文本识别方法.使用深度残差网络作为特征提取网络,利用人工合成字符样本作为源域进行预训练.将自建古印章文本识别数据集作为目标域,引...  相似文献   

16.
对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网络、场景文字识别深度学习网络、端到端场景文字检测与识别深度学习网络,并总结了各类网络的结构特点、优势、局限性、应用场景以及实现成本,接着进行了综合分析;最后介绍了公开数据集,并探讨了场景文字识别技术的发展趋势及可能的研究方向。  相似文献   

17.
Yuan  Tai-Ling  Zhu  Zhe  Xu  Kun  Li  Cheng-Jun  Mu  Tai-Jiang  Hu  Shi-Min 《计算机科学技术学报》2019,34(3):509-521
Journal of Computer Science and Technology - In this paper, we introduce a very large Chinese text dataset in the wild. While optical character recognition (OCR) in document images is well studied...  相似文献   

18.
现有的场景文本识别器容易受到模糊文本图像的困扰, 导致在实际应用中性能较差. 因此近年来研究人员提出了多种场景文本图像超分辨率模型作为场景文本识别的预处理器, 以提高输入图像的质量. 然而, 用于场景文本图像超分辨率任务的真实世界训练样本很难收集; 此外, 现有的场景文本图像超分辨率模型只学习将低分辨率(LR)文本图像转换为高分辨率(HR)文本图像, 而忽略了从HR到LR图像的模糊模式. 本文提出了模糊模式感知模块, 该模块从现有的真实世界HR-LR文本图像对中学习模糊模式, 并将其转移到其他HR图像中, 以生成具有不同退化程度的LR图像. 本文所提出的模糊模式感知模块可以为场景文本图像超分辨率模型生成大量的HR-LR图像对, 以弥补训练数据的不足, 从而显著提高性能. 实验结果表明, 当配备提出的模糊模式感知模块时, 场景文本图像超分辨率方法的性能可以进一步提高, 例如, SOTA方法TG在使用CRNN文本识别器进行评估时, 识别准确率提高了5.8%.  相似文献   

19.
本文对采用图像识别技术来辅助核电企业开展文档智能化应用进行研究。文章阐述了开展图像识别技术应用的业务背景、主要过程、实现原理和典型应用场景解决方案等内容,通过对基于图像识别技术的扫描文件清晰度的自动化检测以及基于光学图像文字识别技术的文件自动化拆分和比对这两个应用场景,阐述了面临的问题、解决方案的原理、具体的程序功能设计方案以及最终的应用效果。根据对应用效果的评估,证明了图像识别技术能够在文档智能化应用中发挥重要作用。通过本课题的研究和实践,为基于图像识别技术的文档智能化利用做了有益的探索。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号