共查询到19条相似文献,搜索用时 171 毫秒
1.
多文种环境下汉字内码识别算法的研究 总被引:9,自引:4,他引:9
汉字内码向ISO/IEC 10646过渡是实现计算机用文字编码统一的必然趋势,但目前在一段时间内仍将存在多种汉字内码并存的情况,所以实现汉字内码的自动识别是保证汉字多内码并存的关键。本文主要探讨了如何在多内码并存的多文种环境中实现汉字内码自动识别的问题,并提供了多种汉字内码识别算法,包括基于内码分布、标点符号特征、字频特征和语义特征的识别算法等。在此基础上,本文对不同的识别算法进行分析和评估。在对目标样本的测试中,以上算法的识别率最高可以达到99.9%以上。 相似文献
2.
金山词霸大家一定都很熟悉了,对于金山词霸的常用功能相信不用我说大家也都很清楚,什么屏幕取词啊,词典查询啊等等,不过我觉得对于这样知名的常用软件,对于它的一些常用技巧以及一些不容易发现的技巧我们还是很有必要归纳总结一下。 技巧一、查询多本词典 当用户在词霸的查词典窗口中输入单词后,在显示区可以显示单词的释意。不过这里显示的仅仅是一个简单词库的解释,要得到更多本词典的解释,你需要 相似文献
3.
12月上旬,金山公司推出了金山词霸2007版,该版本融汇过去十年来金山词霸进行的每一功能调整,给用户带来十大经典功能。一是中日英多语言查询功能,除去传统的中英互译之外,产品收录权威日文词典,总词条数达14万条,可准确进行中日互译;二是海量词汇功能,在收录150余本词典词书,涵盖计算机、生物、医学等70多个专业领域的同时,新版还收录了《美国传统词典》最新版;三是中日英多语言屏幕取词功能,金山词霸2007全面支持A d o b ereader7.0、Windows2000/XP、IE、MSN、QQ、Word、Outlook、Powerpoint等常用软件的屏幕取词;四是采用TTS语音… 相似文献
4.
风雨彩虹 《数字社区&智能家居》2007,(1):13
功能简介 灵格斯是一款简明易用的翻译与词典软件,支持多语种屏幕取词、索引提示和语音朗读功能,是新一代的词典翻译专家。灵格斯是一个强大的词典查询和翻译工具。它能很好地在阅读和书写方面帮助用户,让对外语不熟练的您在阅读或书写英文文章时变得更简单更容易。使用灵格斯创新的屏幕取词功能,您只需将鼠标移动到屏幕中的任何有单词的位置,按下Ctrl键,灵格斯就能智能地识别出该单词的内容及其所属的语言,即时显示出相应的翻译结果。灵格斯拥有当前主流商业词典软件的全部功能,并创新地引入了跨语言内核设计及开放式的词典管理方案,同时还提供了大量语言词典和词汇表下载,是学习各国语言,了解世界的最佳工具。 相似文献
5.
6.
本文介绍一个实用程序,它以屏幕汉字为临本,以十字光标为笔在屏幕上临摹其汉字,使之形成矢量汉字文件并存盘。文中阐述了编制源程序的原理,及所采用的激活十字光标、坐标转换、代码式矢量数据等技巧。给出了源程序,并举例阐明了程序的操作步骤。 相似文献
7.
8.
基于三层B/S结构,结合鼠标屏幕取词、快速中文地名识别和网络地图服务技术,设计并实现了一个空间信息隐形搜索引擎,实现即时、隐性的空间信息(文字和图形)动态获取。该引擎扩展了地理信息系统的应用模式,为空间信息服务提供了一种全新的技术。 相似文献
9.
10.
金山词霸大家一定都很熟悉了,对于金山词霸的常用功能相信不用我说大家也都很清楚,屏幕取词、词典查询等等。不过我觉得这么知名的常用软件,对于它的一些常用技巧以及一些不容易发现的技巧我们还是很有必要归纳总结一下。 相似文献
11.
笔顺连笔自由的联机手写汉字识别 总被引:2,自引:0,他引:2
论文针对联机手写汉字识别的笔顺自由、连笔自由问题,在整体DP匹配方法的基础上,提出了一种新的确定笔画对应关系的算法(最小风险算法),并同现有的CubeSearch法、匈牙利算法、近邻优先算法在识别速度、识别率等方面作了比较。该方法克服了现有的一些方法的不足,能高效地同时解决笔顺自由和连笔自由问题,而且由于主要采用全局特征进行识别,对形变和噪音具有很强适应能力。另外,字典可以通过聚类自动生成。另外还制作了原型系统,在对GB2312字符集进行的测试中,取得了较好的效果:在笔顺、连笔完全自由的情况下,单汉字平均识别时间小于0.3s,确定笔画对应关系的正确率达99.1%,识别率达94.5%。 相似文献
12.
13.
手写体汉字识别是字符识别领域中的难点。为了使机器识别汉字适应于手写体汉字的变形等因素,基于人类认识汉字的容错机理,提出了一种用于机器识字的汉字容错编码方法,以提高手写体汉字识别率。该编码方法首先对横竖撇捺笔划形态给出了模糊化表示;然后定义了仿人拆字的字元集,并给出了易混淆笔划字元的多归类容错编码;接着给出了笔划字元的顺序判断规则和归结了36类简单常用字的部首子结构,并给出冗余的容错编码;进而建立了仿人构字的汉字编码规则和具有容错性的多模板字典,并对《新华字典》中收录的10000余个单字汉字进行了标准编码,重码率为0.48%;最后对HCCORG和NKIM手写体汉字库中的100个手写体汉字进行了仿真识别,识别正确率为96%。试验结果表明,这种编码方法可生成多模板字典,不仅对手写体汉字变形具有较好的容错性,且重码率和误识率较低。 相似文献
14.
手写文本识别方法主要应用于文本输入技术,对人机交互领域的发展起关键作用。针对多数在线输入法无法识别中英文混合手写识别的问题,提出一种在线中英文混合手写文本识别方法。通过对文本笔画进行基于水平相对位置、垂直重叠率、面积重叠率规则的整合以及连笔切分,得到一系列字符片段,同时利用笔画个数、宽高比、中心偏离、平滑度等几何特征和识别置信度,对字符片段进行中英文分类。在此基础上,根据分类结果并结合自然语言模型的路径评价及动态规划搜索算法,分别对候选的中、英文字符片段进行合并处理,得到待识别的中、英文字符序列,并将其分别送入卷积神经网络的中、英文识别模型中,得到手写文本识别结果。实验结果表明,在线手写中英文混合文本识别正确率达93.67%,不仅能切分在线手写中文文本行,而且对包含字符连笔的在线手写中英文文本行也有较好的切分效果。 相似文献
15.
由于中文地址命名的不规范性和汉语语言特点,中文地址要素识别成为地址编码的关键技术。传统的特征字匹配和字典匹配方法,难以解决地址要素命名的多样性问题。借鉴自然语言处理技术,通过构建地址要素标注集,设计了基于条件随机场的中文地址要素识别方法。实验证明,与基于特征字的规则方法相比,基于条件随机场的方法能够在较大程度上提高识别效果。由于条件随机场模型具有较好的泛化能力,该方法具有更强的通用性,特别适宜于大规模地址数据的批量解析和大众化位置服务中地址编码的快速处理。 相似文献
16.
粗分类是提高汉字识别速度的主要手段。将RBF(Radial Basis Function neural network)神经网络用于汉字粗分类,采用汉字四边码和粗网格作为汉字粗分类的特征以进行比较。分别对GB2312-80一级字库印刷体及手写体进行实验,实验结果表明将RBF神经网络用于汉字粗分类比通常使用的欧式距离作为分类器有较好的性能。 相似文献
17.
针对移不变稀疏编码算法在线运行时效率不高的问题,提出一种能够明显提高移不变稀疏编码效率的快速算法,并结合稀疏分类实现对汽油发动机故障的在线识别。该算法首先把移不变问题从时域转换到频域上,然后采用特征标记法和拉格朗日对偶法对稀疏系数和分类字典进行求解,在保证稀疏识别精度的同时大幅降低了问题求解的时间复杂度,从而有效改善了发动机故障在线识别系统的实时性。在发动机上的实验结果表明,该算法在怠速和1?500~2?000?r/min工况下对五种常见机械故障的平均识别精度分别为92.35%和91.44%,和其他识别算法大致持平。但其平均在线分类时间仅为13.91?ms和14.5?ms,且分类字典的平均训练速度同样仅为1.43?s和1.47?s,均明显快于其他识别算法。 相似文献
18.
受限领域中最长地点实体提及的提取研究 总被引:1,自引:0,他引:1
实体是构成事件信息的基本单元,在事件中扮演着重要的角色。在自然语言处理领域,实体识别是信息提取、句法分析、机器翻译、篇章理解等应用领域重要的基础性工具。汉语句法成分特有的套叠现象决定了实体表达的复杂性,增加了识别的难度。这使得已有的用于命名实体识别中的研究方法在长地点实体的识别中不能取得好的效果。为研究自动提取实体方法,文章从事件报道领域出发,以最长地点实体为对象,对325篇新闻语料进行地点实体标注和抽取,分析、研究了地点实体的出现特征,并根据分析结论提出实体提取可行方案。 相似文献
19.
随着代码自动生成技术的发展,基于文本规范的传统嵌入式软件开发模式逐渐被基于模型的设计方法所取代,代码自动生成技术是基于模型的开发方法中一项核心技术,而MATLAB中RTW工具箱是代码自动生成最优秀的工具,首先对基于RTW的代码自动生成机制进行了分析,研究了VxWorks目标代码的结构及变量命名规则,并从程序实时运行机制方面进行了分析,方便用户对自动生成的代码进行二次开发;采用该技术进行VxWorks嵌入式软件开发,可大大提高开发效率。 相似文献