首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于规则与统计相结合的中文文本自动查错模型与算法   总被引:7,自引:0,他引:7  
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43% ,误报率为30.57%。  相似文献   

2.
文本自动校对是自然语言处理的一个挑战性的研究课题,也是一个难题。该文对中文的错误类型和原因进行分析,提出了一种基于领域问答系统用户问题日志的错别字自动发现方法。该方法首先对语料进行分词,然后对分词的结果中出现的散串进行合并,对分词中的多字词和合并的串进行相似词串聚类,对相似词串的上下文语境进行统计分析,从中自动获取错别字对。实验表明,该系统获得71.32%的召回率,82.6%的准确率。  相似文献   

3.
中文的真词错误类似于英文的真词错误,指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法,通过对目标词的局部特征的提取,形成局部左邻接二元、右邻接二元及3个三元特征,然后通过和目标词对应的混淆集中的混淆词来估计二元概率和三元概率。最后提出一种多特征融合的模型,然后利用规则来判断中文文本中的真词错误。将查错结果分为标记错误和更改错误两种类型,采用18组混淆集,构造2万行的测试语料进行实验。实验表明,该方法能有效地发现中文文本中的真词错误,并且能给出真词错误的修改建议。该方法是一种集自动查错和自动纠错于一体的中文文本自动校对方法。  相似文献   

4.
语义级的自动查错一直是汉语文本自动校对技术的难点.针对汉语文本中的语义搭配错误,提出了一种基于<知网>义原搭配的有效的自动查错方法,主要包括语义知识库的构建和自动查错算法.语义知识库的构建分为两步:①根据规则从训练语料中统计出大量的动词与名词之间的二元搭配组合,并利用互信息等因素筛选记录;②利用<知网>对词语义项的义原描述(对于动词抽取其义项中的主义原,名词抽取其义项中的主义原和常见的4个辅助义原),将动词与名词的二元搭配组合转变为义原之间相互制约的多元组合.在语义知识库的基础上设计相应的自动查错算法.实验结果显示,该方法的召回率为35%,精确率为82.3%,具有较好的应用前景.  相似文献   

5.
中文真词错误自动校对是自然语言理解的一项重要的基础研究课题,油田数字化过程中利用图像识别及人工录入产生的中文真词错误会直接影响后期数据综合分析准确度。对中文真词错误成因和统计语言模型进行分析,提出一种面向油田领域的中文真词错误自动校对方法。该方法首先构建通用领域和油田领域混淆集,再引入同义词集丰富知识库,对语料分词后,综合统计分析目标词与混淆词、周边词的同义词之间关系,自动校对真词错误。实验表明,提出的方法能有效校对油田领域的中文真词错误。  相似文献   

6.
针对统计模型词典动态适应性不高及大规模语料库建设中人工代价昂贵的问题,在基于统计的汉语自动分词基础上,引入了以错误驱动为基础的开放学习机制,通过有监督和无监督相结合的学习方法,建立了包含可信度修正和部分三元语法信息的多元分词模型,讨论了切分算法和人机交互中的具体问题,并通过实验确定模型系数和闽值.实验结果表明,该分词模型经三次学习后。闭式分词中的切分错误有78.44%得到纠正,切分正确率达到99.43%,开式分词中的切分错误有63.56%得到纠正,切分正确率达到98.46%.系统具有较高的实用价值.  相似文献   

7.
吴林  张仰森 《计算机工程》2012,38(20):21-25
以往的中文文本查错研究主要针对字词错误,对句法、语义的错误推理研究不够.为此,利用统计模型和大规模人民日报语料库构建并扩充查错知识库,针对文本中字词、语法以及语义3个层次的错误,提出相应的多层级查错推理模型.设计并实现3个层级的文本查错算法,构建自动查错系统进行综合查错.实验结果表明,该系统查错性能较优,召回率达到85.62%.  相似文献   

8.
中文文本自动校对技术现状及展望   总被引:6,自引:5,他引:6  
本文概述了中文文本自动校对技术的产生背景,分析了预校对文本常见的错误类 型及文本自动校对(自动查错和确认纠错)的难点,探讨了当前商品化的文本校对软件的校对策略和发展趋势。  相似文献   

9.
针对目前藏文文本自动查错方法的不足,该文提出了一种基于规则和统计相结合的自动查错方法.首先以藏文拼写文法为基础,结合形式语言与自动机理论,构造37种确定型有限自动机识别现代藏文字;然后利用查找字典的方法识别梵音藏文字;最后利用互信息和t-测试差等统计方法查找藏语词语搭配错误和语法错误等真字词错误,实现藏文文本的自动查错...  相似文献   

10.
维吾尔文校对中常见错误分析   总被引:4,自引:0,他引:4  
论文介绍了文本自动查错的研究现状,及中文、英文文本中常见的错误,详细分析了维吾尔文校对中常见错误类型为录入错误、原稿错误、语法错误、标点符号、数字或括号不匹配和其他错误,并给出了相应的算法。  相似文献   

11.
随着通信和计算机技术的发展,基于不可靠网络的视频图象的通信受到了越来越广泛的应用。因此,视频传输中的差错控制技术和差错掩盖技术也显得越来越重要。本文提出了一种精确的差错恢复方案.即将精确差错跟踪和差错掩盖技术相结合的方案,不仅通过帧内编码刷新技术终止了差错的继续传播,而且利用图象和视频特性,在解码器端采
采用差错掩盖技术恢复受损图象。通过在H.263编解系统中的实验表明.这种方法对改善出现差错的视频信号非常有效.  相似文献   

12.
SolidModelingEror:AnalysisandCompensation①XuZhigangHuangKezhengAiXingShanLianyeColegeofMechanicalEngineering,ShandongUniversi...  相似文献   

13.
形状误差是实际形状相对其理想形状的偏差,关系着工件的质量,针对平面度、圆度、球度等不同的形状误差,先后出现了许多新的算法.采用计算简便、运算速度快、广泛应用于各种形状误差的评定的最小二乘法;运用MATLAB语言编写误差的计算程序,在Visual Basic环境下开发了软件系统的用户界面程序,同时编写VB与MATLAB之间的接口程序,完成这两种软件之间的调用.通过与现有最小区域法的计算结果相比较验证程序的正确性,便于在工程实际中推广应用.  相似文献   

14.
VB中错误处理程序的设计   总被引:2,自引:0,他引:2  
大多数VB程序员编程时总是将注意力在功能上,很少提供有效的错误处理程序。本文针对这个问题介绍了编写错误处理的几种方法,并给出了实例。  相似文献   

15.
通过分析应用程序运行产生的各种运行时错误,指出了只有通过编写错误处理程序才能解决这些问题;设计了设置错误捕获、编写错误处理程序、退出错误处理程序、错误处理顺序、自动生成错误等具体方法及步骤。  相似文献   

16.
磁头和数据道的相对位置是通过分析伺服信息得到的.因此伺服信息必须在硬盘生产过程中被写入.传统的伺服信息刻写过程需要借助伺服道刻写机和净房环境,这些都会使硬盘的生产成本增加.快速增长的磁道密度也给伺服信息的刻写带来很大压力.自伺服刻写能够使用硬盘自身的组件来完成伺服信息的刻写过程,因此提高硬盘的生产效率.讨论了硬盘自伺服刻写过程和其中的关键问题,分析了自伺服刻写原理及其带来的径向误差传递现象.径向误差是由于噪音扰动、"种子"磁道的缺陷和与上一磁道的高度依存性引起的.比较了现行的两种抑制自伺服刻写中误差传播的办法,分析了它们存在的问题,然后提出了一种加权型校正信号的产生方法,并从理论上和仿真条件下证明了该方法的正确性和优越性,它能同时减少磁道绝对径向误差和相对径向误差.  相似文献   

17.
本文概述了计算机故障分析与诊断的原则,提出一些比较常见的软、硬件方面的故障诊断及处理方法。  相似文献   

18.
在测试系统中,测试误差影响测试数据的精度.消弱其对测试结果的影响是至关重要的.首先讨论了随机误差的分布、测度,然后建立两种数据模型:基于LabVIEW平台的参数测试系统观测数据模型和理想数据模型.以此模型为基础,分析数据中的系统误差和研究系统误差的检验方法.提出了基于后验检验统计的系统误差检测法.最后修改观测数据的模型.结合此模型研究系统误差和随机误差的评定指标.  相似文献   

19.
本文对大多数方法存在系统误差和实验室间的系统误差作了研究,把实验室间系统误差随机化后,作为随机误差处理。阐明了这两项误差对制订允许误差的影响。并给出了估算方法、系统误差及制定允许误差的公式和程序,由此计算出的结果比较符合实际。  相似文献   

20.
本文针对t-EC/d-UED码[7]中介绍的纠t个错和检d个单向错(t-EC/d-UED)码提出了一种改进方法,改进后的码在大多数情况下具有更强的检错能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号