首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
基于规则与统计相结合的中文文本自动查错模型与算法   总被引:7,自引:0,他引:7  
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43% ,误报率为30.57%。  相似文献   

2.
中文的真词错误类似于英文的真词错误,指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法,通过对目标词的局部特征的提取,形成局部左邻接二元、右邻接二元及3个三元特征,然后通过和目标词对应的混淆集中的混淆词来估计二元概率和三元概率。最后提出一种多特征融合的模型,然后利用规则来判断中文文本中的真词错误。将查错结果分为标记错误和更改错误两种类型,采用18组混淆集,构造2万行的测试语料进行实验。实验表明,该方法能有效地发现中文文本中的真词错误,并且能给出真词错误的修改建议。该方法是一种集自动查错和自动纠错于一体的中文文本自动校对方法。  相似文献   

3.
在啥萨克语文本非词查错方面,归纳和总结查错方法,在一定规模的哈萨克语词库的支持下,利用哈萨克语的特点,用哈萨克语词干切分程序和哈萨克语的音节规则,从文本中找出非词错误,再用最小编辑距离算法提供最有可能的候选词.在哈萨克语文本真词查错部分,根据上下文信息,采用基于N-gram的语言模型,利用文本的局部连接同现概率三元语法模型来进行真词查错,再用基于编辑距离的模式匹配方法对真词错误提供纠错建议.实验结果表明,系统的查错与纠错效率较好,实验方案是可行的.  相似文献   

4.
本文阐述了藏文文本的错误形式的多样性。要对藏文文本进行局部查错,先要对文本中的音节进行纠错,音节的纠错又离不开对音节组成成分的纠错。本文利用N元模型对藏文音节内的各组成成分建立模型,并用此模型来判断一个音节的对与错。  相似文献   

5.
中文文本自动校对技术现状及展望   总被引:6,自引:5,他引:6  
本文概述了中文文本自动校对技术的产生背景,分析了预校对文本常见的错误类 型及文本自动校对(自动查错和确认纠错)的难点,探讨了当前商品化的文本校对软件的校对策略和发展趋势。  相似文献   

6.
汉语词语情感倾向自动判断研究   总被引:3,自引:0,他引:3       下载免费PDF全文
张靖  金浩 《计算机工程》2010,36(23):194-196
汉语词语情感倾向自动判断避免了个人判断的影响,并提高了主观性词典创建效率。 讨论和分析汉语词语情感倾向判断技术,使用情感特征集合进行倾向性描述,建立基于二元语法依赖关系的情感倾向互信息特征模型。采用机器学习方式得到分类器,对词语的情感倾向进行自动判别,并进行比较和优化,性能得以提高,最好的SVM准确率达到95.47%,F值达到93.90%。采用特征集合描述情感倾向性,在建立的互信息特征模型上,使用机器学习方法自动判断词语情感倾向是有效的。  相似文献   

7.
王琼  旷文珍  许丽 《计算机应用与软件》2021,38(10):310-315,320
针对语音识别引擎识别后文本容易发生散串错误和同音字错误,提出一种基于改进的N-gram模型和专业术语查错知识库的查错算法.采用Witten-Bell平滑算法解决N-gram模型训练过程中数据稀疏问题,并对N-gram模型增加权重分配,增强模型对散串错误的查错率.针对铁路特殊用语规定和同音字错误,构建一种适应关键字的专业术语查错知识库,实现知识库的自动更新.经过实验对比,该算法查错确率为87.9%,相比通用的N-gram查错模型提高52.8百分点.该算法的提出为后续的纠错以及语音识别准确率的提高奠定了基础,并对铁路车务系统语音识别技术的应用具有重要意义.  相似文献   

8.
为了提高OCR识别率,许多校对算法被提出用作后处理.这些方法利用自然语言规律统计大量的语料库进行语法判断.由于语料库规模有限且无法及时更新,导致一些网络新词、专用名词等常被错误处理.为此,文中将传统的语料库和Google知识库相结合,利用Google知识库获得网络新词等出现的频率,建立N-Gram模型,利用词语间的接续关系进行查错,再借助Google的拼写校对功能和词语之间的可信度进行改错.相比传统的方法,该方法的语料库源于互联网,对一些新词有更好的校对效果,更适合图像中嵌入的文字信息识别结果的校正.  相似文献   

9.
该文通过研究国内外相关的拼写错误查错和纠错方法的理论,再结合维吾尔语自身的特点,提出了基于词典和统计相结合的维吾尔语拼写查错方法。首先,提出基于词典的方法进行词库和词干提取的拼写检查;其次,提出基于N元语法的词缀连接有效性判断模型,对未登录词提出基于N元语法的拼写检查模型;最后,结合以上几种方法各自的优点提出基于混合策略的拼写检查方法,该方法在准确性和检查结果可靠性等方面得到了较显著的提高。  相似文献   

10.
Schneidewind 模型已经被广泛研究和应用到很多软件可靠性预测中去。很多软件可靠性增长模型都假设软件所有的失效有相同的查错率,并且在失效发生时,查错率也不发生变化。但实际中,查错率会依赖于多种因素,也会因为软件需求的变化、测试团队的变动而发生变化。本文提出通过几何图形的观测通过对 Schneidewind 模型加入单个改变点来改进模型,并通过实验证明此方法对可靠性精度的提高有一定作用。同时,本文也说明了此方法应用的优点及其局限性。  相似文献   

11.
一种基于自适应区域分割的地形模型简化方法   总被引:1,自引:0,他引:1  
鉴于统一误差计算模型简化方法自适应性差的问题,提出了一种根据地势特征自适应分割地形区域从而有选择性地进行误差计算和模型简化的方法.针对地形模型数据量大的特点,建立了细节层次结构,并证明了空间快速索引方法的有效性.为了解决平缓地势区域分割困难的问题,提出了基于凸点和扩散点相结合的特征选择算法,并有效控制了特征点的密度.在此基础上提出了多分辨率邻域节点查找与匹配方法,实现了区域的快速粗粒度分割.提出了地表起伏度计算方法,进一步评价了分割区域的地势特征,从而对部分区域进行细分处理.在真实数据上进行了实验研究,结果表明算法性能以及简化模型的精度和自适应性较好.  相似文献   

12.
在虚拟角色仿真过程中,虚拟人物外观多样性很大程度上取决于角色模型本身的差 异性。而角色模型的差异性主要体现在两方面:模型的高矮胖瘦以及模型穿戴的头佩附件。为体 型各异的角色模型自动穿戴合适的附件可大大增强仿真的真实感。基于此问题,提出一种头佩附 件自动组合算法,首先为角色模型自动嵌入骨骼,其次为附件模型添加简单骨骼并选取骨骼的锚 点,再通过附件自动组合算法快速生成组合角色模型,最后通过嵌入的骨骼驱动该组合模型运动。 实验证明该方法简单快捷,能够为多样化的角色模型自动穿戴头佩附件,提高角色模型的多样化 程度。  相似文献   

13.
基于3MAD-PCA的软测量数据过失误差侦破   总被引:2,自引:1,他引:1  
经典PCA是一种对软测量建模数据进行误差侦破的方法,但当数据中存在单变量大误差时,该方法不能准确确定主元(PC),从而影响了误差侦破效果.针对这一情况,结合单变量误差侦破技术提出了3MAD-PCA方法.该方法首先用3MAD对数据分别进行单变量误差侦破,再利用经典PCA进行多变量误差侦破,提高了经典PCA方法的稳定性,有效实现了数据的过失误差侦破.用该方法对丙烯浓度的软测量数据进行过失误差侦破,取得了良好的效果.  相似文献   

14.
一种女书曲线轮廓字形自动生成方法   总被引:2,自引:0,他引:2  
针对点阵字形存储量大、缩放字形质量难以保证的缺点,对将女书点阵字形自动转换成曲线轮廓字形的方法进行了研究。首先提取女书轮廓数据;然后提出了一种基于最大误差值的特征点提取方法;最后用直线和二次Bezier曲线拟合字形轮廓段,存储曲线轮廓数据,从而得到用曲线描述的女书字形。实验结果表明,该方法计算简单,大大减少了存储空间,拟合出来的曲线和原字形轮廓一致,同时也消除了因手写而造成的毛刺现象,为在计算机中处理女书奠定了基础。  相似文献   

15.
为了提高无线传感器网络疑误数据检测能力,提出基于轮换调度的无线传感器网络疑误数据节点自动诊断方法。通过采用分块区域特征匹配的方法,得到无线传感器网络疑误数据传输的梯度模型,采用资源优化分配方案,进行数据传输信道的均衡调度,得到节点部署分布模型。通过传感信息跟踪采样方法,得到采样信息分布,建立无线传感器网络疑误数据信息特征分析,通过分组特征检测方法进行无线传感器网络疑误数据的信息融合和空间融合调度,提取无线传感器网络疑误数据的关联规则特征集,通过统计信息分析和融合调度的方法,进行无线传感器网络疑误数据的聚类挖掘,采用预算估计算法,得到疑误数据节点定位优化,结合自主学习算法,实现无线传感器网络疑误数据节点的优化定位和诊断检测。仿真结果表明,采用该方法进行无线传感器网络疑误数据节点检测的自适应性较好,特征辨识能力较强。  相似文献   

16.
赵炎  张文  万浩  赵会欣  王旭  王平 《传感技术学报》2012,25(11):1473-1478
面向水环境重金属元素检测系统,提出了一种智能化实时检测系统设计方法。系统在初始化过程和检测过程中引入多种智能化方法,如系统可靠性检查方法、系统误差自动补偿以及自动量程采样方法。在实验室通过锌、镉、铅、铜四种重金属离子标准溶液样品检测实验,结果表明,上述方法提高了系统的检测可靠性和检测精度,证明了该系统可以有效解决传统检测系统在多种重金属检测中无法自动消除系统误差、检测精度不高的问题,为实时监测水环境重金属元素提供了更加完善的解决方案。  相似文献   

17.
基于GSM网络的智能监测系统   总被引:2,自引:0,他引:2  
对于没有有线通信条件地点的数据采集和数据监测问题,需要一种廉价、稳定、高效的解决方法,使得数据采集和监测成为实时在线测定,提高自动化程度.针对该问题,利用GSM网络短消息业务(SMS)的传输信息及时、误码率低、费用少等优点,提出了基于GSM网络远程数据智能监测系统.给出了系统结构图和软件实现流程图,系统采用主从式三层结构:管理中心系统、区域监控系统及终端监控点.开发的系统具有技术先进、适用范围广、运行成本低的特点,适用于大范围或移动情况下的数据采集任务.实际应用表明,利用CSM网络实现远程数据采集和监测是一种经济、可行的方案.  相似文献   

18.
Handwritten text recognition systems commonly combine character classification confidence scores and context models for evaluating candidate segmentation-recognition paths, and the classification confidence is usually optimized at character level. In this paper, we investigate into different confidence-learning methods for handwritten Chinese text recognition and propose a string-level confidence-learning method, which estimates confidence parameters by directly optimizing the performance of character string recognition. We first compare the performances of parametric (class-dependent and class-independent parameters) and nonparametric (isotonic regression) confidence-learning methods. Then, we propose two regularized confidence estimation methods and particularly, a string-level confidence-learning method under the minimum classification error criterion. In experiments of online handwritten Chinese text recognition, the string-level confidence-learning method is shown to effectively improve the string recognition performance. Using three character classifiers, the character correct rates are improved from 92.39, 90.24 and 88.69 % to 92.76, 90.91 and 89.93 %, respectively.  相似文献   

19.
一种谐波电流的检测方法   总被引:1,自引:0,他引:1  
粟梅  杨文 《控制工程》2005,12(2):190-192
采用小波变换对电力系统中的谐波电流进行滤波,对检测出的基波电流进行了误差分析。小波变换具有良好的时频局部化特性,克服了传统FFT法仅有频域局部化的缺点,对于闪变信号十分敏感。仿真结果表明,此方法可以很好地跟踪时变谐波,准确检测出闪变电流信号,可以满足有源滤波器(APF)的实时检测要求。  相似文献   

20.
周详  李少波  杨观赐 《计算机应用》2015,35(7):1945-1949
针对服装类商品标题中的商品属性实体识别问题,提出了一种边界探测规则与条件随机场(CRF)相结合的混合方法。首先,使用统计方法挖掘隐蔽的实体提示字信息;然后,以字为粒度对三种统计成词指标及其内涵进行了阐释;接着,基于统计成词指标和提示字信息设计了实体边界探测规则;最后,基于经验风险最小化给出了规则中阈值的确定方法。在与字标注的CRF模型的对比实验中,总体准确率、召回率、F1值分别提升了1.61%、2.54%和2.08%,验证了对于实体边界探测规则的有效性。所提方法可用于电子商务信息检索(IR)、电子商务信息抽取(IE)、查询意图识别等任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号