首页 | 本学科首页   官方微博 | 高级检索  
     

面向文本数字化的自动纠错方法
引用本文:陈翔,徐平先,张玉志. 面向文本数字化的自动纠错方法[J]. 计算机应用研究, 2008, 25(5): 1434-1436
作者姓名:陈翔  徐平先  张玉志
作者单位:中国科学院计算技术研究所中国科学院研究生院,北京,100080;点通数据有限公司,广东,深圳,518049;点通数据有限公司,广东,深圳,518049;中国科学院计算技术研究所点通数据有限公司,广东,深圳,518049
基金项目:国家高技术研究发展计划(863计划) , 科技部科技型中小企业技术创新项目
摘    要:为了提高文本数字化系统的质量,针对该系统的错误特点,采用频率统计树构建查错模型,结合切分信息进行标点纠错,通过表形码和缓存集给出纠错建议,提出了规则与统计结合的自动纠错方法。实验结果表明,该方法召回率为84.65%,准确率为78.89%,误判率为9.07%,能够满足数字化系统需求。

关 键 词:自动纠错  文本数字化  频率统计树  切分信息  表形码
文章编号:1001-3695(2008)05-1434-03
收稿时间:2008-04-20
修稿时间:2007-03-09

Automatic proofreading techniques for texts digitization
CHEN Xiang,XU Ping-xian,ZHANG Yu-zhi. Automatic proofreading techniques for texts digitization[J]. Application Research of Computers, 2008, 25(5): 1434-1436
Authors:CHEN Xiang  XU Ping-xian  ZHANG Yu-zhi
Affiliation:(1.a.Institute of Computing Technology, b.Graduate School, Chinese Academy of Sciences, Beijing 100080, China; 2.Datum Data Co. Ltd, Shenzhen Guangdong 518049, China)
Abstract:Aiming at improving the performance of texts digitization system,with the characteristics of errors analyzed,an automatic proofreading method based on rules and statistics was proposed,making use of frequency statistical tree for error check model,segmentation information for interpunctions correction,Biao-Xing code and cache for correcting suggestions.The experiment results indicate that this method gets an 84.65% recall,a 78.89% precision,a 9.07% false correction ratio and can meet the digitization system requirements.
Keywords:automatic proofreading  texts digitization  frequency statistical tree  segmentation information  Biao-Xing code
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号