首页 | 本学科首页   官方微博 | 高级检索  
     

一种中文真词错误检测与修复方法
引用本文:叶俊民,徐松,罗达雄,王志锋,陈曙.一种中文真词错误检测与修复方法[J].计算机工程,2019(8):178-183.
作者姓名:叶俊民  徐松  罗达雄  王志锋  陈曙
作者单位:1.华中师范大学计算机学院;2.华中师范大学教育信息技术学院
基金项目:国家社会科学基金(17BTQ061)
摘    要:在线学习社区中的中文真词错误会给中文文本语义的理解带来困难,从而影响基于在线学习社区文本的学习分析效果。为此,提出一种针对在线学习社区短文本的真词错误检测与修复方法。构建混淆词集和混淆词对应的固定搭配知识库,基于n-gram概率统计模型、上下文语境模型和固定搭配知识库,分别计算每一个混淆词的 n-gram得分、上下文语境得分和固定搭配得分,对其加权求和作为判断原文是否出错的依据,并将最高得分的混淆词作为修复意见。实验结果表明,该方法召回率、准确率与修复率分别为85.6 %、86.3 %、92.9 %,能准确有效检测与修复学习社区中的中文真词错误。

关 键 词:真词错误  混淆词集  n-gram概率统计模型  上下文语境  中文固定搭配

A Chinese Real-word Error Detection and Repairing Method
YE Junmin,XU Song,LUO Daxiong,WANG Zhifeng,CHEN Shu.A Chinese Real-word Error Detection and Repairing Method[J].Computer Engineering,2019(8):178-183.
Authors:YE Junmin  XU Song  LUO Daxiong  WANG Zhifeng  CHEN Shu
Affiliation:(School of Computer,Central China Normal University,Wuhan 430070,China;School of Educational Information Technology,Central China Normal University,Wuhan 430070,China)
Abstract:YE Junmin;XU Song;LUO Daxiong;WANG Zhifeng;CHEN Shu(School of Computer,Central China Normal University,Wuhan 430070,China;School of Educational Information Technology,Central China Normal University,Wuhan 430070,China)
Keywords:real-word error  confusion word set  n-gram probability statistical model  context  Chinese fixed collocation
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号