首页 | 本学科首页   官方微博 | 高级检索  
     

领域问答系统中的文本错误自动发现方法
引用本文:刘亮亮,王石,王东升,汪平仄,曹存根. 领域问答系统中的文本错误自动发现方法[J]. 中文信息学报, 2013, 27(3): 77-84
作者姓名:刘亮亮  王石  王东升  汪平仄  曹存根
作者单位:1. 中国科学院 计算技术研究所 智能信息处理重点实验室,北京 100190;
2. 中国科学院大学,北京 100049
基金项目:国家自然科学基金项目,国家社科基金重点项目
摘    要:文本自动校对是自然语言处理的一个挑战性的研究课题,也是一个难题。该文对中文的错误类型和原因进行分析,提出了一种基于领域问答系统用户问题日志的错别字自动发现方法。该方法首先对语料进行分词,然后对分词的结果中出现的散串进行合并,对分词中的多字词和合并的串进行相似词串聚类,对相似词串的上下文语境进行统计分析,从中自动获取错别字对。实验表明,该系统获得71.32%的召回率,82.6%的准确率。

关 键 词:文本自动校对  问答系统  非词错误  真词错误  错别字对  

Automatic Text Error Detection in Domain Question Answering
LIU Liangliang , WANG Shi , WANG Dongsheng , WANG Pingze , CAO Cungen. Automatic Text Error Detection in Domain Question Answering[J]. Journal of Chinese Information Processing, 2013, 27(3): 77-84
Authors:LIU Liangliang    WANG Shi    WANG Dongsheng    WANG Pingze    CAO Cungen
Affiliation:1. Key Laboratory of Intelligent Information Processing, Institute of Computing Technology,
Chinese Academy of Sciences, Beijing 100190, China;
2. University of Chinese Academy of Sciences, Beijing 100049,China
Abstract:Text automatic proofreading is an important research issue in NLP, and still remaing as an challenge. This paper analyzes the type and the cause of Chinese errors, and proposes an automatic detection of typos based the user query log in the domain Question Answering System. First the word segmentation is performed on the corpus, then fragments in the word segmentation result are merged, After clustering the multi-character words and the merged strings, the approach gets typos pair automatically according to the contextual analysis of similar strings. The experiment show that the recall rate is 71.32% and accuracy rate is 82.6% for this method in actual question answering system logs.
Key wordstext automatic proofreading; question answering system; no-word error; real-word error; typos pair
Keywords:text automatic proofreading   question answering system   no-word error   real-word error   typos pair  
本文献已被 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号