首页 | 本学科首页   官方微博 | 高级检索  
     

汉字种子混淆集的构建方法研究
引用本文:施恒利,刘亮亮,王石,符建辉,张再跃,曹存根.汉字种子混淆集的构建方法研究[J].计算机科学,2014,41(8):229-232,253.
作者姓名:施恒利  刘亮亮  王石  符建辉  张再跃  曹存根
作者单位:江苏科技大学计算机科学与工程学院 镇江212003;江苏科技大学计算机科学与工程学院 镇江212003;中国科学院大学研究生院 北京100049;中国科学院计算技术研究所 北京100190;中国科学院计算技术研究所 北京100190;江苏科技大学计算机科学与工程学院 镇江212003;中国科学院计算技术研究所 北京100190
基金项目:本文受国家自然科学基金重点项目(91224006,61173063,61035004),国家自然科学基金面上项目(61203284)资助
摘    要:汉字混淆集是错别字识别中的重要资源之一。在本项研究中,首先手工整理了11935个汉字的可能的错别字,然后以这些汉字为节点、"可错成"关系为边,将混淆集构造成一个错别字混淆集图。由于人工总结错别字具有很大的局限性,因此在种子错别字混淆集图的基础上,设计了自扩展算法和开源外部补充算法来对错别字混淆集图进行扩展,以发现新的错别字对。根据实验,新发现了15133组错别字对。经过随机抽样校对,准确率达到87.35%。

关 键 词:错别字混淆集  自扩展  开源数据  基于规则和统计
收稿时间:2013/10/3 0:00:00
修稿时间:2013/12/27 0:00:00

Research on Method of Constructing Chinese Character Confusion Set
SHI Heng-li,LIU Liang-liang,WANG Shi,FU Jian-hui,ZHANG Zai-yue and CAO Cun-gen.Research on Method of Constructing Chinese Character Confusion Set[J].Computer Science,2014,41(8):229-232,253.
Authors:SHI Heng-li  LIU Liang-liang  WANG Shi  FU Jian-hui  ZHANG Zai-yue and CAO Cun-gen
Affiliation:College of Computer Science, Jiangsu University of Science and Technology, Zhenjiang 212003, China;College of Computer Science, Jiangsu University of Science and Technology, Zhenjiang 212003, China;Graduate University of Chinese Academy of Sciences, Beijing 100049,China;Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences,Beijing 100190,China;Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences,Beijing 100190,China;College of Computer Science, Jiangsu University of Science and Technology, Zhenjiang 212003, China;Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences,Beijing 100190,China
Abstract:
Keywords:Wrongly written characters set  Self-expansion  Open source data  Rule and statistics base
本文献已被 CNKI 等数据库收录!
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号