首页 | 本学科首页   官方微博 | 高级检索  
     

基于统计和规则的末登录词识别方法研究
引用本文:周蕾,朱巧明.基于统计和规则的末登录词识别方法研究[J].计算机工程,2007,33(8):196-198.
作者姓名:周蕾  朱巧明
作者单位:[1]常熟理工学院计算机科学与工程系,常熟215500 [2]苏州大学计算机科学和技术学院,苏州215006
基金项目:江苏省自然科学基金资助项目(BK2003030);江苏省教育厅自然科学基金资助项目(04KKB320134)
摘    要:介绍了一种基于统计和规则的未登录词识别方法。该方法分为2个步骤:(1)对文本进行分词,对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,利用贪心算法获得每个碎片的最长路径,从而提取未登录词;(2)在上一步骤的基础上,建立二元模型,并结合互信息来提取由若干个词组合而成的未登录词(组)。实验证明该方法开放测试的准确率达到81.25%,召回率达到82.38%。

关 键 词:未登录词识别  贪心算法  二元模型  互信息
文章编号:1000-3428(2007)08-0196-03
修稿时间:2006-05-16

Research on Recognition Method of Unknown Chinese Words Based on Statistic and Regulation
ZHOU Lei , ZHU Qiaoming.Research on Recognition Method of Unknown Chinese Words Based on Statistic and Regulation[J].Computer Engineering,2007,33(8):196-198.
Authors:ZHOU Lei  ZHU Qiaoming
Affiliation:1. Department of Computer Science and Engineering, Changshu Institute of Technology, Changshu 215500; 2. School of Computer Science and Technology, Suzhou University, Suzhou 215006
Abstract:
Keywords:Unknown Chinese words recognition  Greedy algorithm  Bi-gram model  Mutual information
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号