基于统计和规则的末登录词识别方法研究 Research on Recognition Method of Unknown Chinese Words Based on Statistic and Regulation期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于统计和规则的末登录词识别方法研究

引用本文：	周蕾,朱巧明.基于统计和规则的末登录词识别方法研究[J].计算机工程,2007,33(8):196-198.

作者姓名：	周蕾朱巧明

作者单位：	[1]常熟理工学院计算机科学与工程系,常熟215500 [2]苏州大学计算机科学和技术学院,苏州215006

基金项目：	江苏省自然科学基金资助项目（BK2003030）;江苏省教育厅自然科学基金资助项目（04KKB320134）

摘要：	介绍了一种基于统计和规则的未登录词识别方法。该方法分为2个步骤：（1）对文本进行分词，对分词结果中的碎片进行全切分生成临时词典，并利用规则和频度信息给临时词典中的每个字串赋权值，利用贪心算法获得每个碎片的最长路径，从而提取未登录词；（2）在上一步骤的基础上，建立二元模型，并结合互信息来提取由若干个词组合而成的未登录词（组）。实验证明该方法开放测试的准确率达到81．25％，召回率达到82．38％。
关键词：	未登录词识别贪心算法二元模型互信息
文章编号：	1000-3428（2007）08-0196-03
修稿时间：	2006-05-16
Research on Recognition Method of Unknown Chinese Words Based on Statistic and Regulation

ZHOU Lei , ZHU Qiaoming.Research on Recognition Method of Unknown Chinese Words Based on Statistic and Regulation[J].Computer Engineering,2007,33(8):196-198.

Authors:	ZHOU Lei ZHU Qiaoming

Affiliation:	1. Department of Computer Science and Engineering, Changshu Institute of Technology, Changshu 215500; 2. School of Computer Science and Technology, Suzhou University, Suzhou 215006

Abstract:

Keywords:	Unknown Chinese words recognition Greedy algorithm Bi-gram model Mutual information
本文献已被维普等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏