首页 | 官方网站   微博 | 高级检索  
     

中文分词中组合型切分歧义的消解研究
引用本文:尤慧丽,晏立,杨晓东.中文分词中组合型切分歧义的消解研究[J].计算机工程与应用,2011,47(31):125-127.
作者姓名:尤慧丽  晏立  杨晓东
作者单位:江苏大学计算机科学与通信工程学院,江苏镇江,212013
摘    要:针对中文自动分词中组合型歧义消解难的问题,提出了一种新的切分算法来对组合型歧义字段进行消歧。该算法首先自动从训练语料中提取歧义字段的上下文信息来建立规则库,然后利用C-SVM模型结合规则对组合型歧义字段进行歧义消解。最后以1998年1月《人民日报》语料中出现的组合型歧义字段进行训练和测试,实验显示消歧的平均准确率达89.33%。

关 键 词:中文自动分词  组合型歧义  上下文信息  C-支持向量机
修稿时间: 

Research on combinational ambiguity strings in Chinese word segmentation
YOU Huili,YAN Li,YANG Xiaodong.Research on combinational ambiguity strings in Chinese word segmentation[J].Computer Engineering and Applications,2011,47(31):125-127.
Authors:YOU Huili  YAN Li  YANG Xiaodong
Affiliation:YOU Huili,YAN Li,YANG Xiaodong School of Computer Science and Telecommunication Engineering,Jiangsu University,Zhenjiang,Jiangsu 2 12013,China
Abstract:Combinational ambiguity is one of the most difficult problems in Chinese word segmentation.The paper discusses a new segmentation algorithm to solve the combinational ambiguity.The algorithm automatically extracts contextual information of the combinational ambiguity to establish rules,then uses the C-SVM model and these rules to solve the combinational ambiguity.The People Daily corpus of January 1998 is used in training and testing,and the average accuracy is 89.33%.
Keywords:Chinese word segmentation  combinational ambiguity  contextual information  C-Support Vector Machine(C-SVM)  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号