基于粗分和词性标注的中文分词方法 |
| |
作者姓名: | 姜芳 李国和 岳翔 吴卫江 洪云峰 刘智渊 程远 |
| |
作者单位: | 中国石油大学(北京)地球物理与信息工程学院;中国石油大学(北京)油气数据挖掘北京市重点实验室;石大兆信数字身份管理与物联网技术研究院;中海油研究总院信息数据中心 |
| |
基金项目: | 国家高新技术研究发展计划(No.2009AA062802);国家自然科学基金(No.60473125);中国石油(CNPC)石油科技中青年创新基金(No.05E7013);国家重大专项子课题(No.G5800-08-ZS-WX) |
| |
摘 要: | 中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性标注进行粗分评估,获取最优的粗分为最终分词。通过实验对比,证明基于粗分和词性标注的中文分词方法具有良好的分词效果。
|
关 键 词: | 分词 词性标注 隐马尔可夫模型 Viterbi算法 |
本文献已被 CNKI 等数据库收录! |
|