首页 | 本学科首页   官方微博 | 高级检索  
     

一种实用的资源稀缺条件下的分词方法
引用本文:马宁,李亚超,何向真,于洪志. 一种实用的资源稀缺条件下的分词方法[J]. 计算机应用研究, 2016, 33(1)
作者姓名:马宁  李亚超  何向真  于洪志
作者单位:西北民族大学 中国民族语言文字信息技术重点实验室,西北民族大学 中国民族语言文字信息技术重点实验室,西北民族大学 中国民族语言文字信息技术重点实验室,西北民族大学 中国民族语言文字信息技术重点实验室
基金项目:中央高校基本科研业务费专项资金资助项目
摘    要:在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。本文研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础之上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料上进行实验。该分词方法显著提高了最大匹配分词方法的分词效果,同时也优于当前最好的无监督分词结果。实验表明,该方法快速、有效,利用较小的资源获得了较好的分词效果。

关 键 词:分词  无监督分词  最大匹配  VE算法  间隔标注
收稿时间:2014-09-01
修稿时间:2015-11-22

A Practical Approach of Word Segmentation in the Poor Resource Situation
MA Ning,LI Yachao,HE Xiangzhen and YU Hongzhi. A Practical Approach of Word Segmentation in the Poor Resource Situation[J]. Application Research of Computers, 2016, 33(1)
Authors:MA Ning  LI Yachao  HE Xiangzhen  YU Hongzhi
Affiliation:Key Lab of Chinese National Linguistic Information Technology, Northwest University for Nationalities,,National Linguistic Information Technology, Northwest University for Nationalities,National Linguistic Information Technology, Northwest University for Nationalities
Abstract:There is lack of human-annotated corpus in some language, which not a lot of people used, it is a burning question for word segmentation in the situation of poor resource. This article studied the unsupervised VE algorithm, and maximum match gap tagging, and proposed a method, which combined the unsupervised word segmentation method, and the maximum matching method, and implemented in the Chinese datasets. The method significantly increased the performance of maximum matching word segmentation method, and gives a better performance than currently state of the art unsupervised word segmentation method. The experimental results show that our method is fast and effective and have a better performance with a smaller datasets resource.
Keywords:word segmentation   unsupervised word segmentation   maximum matching   voting experts algorithm   gap tagging
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号