首页 | 本学科首页   官方微博 | 高级检索  
     

吕苏语口语标注语料的自动分词方法研究*
引用本文:于重重,操镭,尹蔚彬.吕苏语口语标注语料的自动分词方法研究*[J].计算机应用研究,2017,34(5).
作者姓名:于重重  操镭  尹蔚彬
作者单位:北京工商大学 计算机与信息工程学院,北京工商大学 计算机与信息工程学院,中国社会科学院 民族学与人类学研究所
基金项目:国家社会科学基金重大项目(14ZDB156);教育部人文社会科学研究规划基金项目(15YJCZH224)
摘    要:濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,本文首先对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中,并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。

关 键 词:吕苏语  汉语标注语料  自动分词  改进结巴算法
收稿时间:2016/5/17 0:00:00
修稿时间:2017/3/4 0:00:00

Automatic word segmentation on Lizu spoken annotation corpus*
YU Chong-chong,Cao Lei and Yin Wei-bin.Automatic word segmentation on Lizu spoken annotation corpus*[J].Application Research of Computers,2017,34(5).
Authors:YU Chong-chong  Cao Lei and Yin Wei-bin
Abstract:Endangered language documentation aims at rescuing and long term preserving all the information contained in the spoken endangered language, such as acoustics, linguistics, literature, history and traditional culture. Lizu language is one of the endangered language which has no text or document record and Lizu spoken corpus documentation is of great significance. Automatic word segmentation in Chinese annotation for Lizu spoken corpus is the basic work of establishing high quality Lizu language spoken corpus and Lizu language documentation system subsequentially. At present there is little research on word segmentation for Lizu language annotation corpus. Firstly the paper analyzed the characteristics of Lizu language characteristics, and used Chinese automatic word segmentation in Lizu language Chinese annotation corpora. Besides proposed improved jieba algorithm for false word segmentation problem in Lizu language annotation corpora using jieba word segmentation algorithm. By comparative experiments, improved jieba word segmentation has higher accuracy, which improves the result of Lizu Chinese annotation corpus segmentation.
Keywords:Lizu language  Chinese annotation corpus  automatic word segmentation  improved jieba algorithm
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号