首页 | 本学科首页   官方微博 | 高级检索  
     

无监督与有监督相结合的粤语分词方法
作者姓名:苏振江  张仰森  胡昌秀  黄改娟
作者单位:1. 北京信息科技大学智能信息处理研究所;2. 北京交通大学国家经济安全预警工程北京实验室
基金项目:国家自然科学基金项目(61772081);
摘    要:为能在缺乏粤语分词语料的情况下进行粤语研究,提出一种基于无监督与有监督结合的粤语分词方法。利用多源语料完成粤语词库的构建;利用二元字典与粤语词库对初步结果进行初筛分词和二次分词;利用DAG对粤语通用句式切分错误进行分析并修正;将修正后的粤语分词语料利用深度学习模型固化分词效果,得到基于Bert-BiLSTM-CRF三层架构的分词模型。实验结果表明,该方法能有效克服预分词语料的缺失问题,在无需大量分词语料的情况下,F值达到74.3%。

关 键 词:粤语  分词研究  词库  互信息  端到端模型  有监督模型  无监督模型
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号