首页 | 本学科首页   官方微博 | 高级检索  
     

基于大规模语料库的古文词典构建及分词技术研究
引用本文:邢付贵,朱廷劭.基于大规模语料库的古文词典构建及分词技术研究[J].中文信息学报,2021,35(7):41-46.
作者姓名:邢付贵  朱廷劭
作者单位:1.中国科学院 心理研究所, 北京 100101;
2.中国科学院大学 心理学系, 北京 100049
基金项目:国家社会科学基金(17AZD041)
摘    要:古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349 740个字词的集成古文词典CCIDict。在CCIDict基础上,利用多种分词算法实现古文的分词。基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了14%,取得了良好的效果,证明基于大规模古文语料库建立的古文词典,能够提供良好的古文分词效果。

关 键 词:古汉语分词  大数据  语料库  
收稿时间:2020-04-16

Large-scale Online Corpus Based Classical Integrated Chinese Dictionary Construction and Word Segmentation
XING Fugui,ZHU Tingshao.Large-scale Online Corpus Based Classical Integrated Chinese Dictionary Construction and Word Segmentation[J].Journal of Chinese Information Processing,2021,35(7):41-46.
Authors:XING Fugui  ZHU Tingshao
Affiliation:1.Institute of Psychology, Chinese Academy of Sciences, Beijing 100101, China;2.Department of Psychology, University of Chinese Academy of Sciences, Beijing 100049, China
Abstract:The classical Chinese word segmentation is an important step to analyze existing ancient documents. In this paper, we first collect unstructured classical Chinese online corpus and accumate a basic dictionary. Then the candidate new words are discovered by a multi-feature fusion strategy, including mutual information, information entropy, and position word probability. Finally, a CCIDict of 349,740 words is applied with the forward maximum matching to segment the words in classical Chinese texts, achieving 14% improvements in F-value compared with the open-source Jiayan.
Keywords:classical Chinese word segmentation  big data  corpus  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号