首页 | 本学科首页   官方微博 | 高级检索  
     

基于词频逆文档频统计的词汇时间分布层次
引用本文:饶高琦,李宇明. 基于词频逆文档频统计的词汇时间分布层次[J]. 中文信息学报, 2019, 33(11): 31-38
作者姓名:饶高琦  李宇明
作者单位:1.北京语言大学 汉语国际教育研究中心,北京 100083;
2.北京语言大学 语言资源高精尖创新中心,北京 100083
基金项目:北京市语言资源高精尖创新中心科研项目(TYR17001J);对外汉语研究中心院级项目(19YJ130005);教育部人文社科重点研究基地重大项目(16JJD740004)
摘    要:汉语演变过程中,词语使用受时间影响的程度差异很大。这体现为词汇时间分布的不同。该文基于70年跨度历时语料库,使用TF-IDF方法对词汇的时间分布进行了统计,并尝试对词汇系统的时间分布层次进行划分。通过对历时文本分类性能、词类分布、词长分布、覆盖率和词语生命力五方面的考察和分析,建立了由基干层、过渡层、时间敏感层(时敏层)和逸散层构成的词汇时间分布四分层体系。

关 键 词:词频逆文档频  时间分布  历时  分层  汉语史  

TF-IDF Based Lexical Hierarchy Division of Diachronic Distribution
RAO Gaoqi,LI Yuming. TF-IDF Based Lexical Hierarchy Division of Diachronic Distribution[J]. Journal of Chinese Information Processing, 2019, 33(11): 31-38
Authors:RAO Gaoqi  LI Yuming
Affiliation:1.RIC, Beijing Language and Culture University, Beijing 10083, China;
2.ACLR, Beijing Language and Culture University, Beijing 10083, China
Abstract:In the evolution of the Chinese Language, the use of words is significantly affected by time, resulting the various diachronic distributions of lexicon. In this paper, we employ TF/IDF to hierarchically classify the lexicon of 70-year corpus according to the diachronic distribution. Diachronic text classification, distribution of part of speech and word length, corpus coverage, and distribution of usage over time are analyzed, upon which we propose a diachronic hierarchy division of the Chinese lexicon.
Keywords:TF-IDF    diachronic distribution    diachronic research    hierarchy division    evaluation of Chinese  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号