首页 | 本学科首页   官方微博 | 高级检索  
     

基于长时间跨度语料的词义演变计算研究
引用本文:孙琦鑫,饶高琦,荀恩东. 基于长时间跨度语料的词义演变计算研究[J]. 中文信息学报, 1986, 34(8): 10-22
作者姓名:孙琦鑫  饶高琦  荀恩东
作者单位:1.北京语言大学 信息科学学院,北京 100083;
2.北京语言大学 语言资源高精尖创新中心,北京 100083;
3.北京语言大学 汉语国际教育研究院,北京 100083
基金项目:教育部人文社科基金(20YJC740050);北京语言大学青年英才培养计划(1090/501321102);北京语言大学中央高校基本科研业务费(19YJ130005)
摘    要:该文收集了自晚清到21世纪间长达144年的连续历时报刊语料,通过统计分析和词语分布式表示两类方法展开研究,计算并辅助识别汉语词语的词义历时演变现象。采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共现实词及其重合度挖掘出现词义演变的词语。针对历时语料上不同时间段的词向量对齐,采用SGNS训练词向量加正交矩阵投影、SGNS递增训练和“锚点词”二阶词向量表示三种方法,其中以SGNS递增训练效果最佳。针对自动发现的词义演变现象,采用目标词历时自相似度和锚点词历时相似度的分析方法,并利用近邻词来明确目标词变迁前后的词义。

关 键 词:词义演变  历时语料  分布式表示  

A Study on Semantic Evolution Computation with Diachronic Corpus
SUN Qixin,RAO Gaoqi,XUN Endong. A Study on Semantic Evolution Computation with Diachronic Corpus[J]. Journal of Chinese Information Processing, 1986, 34(8): 10-22
Authors:SUN Qixin  RAO Gaoqi  XUN Endong
Affiliation:1.School of Information Science, Beijing Language and Culture University, Beijing 100083, China;
2.Beijing Advanced Innovation Center for Language Resources, Beijing Language and Culture University, Beijing 100083, China;
3.Institute of International Chinese Language Education, Beijing Language and Culture University, Beijing 100083, China
Abstract:
Keywords:word semantic evolution    diachronic corpus    distributed representation  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号