首页 | 本学科首页   官方微博 | 高级检索  
     

藏汉跨语言话题模型构建及对齐方法研究
引用本文:孙 媛,赵 倩.藏汉跨语言话题模型构建及对齐方法研究[J].中文信息学报,2017,31(1):102-111.
作者姓名:孙 媛  赵 倩
作者单位:1. 中央民族大学 信息工程学院,北京 100081;
2. 国家语言资源监测与研究中心少数民族语言分中心,北京 100081
基金项目:国家自然科学基金(61501529,61331013);国家语委项目(ZDI125-36,YB125-139)
摘    要:如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少。如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题。该文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题。在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐。

关 键 词:藏汉跨语言  话题抽取  LDA  话题对齐  

Research on the Extraction and Alignment of Tibetan-Chinese Cross-language Topics
SUN Yuan,ZHAO Qian.Research on the Extraction and Alignment of Tibetan-Chinese Cross-language Topics[J].Journal of Chinese Information Processing,2017,31(1):102-111.
Authors:SUN Yuan  ZHAO Qian
Affiliation:1. School of Information Engineering, Minzu University of China, Beijing, 100081, China;
2. Minority Languages Branch, National Language Resource and Monitoring Research Center, Beijing, 100081, China
Abstract:In contrast to the, To discover synchronication topics associated in Tibetan and Chinese social networking, we build LDA topic model on the basis of Tibetan-Chinese comparable corpus, with word2vec as the input and Gibbs sampling to estimate model parameters. To align Tibetan topics and Chinese topics, we calculate the similarity between Tibetan and Chinese topics according to the distribution of text-topic disctrbution via a voting method based on cosine distance, Euclidean distance, Hellinger distance and KL distance.
Keywords:topic extraction  LDA model  topic alignment  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号