首页 | 本学科首页   官方微博 | 高级检索  
     

基于词向量的实体链接方法
引用本文:齐爱芹 徐蔚然. 基于词向量的实体链接方法[J]. 数据采集与处理, 2017, 32(3): 604-611
作者姓名:齐爱芹 徐蔚然
作者单位:北京邮电大学自动化学院,北京,100876
摘    要:实体链接任务主要包括命名实体识别、查询扩展、候选实体选择、特征抽取和排序。本文针对查询词的扩展,提出了一种基于词向量的扩展方法。该方法利用连续词袋(Continuous bag-of-words,CBOW)模型训练语料中词语的词向量,然后将距离查询词近的词作为扩展词。词向量从语料中挖掘出词与词之间的语义相关性是对基于规则的查询扩展方法的补充,以此来召回候选实体。在特征抽取时,把文档之间的潜在狄利克雷分布(Latent Dirichlet allocation, LDA)的主题相似性作为特征之一。在计算文档相似性时,不再以高频词作为向量的维度,而是以基于词向量的相关词作为向量维度,由此得到文档的语义相似性特征 。最后利用基于单文档方法的排序学习模型把查询词链接到相应的候选实体。实验结果表明利用该方法能使F1值达到0.71,具有较好的效果。

关 键 词:实体链接;潜在狄利克雷分布;词向量;排序学习

Method of Entity Linking Based on Word Embedding
Qi Aiqin,Xu Weiran. Method of Entity Linking Based on Word Embedding[J]. Journal of Data Acquisition & Processing, 2017, 32(3): 604-611
Authors:Qi Aiqin  Xu Weiran
Abstract:
Keywords:
点击此处可从《数据采集与处理》浏览原始摘要信息
点击此处可从《数据采集与处理》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号