首页 | 本学科首页   官方微博 | 高级检索  
     

基于非对称多值特征杰卡德系数的高维语义向量差异性度量方法
引用本文:冯艳红,于红,孙庚,彭松. 基于非对称多值特征杰卡德系数的高维语义向量差异性度量方法[J]. 计算机科学, 2018, 45(6): 57-66
作者姓名:冯艳红  于红  孙庚  彭松
作者单位:大连海洋大学信息工程学院 大连116023;大连海洋大学辽宁省海洋信息技术重点实验室 大连116023,大连海洋大学信息工程学院 大连116023;大连海洋大学辽宁省海洋信息技术重点实验室 大连116023,大连海洋大学信息工程学院 大连116023;大连海洋大学辽宁省海洋信息技术重点实验室 大连116023,大连海洋大学信息工程学院 大连116023
基金项目:本文受大连市科技计划项目:海洋渔业大数据管理与集成关键技术研究(2015A11GX022),辽宁省大学生创新创业项目:渔业领域智能问答系统的研究与实现(201710158000131)资助
摘    要:语义向量差异性度量是采用深度学习方法解决自然语言处理领域问题的重要基础。在高维语义向量差异性度量中存在“度量集中”问题,导致通过传统的度量方法得到的度量结果无法体现语义向量间的差异性。针对该问题,提出一种基于非对称多值特征杰卡德系数的差异性度量方法。由高维语义向量维度值的统计分布得出,部分维度的维度值密集地分布在特定值域内,导致其无法贡献差异度,因此不同维度对差异性的贡献量不同,具有非对称性。该方法定义了关于维度值的重要性函数,选取重要性函数值满足阈值的维度参与差异度计算,去掉无法贡献差异度的维度,从而实现了降维,缓解了“度量集中”问题。分别在渔业数据集和公开数据集上,对不同维度的语义向量的不同度量方法进行了比较,结果表明在语义性没有明显变差的情况下,所提方法的多样性指标较目前最优的度量方法有大幅提高。

关 键 词:非对称多值特征  杰卡德系数  高维语义向量  度量方法  度量集中

Diversity Measures Method in High-dimensional Semantic Vector Based on Asymmetric Multi-valued Feature Jaccard Coefficient
FENG Yan-hong,YU Hong,SUN Geng and PENG Song. Diversity Measures Method in High-dimensional Semantic Vector Based on Asymmetric Multi-valued Feature Jaccard Coefficient[J]. Computer Science, 2018, 45(6): 57-66
Authors:FENG Yan-hong  YU Hong  SUN Geng  PENG Song
Affiliation:College of Information Engineering,Dalian Ocean University,Dalian 116023,China;Key Laboratory of Marine Information Technology of Liaoning Province,Dalian Ocean University,Dalian 116023,China,College of Information Engineering,Dalian Ocean University,Dalian 116023,China;Key Laboratory of Marine Information Technology of Liaoning Province,Dalian Ocean University,Dalian 116023,China,College of Information Engineering,Dalian Ocean University,Dalian 116023,China;Key Laboratory of Marine Information Technology of Liaoning Province,Dalian Ocean University,Dalian 116023,China and College of Information Engineering,Dalian Ocean University,Dalian 116023,China
Abstract:
Keywords:Asymmetric multi-valued feature  Jaccard coefficient  High-dimensional semantic vector  Measures method  Measurement concentration
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号