首页 | 本学科首页   官方微博 | 高级检索  
     

基于SCDV及各向异性调整BERT的文本语义消歧方法
引用本文:李保珍. 基于SCDV及各向异性调整BERT的文本语义消歧方法[J]. 计算机应用研究, 2022, 39(10)
作者姓名:李保珍
作者单位:南京审计大学 信息工程学院,南京211815
基金项目:国家自然科学基金资助项目(72074117,71673122);江苏现代财税治理协同创新中心资助项目(20WTB007);江苏省研究生科研创新项目(KYCX21_1948)
摘    要:文本表示需要解决文本词语的歧义性问题,并能够准确界定词语在特定上下文语境中的语义特征。针对词语的多义性及语境特征问题,提出了一种文本语义消歧的SCDVAB模型。其基于分区平均技术,将场景语料库转换为文档嵌入,并引入各向异性,改进了软聚类的稀疏复合文档向量(SCDV)算法,以提高BERT的语境化表示能力;将调整各向异性后的BERT词语嵌入,作为静态词语向量的文档嵌入,以提升文本语义消歧的能力。通过大量实验进一步证明,SCDVAB模型的效果明显优于传统的文本消歧算法,可有效提高文本语义消歧的综合性能。

关 键 词:语义消歧  各向异性  BERT  稀疏复合文档向量  文本表示
收稿时间:2022-03-05
修稿时间:2022-04-28

Text semantic disambiguation based on SCDV and anisotropy adjusted BERT
Affiliation:Nanjing Audit University
Abstract:Solving the problem of ambiguity of text words is important for text representation, and it can accurately define the semantic characteristics of words in a specific context. Aiming at the polysemy and contextual characteristics of words, this paper proposed a semantic disambiguation model of SCDVAB. Based on the partition average technology, it could convert scene corpus into document embedding, and introduce anisotropy to improved the sparse composite document vector(SCDV) algorithm of soft clustering to improve the contextual representation ability of BERT, and then it could improve the ability of text semantic disambiguation by embedding the BERT words after adjusting the anisotropy as a static word vector. Experimental results show that SCDVAB model is significantly better than the traditional text disambiguation algorithm. SCDVAB model can effectively improve the comprehensive performance of text semantic disambiguation.
Keywords:semantic disambiguation   anisotropy   BERT   SCDV   text representation
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号