首页 | 本学科首页   官方微博 | 高级检索  
     

基于交叉注意力机制的多视图项目文本分类方法
引用本文:方正云,杨政,李丽敏,李天骄. 基于交叉注意力机制的多视图项目文本分类方法[J]. 中文信息学报, 2022, 36(7): 123-131
作者姓名:方正云  杨政  李丽敏  李天骄
作者单位:1.昆明理工大学 国土资源工程学院,云南 昆明 650093;
2.云南电网有限责任公司,云南 昆明 650051;
3.云南电网有限责任公司 电力科学研究院,云南 昆明 650217;
4.西安交通大学 数学与统计学院,陕西 西安 710049
摘    要:科研项目文本的分类往往需要耗费巨大的人力、物力,因此采用智能方法实现对项目文本分类意义重大。文本分类方法的核心在于文本语义特征的提取,高效的特征提取方法有助于准确构建文本到类别之间的映射。已有的文本分类方法往往基于整个文本或者一部分文本作为分类依据,可能出现信息的冗余或缺失。该文针对结构化的项目文本,在BERT等预训练网络的基础上,创新性地提出基于单交叉注意力机制的两视图项目文本分类学习方法(Two-View Cross Attention, TVCA)和基于双交叉注意力机制的多视图项目文本分类学习方法(Multi-View Cross Attention, MVCA)。MVCA方法基于项目文本的一个主要视图(项目摘要)和两个辅助视图(研究内容、目的和意义),通过两个交叉注意力机制提取包含更丰富语义信息的特征向量,进一步改善分类模型的性能。我们将TVCA和MVCA方法应用于英文论文数据Web of Science Meta-data和南方电网科技项目文本的分类任务中,实验结果验证了TVCA和MVCA方法无论从分类效果还是收敛速度上,都明显优于已有的比较方法。

关 键 词:多视图分类  交叉注意力机制  文本分类

Multi-view Project Text Classification Based on Cross-attention
FANG Zhengyun,YANG Zheng,LI Limin,LI Tianjiao. Multi-view Project Text Classification Based on Cross-attention[J]. Journal of Chinese Information Processing, 2022, 36(7): 123-131
Authors:FANG Zhengyun  YANG Zheng  LI Limin  LI Tianjiao
Affiliation:1.Faculty of Land Resources Engineering, Kunming University of Science and Technology, Kunming, Yunnan 650093, China;
2.Yunnan Power Grid Co., Ltd., Kunming, Yunnan 650051, China;
3.Electric Power Research Institute of Yunnan Power Grid Co., Ltd., Kunming, Yunnan 650217, China;
4.School of Mathematics and Statistics, Xi'an Jiaotong University, Xi'an, Shaanxi 710049, China
Abstract:Aiming at structured scientific research project text, this paper proposes a novel two-view cross attention (TVCA) and multi-view cross attention text classification method (Multi-View Cross Attention, MVCA) based on pre-trained networks such as BERT. The MVCA method is targeted at one main important chapter (project abstract) and two chapters of the project text (research content, research purpose and meaning), extracting feature vectors containing richer semantic information through a cross-attention mechanism to further improve the performance of the classification model. Applied to the classification tasks of scientific publications and research project texts of China Southern Power Grid, the MVCA method is significantly better than the existing methods in terms of classification effect and convergence speed.
Keywords:multi-view classification    cross-attention mechanism    text classification  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号