期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

卢美情申妍燕《集成技术》2023,12(2):53-63

孪生网络预训练语言模型(Sentence Embeddings using Siamese BERT-Networks,SBERT)在文本匹配的表示层面上存在两个缺点：(1)两个文本查询经BERT Encoder得到向量表示后,直接进行简单计算;(2)该计算不能考虑到文本查询之间更细粒度表示的问题,易产生语义上的偏离,难以衡量单个词在上下文中的重要性。该文结合交互方法,提出一种结合多头注意力对齐机制的SBERT改进模型。该模型首先获取经SBERT预训练的两个文本查询的隐藏层向量;然后,计算两文本之间的相似度矩阵,并利用注意力机制分别对两个文本中的token再次编码,从而获得交互特征;最后进行池化,并整合全连接层进行预测。该方法引入了多头注意力对齐机制,完善了交互型文本匹配算法,加强了相似文本之间的关联度,提高了文本匹配效果。在ATEC 2018 NLP数据集及CCKS 2018微众银行客户问句匹配数据集上,对该方法进行验证,实验结果表明,与当前流行的5种文本相似度匹配模型ESIM、ConSERT、BERT-whitening、SimCSE以及baseline模型SBERT相比,本文模型... 相似文献

2.

基于文本相似度的简历匹配推荐算法研究

施元鹏单剑峰《计算机仿真》2022,(4):441-444,491

为了能够更好的帮助求职者选择合适的岗位信息,提出了基于文本相似度的简历匹配推荐算法.通过对简历和岗位信息进行特征提取及特征处理,将数据文本划分为两类.在结构化文本中,利用偏好权重因子α消除求职者与企业之间由于不同因素带来的相似度计算偏差.对于非结构化文本,利用机器学习模型doc2vec训练,并计算两者之间的相似度,提出... 相似文献

3.

基于正负样本和Bi-LSTM的文本相似度匹配模型

周艳平朱小虎《计算机系统应用》2021,30(4):175-180

相似度匹配是自然语言处理领域一个重要分支,也是问答系统抽取答案的重要途径之一.本文提出了一种基于正负样本和Bi-LSTM的文本相似度匹配模型,该模型首先为了提升问题和正确答案之间的相似度,构建正负样本问答对用于模型训练;其次为了解决分词错误引起的实验误差,采用双层嵌入词向量方法进行预训练;再次为了解决注意力机制导致的特征向量向后偏移的问题,在特征提取之前,采取内部注意力机制方法;然后为了保留重要的时序特性,采用Bi-LSTM神经网络进行数据训练;最后为了能在语义层次上计算相似度,提出一种包含语义信息的相似度计算函数.将本文提出的文本相似度匹配模型在公共数据集DuReader上进行了仿真实验,并和其他模型进行对比分析,实验结果表明,提出的模型不仅准确率高且鲁棒性好,top-1准确率达到78.34%. 相似文献

4.

BSLA：改进Siamese-LSTM的文本相似模型

下载免费PDF全文

孟金旭单鸿涛万俊杰贾仁祥《计算机工程与应用》2022,58(23):178-185

针对Siamese-LSTM模型对相似文本特征提取能力差的问题,提出了一种改进Siamese-LSTM的文本相似模型,该方法引入注意力机制,对相似词分配更大的权重,增强了对文本中相似词的识别能力,同时又引入目前先进的预训练模型BERT,提高相似文本上下文中不同词的交互能力,加强词与词之间的关联度,从而实现对相似与不相似文本的识别。实验结果表明,与当前流行的文本相似模型Siamese-LSTM、ABCNN、ESIM,BIMPM和仅引入BERT模型或注意力机制的Siamese-LSTM模型相比,Siamese-LSTM同时融合BERT和Attention的文本相似模型在准确率、精确率、召回率和F1评价指标表现出了很好的效果,在LCQMC和Quora Question Pairs数据集上F1值分别达到了86.18%和89.08%的最佳效果。相似文献

5.

基于分段注意力匹配网络的跨领域少样本关系分类

戴尚峰孙承杰单丽莉林磊刘秉权《中文信息学报》2021,35(8):56-63

针对跨领域少样本关系分类任务,该文提出分段注意力匹配网络PAMN。基于句子相似度计算的少样本学习算法有较好的领域适应性,PAMN在句子相似度算法上进行改进,针对关系抽取问题,将句子分段进行匹配,能更准确地计算关系分类实例间的相似度。PAMN由编码层和句子匹配层组成。在编码层,PAMN使用预训练模型BERT对句子对进行编码,根据实体位置将句子分为三段,通过动态段长进行段长领域自适应。在句子匹配层,PAMN使用基于分段注意力机制的文本匹配方法计算查询实例与支持集合中实例的相似度,取均值作为查询实例与该支持集合的相似度。实验结果显示,PAMN在FewRel 2.0领域适应任务中取得了目前该测评榜单上的最好效果。相似文献

6.

基于H-EMD 的形状上下文特征形状匹配方法 总被引：1，自引：0，他引：1

郑丹晨韩敏《控制与决策》2012,27(11):1639-1643

为了快速有效利用推土机距离(EMD)模型计算直方图间的交叉相似度,提出一种基于直方图的EMD(H-EMD)模型.将原始模型对应的线性规划问题中变量数目进行约减,降低了直方图相似度计算的复杂度.利用H-EMD模型计算形状上下文特征间的相似度,进而对基于形状上下文形状匹配方法进行改进.通过对不同的数据仿真结果进行比较,H-EMD模型在匹配时间上更具优势,同时,改进的形状匹配方法能有效实现形状识别和检索. 相似文献

7.

基于多角度信息交互的文本语义匹配模型

翁兆琦张琳《计算机工程》2021,47(10):97-102

现有的文本语义匹配方法大多基于简单的注意力机制进行交互,较少考虑文本自身结构信息和文本之间原始信息的的交互。针对2个中文文本的语义匹配问题,构建一个多角度信息交互的文本匹配模型MAII。分别从颗粒、局部、全局3个角度计算2个文本深层次的语义交互矩阵,同时考虑语序信息之间和结构信息之间的交互以及文本内部的依赖关系,从而得到含有丰富信息的语义向量,并通过语义推理计算出两文本之间的语义匹配度。实验结果表明,相比在英文数据集上表现良好的DSSM、ESIM和DIIN模型,MAII模型在CCKS 2018问句匹配大赛的中文数据集上达到77.77%的准确率,表现出更好的匹配性能。相似文献

8.

面向不确定文本数据的余弦相似性查询方法

《计算机科学与探索》2018,(1):49-64

最近邻查询在多个领域具有广泛的应用,如组合过滤、基于位置的服务、决策支持系统等。而且随着Web信息实体抽取、隐私保护信息转化、图像识别等技术的发展和普及,在诸多领域,不确定性文本数据普遍存在,基于信息论的TF-IDF算法,可以将文本型的相似匹配转化为数值型的向量的计算,具有严密性和有效性。但TF-IDF信息的余弦距离不属于度量空间,难于构建索引。为此主要研究了面向不确定文本数据基于余弦相似度的相似性查询方法。通过分析不确定性余弦相似度计算的特性,提出了快速相似度计算方法。通过对余弦距离的计算进行转换,构建改进的索引结构s MVP-tree(statistic multiple vantage point tree),并给出了基于余弦相似度面向不确定性数据的相似度计算方法。最后,结合该相似度计算方法提出了分布式环境下k NN查询和Rk NN查询算法。大量的基于真实数据的实验验证了算法的正确性和有效性。相似文献

9.

ESM:一种增强语义匹配的语句评分模型

曹小鹏邵一萌《计算机工程与科学》2020,42(6):1135-1140

语义匹配问题是自然语言处理的核心问题之一。基于语义的匹配,即通过提取文本内在语义进行匹配度计算,是目前自然语言处理领域研究的热点。传统的语义匹配模型并没有结合语句通顺度等多种要素综合评价,因此效果较差。提出一种增强语义匹配模型,模型在文本相似度计算的基础上,增加通顺度因子,并通过大量数据来调整最优参数。通过自动阅卷系统进行测试,对比3种常用的自动阅卷评分模型验证该模型能有效降低平均误差值。相似文献

10.

自编码器预训练和多表征交互的段落重排序模型

张康陈明顾凡《计算机应用研究》2023,(12):3643-3650

在段落重排序任务中，最近研究人员提出了基于双编码器的后期交互架构以实现快速计算。由于这些模型在训练和推理中都使用预训练模型对查询和段落进行独立编码，其排序性能较大地依赖了预训练模型的编码质量。此外，一些多向量的后期交互方式采用字符向量之间的最大相似度之和来计算文本相似度，容易出现部分匹配的问题。针对以上不足，提出了替换段落预测(RPP)的预训练方法，它采用一种部分连接的自编码器架构，使用ELECTRA类似的替换词汇预测任务来让预训练模型建立给定查询和文档之间的语义关系，从而增强其表示能力。在交互方式改进上，设计了一种新的后期交互范式。使用不同注意力引导待排序段落文本表征，通过动态融合后使用点积与查询向量进行相似度计算，具有较低的复杂度和较细的粒度特征。在MS MACRO段落检索数据集上的重排序实验表明：在不同训练条件下，该模型比ColBERT和PreTTR在MRR@10指标上都要优秀；在使用知识蒸馏情况下，性能接近教师模型的水平，且排序时间在GPU和CPU大幅缩短。相似文献