首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
针对当前政务系统中人工审批文本效率低下的问题,本文将文本相似度引入电子政务中。当前基于文本相似度的网络模型中,存在着生成的词向量矩阵巨大,需要大量的时间去训练,而且仅利用上下文的环境来生成词向量,忽略了文档的语序和语义的关系。为了提高效率并降低训练成本,本文提出基于Do-Bi-LSTM文本相似度计算方法,该模型首先通过Doc2vec语言模型把训练数据集中的文本转换成向量,该方法在词向量的基础上增加了文本向量,从而获取了句子之间以及段落之间的相互关系。然后把得到的向量作为Bi-LSTM网络模型的输入进行模型训练,最后与LSTM网络模型、传统的深度网络模型相比,实验表明本文方法的准确率有很大的提高,具有可行性。  相似文献   

2.
针对传统的文章推荐方法存在的冷启动、用户反馈稀疏以及相似度衡量准确性欠佳等问题,本文提出了融合主题模型和预训练模型BERT的文章相似度计算模型(contextualized topic BERT, ctBERT).给定查询,该算法会计算查询与相关文章之间的相似度分数,文章经过预处理分别输入独立的子模块进行特征抽取并计算相似度得分,相似度得分与支撑集的个性化得分相结合以获得最终分数,该方法将单样本学习整合进推荐框架中,进一步取得了显著的改进.本文在3个不同的数据集上的实验结果表明,所提出方法在3个数据集上的NDCG标准均有提升,例如在Aminer数据集上NDCG@3和NDCG@5标准比对比方法分别提高了6.1%和7.2%,验证了该方法的有效性.  相似文献   

3.
目的 在线公式识别是一种将在线输入手写轨迹点序列转换为公式文本的任务,其广泛应用在手机、平板等便携式设备上。众所周知,训练数据对于神经网络十分重要,但获取有标注的在线公式数据所需要的成本十分昂贵,在训练数据不足的情况下,深度神经网络在该任务上的泛化性和鲁棒性会受到影响。为此,提出了一个基于编码—解码模型的在线数据生成模型。方法 该模型从给定的公式文本生成对应的在线轨迹点序列,从而灵活地扩充训练数据规模。生成模型在编码器端设计了结合树形表示的文本特征提取模块,并且引入了基于位置的注意力算法,使模型实现了输入文本序列与输出轨迹序列间的对齐。同时,解码器端融入了不同手写人风格特征,使模型可以生成多种手写人风格的样本。结果 实验中,首先,将本文生成方法在不同类型输入文本和不同手写人风格上的结果可视化,并展示了模型在多数情况下的有效性。其次,生成模型合成的额外数据可作为训练集的增广,该数据被用于训练Transformer-TAP(track,attend,and parse)、TAP和DenseTAP-TD(DenseNet TAP with tree decoder)模型,并分析了3种模型在使用增广数据前后的性能变化。结果表明,引入增广数据分进行训练后,3个模型的绝对识别率分别提升了0.98%、1.55%和1.06%;相对识别率分别提升了9.9%、12.37%和9.81%。结论 本文提出的在线生成模型可以更加灵活地实现对原有数据集的增广,并有效提升了在线识别模型的泛化性能。  相似文献   

4.
针对传统协同过滤推荐算法存在的冷启动、数据稀疏以及相似度度量的准确性问题,基于LDA主题模型对文本隐式主题挖掘的有效性和KL散度在主题分布相似性度量的准确性,提出了结合LDA主题模型的矩阵分解推荐算法。首先,利用改进的LDA算法输出项目-主题分布,并用困惑度作为主题数设置的修正函数;然后分别基于余弦相似度和KL散度计算得到项目相似度矩阵,将得到的相似度矩阵结合原评分训练集输出预评分,再将预评分填充到训练集;最后将训练集输入ALS矩阵分解算法得到推荐结果。通过MovieLens数据集的实验结果表明,该算法在不同隐式参数设定下均能得到比ALS推荐算法以及更小的预测误差,并且最优预测误差小于传统推荐算法。该实验说明了通过集成LDA主题模型的ALS算法效果要优于其他推荐算法。  相似文献   

5.
针对传统标签传播算法准确率较低的问题,提出一种基于深度游走模型的改进标签传播算法。以社会网络作为深度游走模型的输入,通过深度随机游走的方式对网络中的节点进行采样得到随机序列,并基于Skip Gram模型对其进行神经网络训练。运用层次Softmax对Skip Gram模型进行求解,得到节点的特征向量后在邻居节点之间计算节点相似度,将其作为标签传播概率的权重进行标签的传播迭代,最终得到社区发现的结果。在6个真实网络数据集和合成数据集上进行实验,结果表明,与传统标签传播算法相比,该改进算法具有较高的准确率,尤其对于节点个数在100以上的真实网络,Q值提高10%以上。  相似文献   

6.
《软件工程师》2022,(1):50-55
在自然语言处理的文本相似度匹配方面,针对长短期记忆网络拥有多个控制门层,导致其在训练过程中需要一定的硬件计算能力和计算时间成本,提出一种基于Bi-GRU的改进ESIM文本相似度匹配模型。该模型在双向LSTM(BiLSTM)的ESIM模型的基础上,通过Bi-GRU神经网络进行数据训练,提高模型的训练性能。实验表明,在公开数据集QA_corpus和LCQMC上分别进行测试,改进后的ESIM模型较之原先模型,在结果数据对比图中,绝大部分组的损失函数数值均小于原先模型,准确率数值均大于原先模型。  相似文献   

7.
孪生网络预训练语言模型(Sentence Embeddings using Siamese BERT-Networks,SBERT)在文本匹配的表示层面上存在两个缺点:(1)两个文本查询经BERT Encoder得到向量表示后,直接进行简单计算;(2)该计算不能考虑到文本查询之间更细粒度表示的问题,易产生语义上的偏离,难以衡量单个词在上下文中的重要性。该文结合交互方法,提出一种结合多头注意力对齐机制的SBERT改进模型。该模型首先获取经SBERT预训练的两个文本查询的隐藏层向量;然后,计算两文本之间的相似度矩阵,并利用注意力机制分别对两个文本中的token再次编码,从而获得交互特征;最后进行池化,并整合全连接层进行预测。该方法引入了多头注意力对齐机制,完善了交互型文本匹配算法,加强了相似文本之间的关联度,提高了文本匹配效果。在ATEC 2018 NLP数据集及CCKS 2018微众银行客户问句匹配数据集上,对该方法进行验证,实验结果表明,与当前流行的5种文本相似度匹配模型ESIM、ConSERT、BERT-whitening、SimCSE以及baseline模型SBERT相比,本文模型...  相似文献   

8.
理清文本互文性对于理顺文本间的多维关联对提高文本理解和翻译的准确性具有重要作用.以典籍文本<茶经>和<续茶经>为试验对象,使用向量空间模型(VSM)度量文本互文性,在此基础上提出了改进方法,即扩展项之间的相似度计算和采用序列模型,并给出了基于文本互文性度量的文本翻译索引方法.实验结果表明,扩展项之间的相似度计算效果不够理想,而采用序列模型则可取得较好的结果,可为原文本的准确理解和译文本的翻译提供有益参考.  相似文献   

9.
为提升管制员培训效果,减少人物力成本,利用深度学习序列到序列框架,对陆空通话标准用语(英文)进行处理与建模,实现输入管制员文本指令,即可输出飞行员文本应答.首先模拟管制员飞行员对话用语习惯,创建航行进离场阶段英文数据集;其次建立陆空通话模型,并对模型进行优化和训练;最后通过相关指标评估模型效果.实验结果显示,模型应答具...  相似文献   

10.
自然语言处理技术在文本分类、文本纠错等任务中表现出强大性能,但容易受到对抗样本的影响,导致深度学习模型的分类准确性下降。防御对抗性攻击是对模型进行对抗性训练,然而对抗性训练需要大量高质量的对抗样本数据。针对目前中文对抗样本相对缺乏的现状,提出一种可探测黑盒的对抗样本生成方法 WordIllusion。在数据处理与计算模块中,数据在删除标点符号后输入文本分类模型得到分类置信度,再将分类置信度输入CKSFM计算函数,通过计算比较cksf值选出句子中的关键词。在关键词替换模块中,利用字形嵌入空间和同音字库中的相似词语替换关键词并构建对抗样本候选序列,再将序列重新输入数据处理与计算模块计算cksf值,最终选择cksf值最高的数据作为最终生成的对抗样本。实验结果表明,WordIllusion方法生成的对抗样本在多数深度学习模型上的攻击成功率高于基线方法,在新闻分类场景的DPCNN模型上相比于CWordAttack方法最多高出41.73个百分点,且生成的对抗样本与原始文本相似度很高,具有较强的欺骗性与泛化性。  相似文献   

11.
新闻文本与新闻评论相似度计算旨在筛选出与新闻文本相关的评论,而大部分评论以短文本的形式对新闻文本做出评价,因此新闻文本与评论的相似度计算本质上是长文本与短文本的相似度计算.传统长文本处理方法易导致文本信息缺失、文章主题不明确等问题,降低相似度计算的准确率.针对新闻文本与评论的长度差距,结合评论的特点,该文提出了结合对比学习的新闻文本与评论相似度计算方法,该方法通过关键词的提取实现新闻文本压缩同时减少文本的冗余信息;将关键词序列与新闻标题拼接作为新闻文本的表示;然后通过BERT预训练模型使用对比学习的方法实现文本正负例的构造;最后通过交叉熵和相对熵损失函数对预训练模型进行微调,实现文本的相似度计算.实验表明,该文提出的方法较近几年的长文本处理方法在准确率上提高了3.6%,并在中文文本相似度计算的公共数据集上也取得了较好的效果.  相似文献   

12.
传统的基于Token的克隆检测方法利用代码字符串的序列化特性,可以在大型代码仓中快速检测克隆.但是与基于抽象语法树(AST)、程序依赖图(PDG)的方法相比,由于缺少语法及语义信息,针对文本有较大差异的克隆代码检测困难.为此,提出一种赋予语义信息的Token克隆检测方法.首先,分析抽象语法树,使用AST路径抽象位于叶子节点的Token的语义信息;然后,在函数名和类型名角色的Token上建立低成本索引,达到快速并有效地筛选候选克隆片段的目的.最后,使用赋予语义信息的Token判定代码块之间的相似性.在公开的大规模数据集BigCloneBench实验结果表明,该方法在文本相似度较低的Moderately Type-3和Weakly Type-3/Type-4类型克隆上显著优于主流方法,包括NiCad、Deckard、CCAligner等,同时在大型代码仓上需要更少的检测时间.  相似文献   

13.
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。  相似文献   

14.
一种PST_LDA中文文本相似度计算方法   总被引:3,自引:1,他引:2  
为了降低中文文本相似度计算方法的时间消耗,提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集,分别用LDA方法和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。  相似文献   

15.
在传统的文本分类中,文本向量空间矩阵存在“维数灾难”和极度稀疏等问题,而提取与类别最相关的关键词作为文本分类的特征有助于解决以上两个问题。针对以上结论进行研究,提出了一种基于关键词相似度的短文本分类框架。该框架首先通过大量语料训练得到word2vec词向量模型;然后通过TextRank获得每一类文本的关键词,在关键词集合中进行去重操作作为特征集合。对于任意特征,通过词向量模型计算短文本中每个词与该特征的相似度,选择最大相似度作为该特征的权重。最后选择K近邻(KNN)和支持向量机(SVM)作为分类器训练算法。实验基于中文新闻标题数据集,与传统的短文本分类方法相比,分类效果约平均提升了6%,从而验证了该框架的有效性。  相似文献   

16.
施元鹏  单剑峰 《计算机仿真》2022,(4):441-444,491
为了能够更好的帮助求职者选择合适的岗位信息,提出了基于文本相似度的简历匹配推荐算法.通过对简历和岗位信息进行特征提取及特征处理,将数据文本划分为两类.在结构化文本中,利用偏好权重因子α消除求职者与企业之间由于不同因素带来的相似度计算偏差.对于非结构化文本,利用机器学习模型doc2vec训练,并计算两者之间的相似度,提出...  相似文献   

17.
目前作文自动评分模型缺乏对不同尺度上下文语义特征的提取,未能从句子级别计算与作文主题关联程度的特征。提出基于多尺度上下文的英文作文自动评分研究方法 MSC。采用XLNet英文预训练模型提取原始作文文本单词嵌入和句嵌入,避免在处理长序列文本时无法准确捕捉到符合上下文语境的向量嵌入,提升动态向量语义表征质量,解决一词多义问题,并通过一维卷积模块提取不同尺度的短语级别嵌入。多尺度上下文网络通过结合内置自注意力简单循环单元和全局注意力机制,分别捕捉单词、短语和句子级别的作文高维潜在上下文语义关联关系,利用句向量与作文主题计算语义相似度提取篇章主题层次特征,将所有特征输入融合层通过线性层得到自动评分结果。在公开的标准英文作文评分数据集ASAP上的实验结果表明,MSC模型平均二次加权的Kappa值达到了80.5%,且在多个子集上取得了最佳效果,优于实验对比的深度学习自动评分模型,证明了MSC在英文作文自动评分任务上的有效性。  相似文献   

18.
为有效利用轨迹内外部属性进行异常检测,提出一种基于BP神经网络的异常轨迹识别方法。对原始轨迹数据进行去噪处理,存储至百度云的LBS云端,基于百度地图的轨迹数据可视化网站实现轨迹显示,并通过归一化数据计算轨迹属性值。同时,将轨迹内外部特征属性作为BP神经网络算法的输入层,轨迹相似度量值作为输出层,调整隐含层系数得到训练模型,从而识别用户异常轨迹。在2个用户数据集上的仿真结果表明,该方法的异常轨迹识别准确率分别达到92.3%和100%。  相似文献   

19.
相似度匹配是自然语言处理领域一个重要分支,也是问答系统抽取答案的重要途径之一.本文提出了一种基于正负样本和Bi-LSTM的文本相似度匹配模型,该模型首先为了提升问题和正确答案之间的相似度,构建正负样本问答对用于模型训练;其次为了解决分词错误引起的实验误差,采用双层嵌入词向量方法进行预训练;再次为了解决注意力机制导致的特征向量向后偏移的问题,在特征提取之前,采取内部注意力机制方法;然后为了保留重要的时序特性,采用Bi-LSTM神经网络进行数据训练;最后为了能在语义层次上计算相似度,提出一种包含语义信息的相似度计算函数.将本文提出的文本相似度匹配模型在公共数据集DuReader上进行了仿真实验,并和其他模型进行对比分析,实验结果表明,提出的模型不仅准确率高且鲁棒性好,top-1准确率达到78.34%.  相似文献   

20.
哈希编码能够节省存储空间、提高检索效率,已引起广泛关注.提出一种成对相似度迁移哈希方法(pairwise similarity transferring hash,PSTH)用于无监督跨模态检索.对于每个模态,PSTH将可靠的模态内成对相似度迁移到汉明空间,使哈希编码继承原始空间的成对相似度,从而学习各模态数据对应的哈希编码;此外,PSTH重建相似度值而不是相似度关系,使得训练过程可以分批进行;与此同时,为缩小不同模态间的语义鸿沟,PSTH最大化模态间成对相似度.在三个公开数据集上进行了大量对比实验,PSTH取得了SOTA的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号