共查询到20条相似文献,搜索用时 281 毫秒
1.
针对自然语言处理中查询主题漂移和词不匹配问题,提出基于CSC(Copulas-based Support and Confidence)框架的关联模式挖掘与规则扩展算法,并将基于统计学分析的关联模式与具有上下文语义信息的词向量融合,提出关联模式挖掘与词向量学习融合的伪相关反馈查询扩展模型.该模型对伪相关反馈文档集挖掘规则扩展词,对初检文档集进行词嵌入学习训练得到词向量,计算规则扩展词与原查询的向量相似度,提取向量相似度不低于阈值的规则扩展词作为最终扩展词.实验结果表明,所提扩展模型能有效地减少查询主题漂移和词不匹配问题,提高检索性能,与现有基于关联模式的和基于词向量的查询扩展方法比较,MAP(Mean Average Precision)平均增幅最大可达17.52%,对短查询更有效.所提挖掘方法可用于其他文本挖掘任务和推荐系统,以提高其性能. 相似文献
2.
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。 相似文献
3.
针对时空相似度算法关联轨迹的局限性,采用深度学习方法进行轨迹关联,并提出了一种基于无监督预训练的匹配神经网络训练方式。利用Geohash向量嵌入对轨迹信号做特征工程处理,构建自注意力机制神经网络结构,使用无标注轨迹数据基于遮蔽预测任务进行模型预训练;然后构建孪生匹配网络结构,加载预训练模型参数;最后使用标注轨迹对数据基于均方差损失函数微调预训练模型参数得到轨迹对匹配模型。采用Geolife GPS轨迹数据集作为评估数据集进行模型训练与测试,实验结果显示,利用无监督预训练的轨迹关联方法较现有最优算法匹配准确率提高了5个百分点,达到了96.3%,充分证明了该方法的有效性。目前轨迹关联领域基于深度学习预训练模型的研究较少,该方法具有重要的参考意义。 相似文献
4.
单词记忆检索是指人在记忆中搜索到一个单词的过程,是单词学习的重要方面。目前关于单词记忆检索的研究非常有限。文中提出一种基于DBSCAN聚类和随机森林的单词记忆检索难度预测模型,通过仿真程序和机器学习算法,从单词自身特征出发预测单词记忆检索的难度。首先开发一个单词记忆检索仿真程序,根据仿真程序结果以及单词的字母组成结构、词性、使用频率构造特征向量,训练一个随机森林回归模型集用于预测单词记忆检索难度七维向量表达。另外,使用DBSCAN聚类算法获取单词难度标签,在此基础上训练一个随机森林分类预测模型用于预测单词的难度分类。实验结果表明:回归模型集平均拟合优度R2值达到了0.906;分类预测模型准确率达到了0.985;模型整体具有较好的鲁棒性。 相似文献
5.
6.
英语学习者的词汇学习效率低下问题已引起共鸣,针对英语智能词汇学习的推荐方式得到高度应用.文中通过分析自适应学习和学习风格的实质性特征,构建英语智能词汇推荐模型,结合聚类算法对模型进行优化设置,并通过统计学软件对系统性能进行可视化分析.通过实验验证,设计的英语智能词汇推荐系统的用户相似度阈值同年龄相似度权重的取值范围相同... 相似文献
7.
8.
近年来外语学习受到越来越多的关注,单词记忆在外语学习中占着举足轻重的地位.但是传统的背诵单词方式,效率低下且容易遗忘.本文将艾宾浩斯记忆曲线与单词记忆结合,提出了一种单词记忆和复习策略,能够有效快速的记忆单词,并且通过反复复习加强单词的记忆.在软件设计方面,我们采用了当下流行的web技术以及MongoDB数据库,这使得系统拥有良好可用性和可靠性. 相似文献
9.
针对两个反义词在相似语境下转化成词向量后空间距离相近,容易造成情感信息丢失,循环神经网络等的特征提取方式容易导致网络依赖增强,难以充分提取局部性特征。针对第一个问题,本文提出情感嵌入模块,在词嵌入的过程中加入情感向量与语义信息作为网络的输入层;针对第二个问题,本文提出层次注意力机制,将融合后的词向量切片形成两个子序列,将单词的词向量输入到双向门控循环网络,利用注意力机制对隐藏层进行加权计算,获得子序列文本信息,通过多个网络层获得整个文本序列信息;最后,经过softmax函数输出文本情感极性。在NLPIR微博语料库和NLPCC2014的微博公开数据集进行实验,表明该情感分析模型在准确率上有所提高,证明了模型的有效性。 相似文献
10.
11.
12.
13.
14.
新闻推荐是根据用户的阅读习惯,为其推送更符合需求的内容,然而现有的方法仍存在特征学习不足的问题.针对此问题,提出了一种基于多通道CNN-BiGRU与多特征融合方法,主要由以下四部分组成:(1)词嵌入层.在词向量中融入实体嵌入向量,弥补单独仅使用词向量的不足,完成多通道词向量的构建;(2)多通道CNN-BiGRU模型.此... 相似文献
15.
基于图模型的TextRank方法形成的摘要不会脱离文档本身,但在抽取文本特征的时候,传统的词向量获取方法存在一词多义的问题,而基于BERT的词向量获取方式,充分挖掘了文本语义信息,缓解了一词多义问题.对不同词嵌入方法进行了实验对比,验证了BERT模型的有效性.基于词频统计的相似度计算方法也忽略了句子的语义信息,文中选择... 相似文献
16.
17.
18.
源代码漏洞检测是保证软件系统安全的重要手段。近年来,多种深度学习模型应用于源代码漏洞检测,极大提高了漏洞检测的效率,但还存在自定义标识符导致库外词过多、嵌入词向量的语义不够准确、神经网络模型缺乏可解释性等问题。基于此,该文提出了一种基于卷积神经网络(CNN)和全局平均池化(GAP)可解释性模型的源代码漏洞检测方法。首先在源代码预处理中对部分自定义标识符进行归一化,并采用One-hot编码进行词嵌入以缓解库外词过多的问题;然后构建CNN-GAP神经网络模型,识别出包含CWE-119缓冲区溢出类型漏洞的函数;最后通过类激活映射(CAM)可解释方法对结果进行可视化输出,标识出可能与漏洞相关的代码。通过与Russell等人提出的模型以及Li等人提出的VulDeePecker模型进行对比分析,表明CNN-GAP模型能达到相当甚至更好的性能,且具有一定的可解释性,便于研究人员对漏洞进行更深入的分析。 相似文献
19.
针对电商评论数据缺乏深层次的情感分析和语义知识关联,不利于系统挖掘潜在的消费情感和客户满意度信息问题,以京东电商评论数据为例,提出一种融合多头注意力机制和双向长短时记忆网络模型(bi-directional long short-term memory,BiLSTM)的电商评论情感分析模型。首先,通过词嵌入将文本数据转化为句向量;其次,构建融合多头注意力机制的BiLSTM模型,利用BiLSTM捕获长距离依赖关系,利用Transformer突出全局关键特征;最后,构建分类器实现电商评论的情感分析。实验结果表明,文章提出方法优于现有的机器学习和深度学习方法,其F1值为0.927 6。同时,通过详细的对比实验证明了该方法能实现评论文本情感特征的细粒度提取,并能在少样本标注的情况下取得更好的准确率,具有良好的鲁棒性和准确性。 相似文献
20.
本文从关联网络记忆模型角度出发,从品牌认知和品牌形象两个方面对品牌知识结构进行分析,并在原有的Keller品牌联想模型基础上进行探索,将品牌联想分别从与产品功能相关属性,非产品功能相关属性,企业信誉三方面对品牌联想分类,并浅谈了关于品牌知识结构在实际中的应用。希望为企业调整和选择有针对性的市场营销活动,提高品牌资产提供理论指导。 相似文献