首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
黄名选 《电子学报》2021,49(7):1305-1313
针对自然语言处理中查询主题漂移和词不匹配问题,提出基于CSC(Copulas-based Support and Confidence)框架的关联模式挖掘与规则扩展算法,并将基于统计学分析的关联模式与具有上下文语义信息的词向量融合,提出关联模式挖掘与词向量学习融合的伪相关反馈查询扩展模型.该模型对伪相关反馈文档集挖掘规则扩展词,对初检文档集进行词嵌入学习训练得到词向量,计算规则扩展词与原查询的向量相似度,提取向量相似度不低于阈值的规则扩展词作为最终扩展词.实验结果表明,所提扩展模型能有效地减少查询主题漂移和词不匹配问题,提高检索性能,与现有基于关联模式的和基于词向量的查询扩展方法比较,MAP(Mean Average Precision)平均增幅最大可达17.52%,对短查询更有效.所提挖掘方法可用于其他文本挖掘任务和推荐系统,以提高其性能.  相似文献   

2.
卢佳伟  陈玮  尹钟 《电子科技》2009,33(10):51-56
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。  相似文献   

3.
李平  李雨航 《电讯技术》2024,(4):504-511
针对时空相似度算法关联轨迹的局限性,采用深度学习方法进行轨迹关联,并提出了一种基于无监督预训练的匹配神经网络训练方式。利用Geohash向量嵌入对轨迹信号做特征工程处理,构建自注意力机制神经网络结构,使用无标注轨迹数据基于遮蔽预测任务进行模型预训练;然后构建孪生匹配网络结构,加载预训练模型参数;最后使用标注轨迹对数据基于均方差损失函数微调预训练模型参数得到轨迹对匹配模型。采用Geolife GPS轨迹数据集作为评估数据集进行模型训练与测试,实验结果显示,利用无监督预训练的轨迹关联方法较现有最优算法匹配准确率提高了5个百分点,达到了96.3%,充分证明了该方法的有效性。目前轨迹关联领域基于深度学习预训练模型的研究较少,该方法具有重要的参考意义。  相似文献   

4.
单词记忆检索是指人在记忆中搜索到一个单词的过程,是单词学习的重要方面。目前关于单词记忆检索的研究非常有限。文中提出一种基于DBSCAN聚类和随机森林的单词记忆检索难度预测模型,通过仿真程序和机器学习算法,从单词自身特征出发预测单词记忆检索的难度。首先开发一个单词记忆检索仿真程序,根据仿真程序结果以及单词的字母组成结构、词性、使用频率构造特征向量,训练一个随机森林回归模型集用于预测单词记忆检索难度七维向量表达。另外,使用DBSCAN聚类算法获取单词难度标签,在此基础上训练一个随机森林分类预测模型用于预测单词的难度分类。实验结果表明:回归模型集平均拟合优度R2值达到了0.906;分类预测模型准确率达到了0.985;模型整体具有较好的鲁棒性。  相似文献   

5.
目前计算机辅助翻译在相似度计算方面存在很大的局限性,精度较低。针对特定领域,收集领域相关的训练语料,采用Google的word2vec进行英语和汉语的词向量模型构建,设计并实现汉语句子的相似度计算方法,提出基于词向量Jaccard相似度与基于词向量依存句法相结合的相似度计算方法,实验结果显示其效果比传统方法有较大提升。最后,将相关英汉句子相似度算法以接口的形式封装,作为商品化软件华建IAT系统的相似度计算模块投入实际应用。  相似文献   

6.
英语学习者的词汇学习效率低下问题已引起共鸣,针对英语智能词汇学习的推荐方式得到高度应用.文中通过分析自适应学习和学习风格的实质性特征,构建英语智能词汇推荐模型,结合聚类算法对模型进行优化设置,并通过统计学软件对系统性能进行可视化分析.通过实验验证,设计的英语智能词汇推荐系统的用户相似度阈值同年龄相似度权重的取值范围相同...  相似文献   

7.
词向量的准确性在较大程度上影响了这些自然语言处理任务的运行。词向量通过词嵌入产生,在词嵌入的方法中,都将目标单词及其上下文作为训练的输入,因此上下文的选定对词嵌入有着重要的影响。文中通过使用word2vec词嵌入方法,研究各种变体上下文窗口对词嵌入准确度的影响。根据上下文窗口的各种宽度、偏移量、权值进行了一系列实验。从实验结果中发现,上下文窗口的变化只会对整体训练结果的准确性造成很小的影响,然而对于其中具体的各个单词却有显著影响。从而得出结论,即大量单词各自所适应的上下文窗口区别较大,而统一的上下文窗口难以实现对全部单词的最佳训练。  相似文献   

8.
近年来外语学习受到越来越多的关注,单词记忆在外语学习中占着举足轻重的地位.但是传统的背诵单词方式,效率低下且容易遗忘.本文将艾宾浩斯记忆曲线与单词记忆结合,提出了一种单词记忆和复习策略,能够有效快速的记忆单词,并且通过反复复习加强单词的记忆.在软件设计方面,我们采用了当下流行的web技术以及MongoDB数据库,这使得系统拥有良好可用性和可靠性.  相似文献   

9.
针对两个反义词在相似语境下转化成词向量后空间距离相近,容易造成情感信息丢失,循环神经网络等的特征提取方式容易导致网络依赖增强,难以充分提取局部性特征。针对第一个问题,本文提出情感嵌入模块,在词嵌入的过程中加入情感向量与语义信息作为网络的输入层;针对第二个问题,本文提出层次注意力机制,将融合后的词向量切片形成两个子序列,将单词的词向量输入到双向门控循环网络,利用注意力机制对隐藏层进行加权计算,获得子序列文本信息,通过多个网络层获得整个文本序列信息;最后,经过softmax函数输出文本情感极性。在NLPIR微博语料库和NLPCC2014的微博公开数据集进行实验,表明该情感分析模型在准确率上有所提高,证明了模型的有效性。  相似文献   

10.
为了更好地揭示图像和文本之间潜在的语义关联,提出了一种融合两级相似度的跨媒体检索方法,构建两个子网分别处理全局特征和局部特征,以获取图像和文本之间更好的语义匹配.图像分为整幅图像和一些图像区域两种表示,文本也分为整个语句和一些单词两种表示.设计一个两级对齐方法分别匹配图像和文本的全局和局部表示,并融合两种相似度学习跨媒...  相似文献   

11.
本文在传统词袋模型的基础上,结合人的视觉特性,提出了一种基于视觉显著度与词袋模型的图像分类方法。算法首先计算图像的视觉显著度,然后根据图像的视觉显著度对图像计算视觉单词的加权直方图,然后使用视觉单词的加权直方图表示图像。通过在Caltech 101数据库进行实验,验证了本文方法的有效性,实验结果表明,该方法能够大幅度提高图像分类的性能。  相似文献   

12.
句子相似度的计算在自然语言处理的各个领域有很广泛的应用,但跨语言的句子相似度计算方法却非常少。文中提出一种基于互译特征词对匹配,构建老-汉双语句子相似度计算方法,改进了传统的依赖于词形词序通过计算相同词个数和共有单词的位置信息的相似度计算方法,充分考虑了老挝语和汉语句子中的词汇互译信息、相似概率,避免了由于特征词位置导致的精度丢失。此方法用来最终识别相似度较高的老-汉双语平行句对,依据相似度对源句子和目标句子进行对齐,在老-汉双语平行语料库的建设中使用。实验结果表明,此方法在一定程度上提高了老-汉双语句子相似度计算的准确率。  相似文献   

13.
为了考察特征关联编码对相似声目标学习记忆的影响,对两组被试进行了相同任务的学习记忆实验.学习周期为13天,每天学习强度(声目标呈现次数)相同,学习结束后进行了遗忘测量,持续到第16天.对照组未采用任何特殊记忆方法,实验组在学习记忆任务时呈现听觉特征与数序关联编码信息.实验结果表明,实验组被试整体记忆饱和点出现较晚,且容量有显著提高,但记忆遗忘速率较大,不过保持量相对对照组更高.实验证明了听觉特征与数序关联编码能够提供有效的记忆编码信息,提升被试的学习记忆效率.  相似文献   

14.
新闻推荐是根据用户的阅读习惯,为其推送更符合需求的内容,然而现有的方法仍存在特征学习不足的问题.针对此问题,提出了一种基于多通道CNN-BiGRU与多特征融合方法,主要由以下四部分组成:(1)词嵌入层.在词向量中融入实体嵌入向量,弥补单独仅使用词向量的不足,完成多通道词向量的构建;(2)多通道CNN-BiGRU模型.此...  相似文献   

15.
基于图模型的TextRank方法形成的摘要不会脱离文档本身,但在抽取文本特征的时候,传统的词向量获取方法存在一词多义的问题,而基于BERT的词向量获取方式,充分挖掘了文本语义信息,缓解了一词多义问题.对不同词嵌入方法进行了实验对比,验证了BERT模型的有效性.基于词频统计的相似度计算方法也忽略了句子的语义信息,文中选择...  相似文献   

16.
李青  钟将  李立力  李琪  张淑芳  张剑 《电子学报》2020,48(4):763-771
本文设计并实现了依需聚合的语义深层网查询模型——SemtoSql+.提出以长短期记忆网络为基础,采用词嵌入技术将语料库训练为模型输入的词向量;并结合依赖关系图,将SQL语句四个层级的生成问题转换为依赖关系图中槽的填充问题,同时引入注意力机制有效避免了传统模型中的顺序问题;采用随机蒙蔽机制,构建依需聚合的增强型SemtoSql+模型.  相似文献   

17.
水质评价是水资源保护和治理过程中一项不可或缺地基础性工作,利用灰色关联分析法对水质进行评价,将实测水质与地表水水质标准进行关联分析,并在传统灰色关联分析法的基础上融合了实例推理技术来构建水质评价系统.首先运用实例推理分析得出实测水质与实例库中已存旧实例水质的相似度值,若相似度值小于阈值系统则会调用灰色关联分析法对该实测水质进行等级评定.系统采用java面向对象语言、MYSQL数据库管理技术设计水质评价系统,通过实验测试,验证了该算法的准确性以及系统的实用性.  相似文献   

18.
源代码漏洞检测是保证软件系统安全的重要手段。近年来,多种深度学习模型应用于源代码漏洞检测,极大提高了漏洞检测的效率,但还存在自定义标识符导致库外词过多、嵌入词向量的语义不够准确、神经网络模型缺乏可解释性等问题。基于此,该文提出了一种基于卷积神经网络(CNN)和全局平均池化(GAP)可解释性模型的源代码漏洞检测方法。首先在源代码预处理中对部分自定义标识符进行归一化,并采用One-hot编码进行词嵌入以缓解库外词过多的问题;然后构建CNN-GAP神经网络模型,识别出包含CWE-119缓冲区溢出类型漏洞的函数;最后通过类激活映射(CAM)可解释方法对结果进行可视化输出,标识出可能与漏洞相关的代码。通过与Russell等人提出的模型以及Li等人提出的VulDeePecker模型进行对比分析,表明CNN-GAP模型能达到相当甚至更好的性能,且具有一定的可解释性,便于研究人员对漏洞进行更深入的分析。  相似文献   

19.
针对电商评论数据缺乏深层次的情感分析和语义知识关联,不利于系统挖掘潜在的消费情感和客户满意度信息问题,以京东电商评论数据为例,提出一种融合多头注意力机制和双向长短时记忆网络模型(bi-directional long short-term memory,BiLSTM)的电商评论情感分析模型。首先,通过词嵌入将文本数据转化为句向量;其次,构建融合多头注意力机制的BiLSTM模型,利用BiLSTM捕获长距离依赖关系,利用Transformer突出全局关键特征;最后,构建分类器实现电商评论的情感分析。实验结果表明,文章提出方法优于现有的机器学习和深度学习方法,其F1值为0.927 6。同时,通过详细的对比实验证明了该方法能实现评论文本情感特征的细粒度提取,并能在少样本标注的情况下取得更好的准确率,具有良好的鲁棒性和准确性。  相似文献   

20.
本文从关联网络记忆模型角度出发,从品牌认知和品牌形象两个方面对品牌知识结构进行分析,并在原有的Keller品牌联想模型基础上进行探索,将品牌联想分别从与产品功能相关属性,非产品功能相关属性,企业信誉三方面对品牌联想分类,并浅谈了关于品牌知识结构在实际中的应用。希望为企业调整和选择有针对性的市场营销活动,提高品牌资产提供理论指导。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号