首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 9 毫秒
1.
面对海量新媒体新闻资讯,传统的搜索引擎难以满足用户的个性化需求。提出了一种基于深度学习的新闻分类推荐方法,该方法将卷积神经网络(CNN)和双向长短期记忆神经网络(BiLSTM)相结合,在有效实现新闻文本分类的基础上,根据用户的历史浏览记录挖掘用户对各新闻类别的偏好特征,较好地实现了用户个性化新闻分类推荐。  相似文献   

2.
主题模型能够从海量文本数据中挖掘语义丰富的主题词,在文本分析的相关任务中发挥着重要作用。传统LDA主题模型在使用词袋模型表示文本时,无法建模词语之间的语义和序列关系,并且忽略了停用词与低频词。嵌入式主题模型(ETM)虽然使用Word2Vec模型来表示文本词向量解决上述问题,但在处理不同语境下的多义词时,通常将其表示为同一向量,无法体现词语的上下文语义差异。针对上述问题,设计了一种基于BERT的嵌入式主题模型BERT-ETM进行主题挖掘,在国内外通用数据集和《软件工程》领域文本语料上验证了所提方法的有效性。实验结果表明,该方法能克服传统主题模型存在的不足,主题一致性、多样性明显提升,在建模一词多义问题时表现优异,尤其是结合中文分词的WoBERT-ETM,能够挖掘出高质量、细粒度的主题词,对大规模文本十分有效。  相似文献   

3.
通过基于深度学习的机器翻译模型,能够实现中英语言的自动化翻译。但当前的机器翻译模型大多存在梯度回流受阻、翻译精度不够理想等缺陷,为此,研究结合卷积神经网络和循环神经网络,构建了CRNN机器翻译模型。实验结果证明,该模型的句子翻译准确率达到99.52%,单词翻译准确率达到99.84%,均显著高于现有的机器翻译模型。上述结果表明,研究提出的机器翻译模型能够有效提高翻译精度,从而提升各国人们间的交流效率,同时也为语言翻译工作提供了新的思路和途径。  相似文献   

4.
常见的词嵌入向量模型存在每个词只具有一个词向量的问题,词的主题值是重要的多义性条件,可以作为获得多原型词向量的附加信息。在skip-gram(cbow)模型和文本主题结构基础上,该文研究了两种改进的多原型词向量方法和基于词与主题的嵌入向量表示的文本生成结构。该模型通过联合训练,能同时获得文本主题、词和主题的嵌入向量,实现了使用词的主题信息获得多原型词向量,和使用词和主题的嵌入式向量学习文本主题。实验表明,该文提出的方法不仅能够获得具有上下文语义的多原型词向量,也可以获得关联性更强的文本主题。  相似文献   

5.
无监督主题模型在降维过程中缺少标签信息的指导,丢失一些具有判别性的文本特征,导致最终的分类结果不理想.因此,文中提出结合深度学习的监督主题模型,利用深度网络强大的非线性拟合能力建立文档主题分布与标签之间的映射,利用变分期望最大化(EM)和深度网络训练方法共同完成贝叶斯框架下模型参数的更新,通过改变网络结构和激活函数的类型,用于分类和回归任务.实验表明文中模型既能保持无监督主题模型隐含主题的提取能力,还能更好地完成分类和回归任务.  相似文献   

6.
主要研究了基于深度学习技术挖掘用户搜索主题相关的感兴趣内容。通过深度挖掘算法分析用户搜索记录、查询历史以及用户感兴趣的相关文档视为用户搜索主题数据的来源,进而挖掘兴趣主题。挖掘模型主要采用向量空间模型,将用户搜索主题模型表示成用户搜索主题向量形式。形成主题和用户兴趣关系网,用户搜索主题向量的构造过程:选择一组用户查询词,并对它们进行深度挖掘分类,最后用它们构造用户搜索主题特征向量,进而分析用户兴趣点。结合用户随着时间的变化,以及过程中有不用的搜索词,以及无关的搜索噪声词去掉,调整兴趣度,用户搜索主题需要具有更新学习机制,动态跟踪了用户兴趣变化趋势。该用户搜索主题研究过程克服了数据稀疏、类别偏差、扩展性差等缺点。实验结果表明,该模型识别用户搜索主题准确率良好。  相似文献   

7.
当前大部分的词向量模型针对一个单词只能生成一个向量,由于单词的多义性,使用同一个向量表达不同语境下的同一个单词是不准确的。对此,提出一种新的词向量模型。使用潜狄利克雷特分布和神经网络对单词进行训练,得到单词及其主题的向量,并对两者进行线性变换得到最终的词向量。实验结果表明,该模型的准确度高于现有多向量模型。  相似文献   

8.
域名生成算法(domain generation algorithm, DGA)是域名检测中防范僵尸网络攻击的重要手段之一,对于生成威胁情报、阻断僵尸网络命令与控制流量、保障网络安全有重要的实际意义.近年来,DGA域名检测技术从依靠手工提取特征发展到自动提取特征的基于深度学习模型的方法,在DGA域名检测任务中取得了较大的进展.但对于不同僵尸网络家族的DGA域名的多分类任务,由于家族种类多,且各家族域名数据存在不平衡性,因此许多已有的深度学习模型在DGA域名的多分类任务上仍有提高空间.针对以上挑战,设计了基于字符和双字母组级别的混合词向量,以提高域名字符串的信息利用度,并设计了基于混合词向量方法的深度学习模型.最后设计了包含多种对比模型的实验,对混合词向量的有效性进行验证.实验结果表明基于混合词向量的深度学习模型在DGA域名检测与分类任务中相比只基于字符级词向量的模型有更好的分类性能,特别是在小样本的DGA域名类别上的分类性能更优,证明了该模型的有效性.  相似文献   

9.
基于深度学习的鱼类分类算法研究   总被引:1,自引:0,他引:1  
回顾近年来国内外对鱼类分类的研究进展,指出传统方法存在的缺陷。深度学习是目前图像分类的主流方法。研究基于卷积神经网络CNN(Convolutional Neural Network)的鱼类分类模型,并以该模型为基础,进一步提出利用迁移学习,以预训练网络的特征结合SVM算法(Pre CNN+SVM)的混合分类模型。实验以Fish4-Knowledge(F4 K)作为数据集,使用Tensor Flow训练网络模型。实验结果表明,利用Pre CNN+SVM算法,取得了98.6%的准确率,较传统方法有显著提高。对于小规模数据集,有效解决了需要人工提取特征的不可迁移性。  相似文献   

10.
文本分类技术是自然语言处理领域的研究热点,其主要应用于舆情检测、新闻文本分类等领域。近年来,人工神经网络技术在自然语言处理的许多任务中有着很好的表现,将神经网络技术应用于文本分类取得了许多成果。在基于深度学习的文本分类领域,文本分类的数值化表示技术和基于深度学习的文本分类技术是两个重要的研究方向。对目前文本表示的有关词向量的重要技术和应用于文本分类的深度学习方法的实现原理和研究现状进行了系统的分析和总结,并针对当前的技术发展,分析了文本分类方法的不足和发展趋势。  相似文献   

11.
探讨注意力机制如何帮助推荐模型动态关注有助于执行当前推荐任务输入的特定部分.分析注意力机制网络框架及其输入数据的权重计算方法,分别从标准注意力机制、协同注意力机制、自注意力机制、层级注意力机制和多头注意力机制这五个角度出发,归纳分析其如何采用关键策略、算法或技术来计算当前输入数据的权重,并通过计算出的权重以使推荐模型可...  相似文献   

12.
针对文档集里的文本长度长短不一和特征提取困难等问题,提出一种基于LDA和深度学习的文本分类方法。结合LDA主题模型和Word2Vec词向量模型完成对文本词向量矩阵的构建,由结合融合层的卷积神经网络对构建好的词向量矩阵获取联合特征,将获取的特征送到softmax分类器得到分类结果。该方法在文本情感分类上进行实验,实验结果表明,该方法解决了文档集里的文本长度长短不一和特征提取困难等问题,在模型评价指标上都得到了提高。  相似文献   

13.
14.
医疗问句具有关键词少、主题不明确等特点,导致构造的问句特征词向量维数过大、数据稀疏,影响问句分类的准确性。为了解决此问题,本文提出基于维基百科和深度学习相结合的词向量特征扩展模型,在Word2vec基础上引入维基百科语义相似度ESA算法扩展特征词向量,使得医疗问句分类更加准确。实验数据表明,采用Word2vec与维基百科相融合方法效果好,其准确性、召回率、平衡值分别达到0.912、0.924、0.918,优于传统的词袋模型和Word2vec直接词向量构造方法。  相似文献   

15.
在当今现代化的世界中,人工智能逐渐被应用在各个领域之中,而深度学习就是人工智能的核心算法之一,近些年来也被广泛应用于网络安全领域,传统简单的通过人工定义规则集的检测方法逐渐被淘汰掉。而现在,如果将深度学习方法应用在检测Webshell中,不仅可以很好地提高准确率,而且和传统的机器学习方法相比,可以自动提取特征值,完成特征工程的过程更加智能化。因此基于深度学习来研究Webshell检测是近些年来一个得到持续关注的热点课题。该文主要针对使用PHP编写的Webshell进行检测,将深度学习方法和PHP文件操作码序列的特点进行结合,在构建的模型上训练测试数据集,最终可以获得相当高的准确率。  相似文献   

16.
基于深度学习的声学模型研究   总被引:1,自引:0,他引:1  
近年来,深度学习凭借其优越的性能广泛应用于图像处理、自然语言处理、语音识别等领域,它对性能的提升远超于以往的传统方法.论文采取循环神经网络(Recurrent Neural Networks,RNN)中的长短期记忆模型(Long Short Time Memory,LSTM)实现了语音识别中的声学模型构建,并增加反向时...  相似文献   

17.
科学技术的进步,推进着军事武器装备的快速更新. 在高度信息化的时代,急需智能化军事信息处理技术. 本文针对飞行器、坦克车辆、火炮弹炮、导弹武器等军事文本中的武器命名实体,提出了基于词向量、词状态的特征,利用深度神经网络模型的识别方法. 实验表明:在测试语料上取得F-1值0.9102的效果.  相似文献   

18.
在机器学习算法中深度学习已成为现今最热门的一种算法,在全局环境下能够得出较优的解,这种算法的出现得到个社会各界的广泛关注,在不同领域中获得了大量的应用.深度学习是在神经网络的基础上应运而生,采用多层隐藏层对参数进行调优并进行逐层优化,而改变了原有的神经网络过拟合和参数难调等问题.现今,诸多领域,例如:文本挖掘、推荐系统一级智能机器人等,都开始应用深度学习的.  相似文献   

19.
20.
常用的神经网络,如卷积神经网络(CNN)和循环神经网络(RNN),在关系抽取任务中都表现出了很不错的效果。然而,卷积神经网络擅长捕获局部特征,但不太适合处理序列特征;传统的循环神经网络虽然可以有效提取长距离词之间的特征,但容易出现梯度消失或梯度爆炸问题。针对这些问题,提出了一种结合BiLSTM-CNN-Attention的混合神经网络模型。BiLSTM和CNN的结合使它们优劣互补,而Attention的引入能够突出实体间关系词在整个句子中的重要性。并且,在词嵌入层使用拼接词向量,克服了词向量单一表示的问题。实验结果表明,相比word2vec词向量,拼接词向量能够获取语义更丰富的词向量,使词向量的健壮性更强。与BiLSTM-CNN、CNN-Attention和BiLSTM-Attention模型相比,BiLSTM-CNN-Attention混合模型的准确率和F1值都有所提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号