首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
互联网环境的高度开放性和无序性导致了网络安全问题的普遍性和不可预知性, 网络安全问题已成为当前国际社会关注的热点问题。基于机器学习的恶意网页识别方法虽然卓有成就, 但随着对恶意网页识别需求的不断提高, 在识别效率上仍然表现出较大的局限性。本文提出一种基于深度学习与特征融合的识别方法, 将图卷积神经网络(Generalized connection network,GCN)与一维卷积神经网络(Convolution neural network, CNN)、支持向量机(Support vector machine, SVM)相结合。首先, 考虑到传统神经网络只适用于处理结构化数据以及无法很好的捕获单词间非连续和长距离依赖关系, 从而影响网页识别准确率的缺点,通过 GCN 丰富的关系结构有效捕获并保持网页文本的全局信息; 其次, CNN 可以弥补 GCN 在局部特征信息提取方面的不足,通过一维 CNN 对网页 URL(Uniform resource locator, URL)进行局部信息提取, 并进一步将捕获到的 URL 局部特征与网页文本全局特征进行融合, 从而选择出兼顾 CNN 模型和 GCN 模型特点的更具代表性的网页特征; 最终, 将融合后的特征输入到 SVM分类器中进行网页判别。本文首次将 GCN 应用于恶意网页识别领域, 通过组合模型有效兼顾了深度学习与机器学习的优点, 将深度学习网络模型作为特征提取器, 而将机器学习分类算法作为分类器, 通过实验证明, 测试准确率达到 92.5%, 高于已有的浅层的机器学习检测方法以及单一的神经网络模型。本文提出的方法具有更高的稳定性, 以及在精确率、召回率、 F1 值等多项检测指标上展现出更加优越的性能。  相似文献   

2.
电力企业为实现数字资产管理, 提高行业运行效率, 促进电力信息化的融合, 需要实施有效的数据组织管理方法. 针对电力行业中的数据, 提出了基于字级别特征的高效文本类型识别模型. 在该模型中, 将字符通过BERT预训练模型生成电力客服文本动态的高效字向量, 字向量序列输入利用融合注意力机制的双向长短期记忆网络(BiLSTM), 通过注意力机制有效捕捉文本中帮助实现类型识别的潜在特征, 最终利用Softmax层实现对电力文本的类型识别任务. 本文提出的模型在电力客服文本数据集上达到了98.81%的准确率, 优于CNN, BiLSTM等传统神经网络识别方法, 增强了BERT模型的应用, 并有效解决了电力文本类型识别任务中语义的长距离依赖问题.  相似文献   

3.
随着大数据时代的到来,恶意URL作为Web攻击的媒介渐渐威胁着用户的信息安全。传统的恶意URL检测手段如黑名单检测、签名匹配方法正逐步暴露缺陷,为此本文提出一种基于代价敏感学习策略的恶意URL检测模型。为提高卷积神经网络在恶意网页检测领域的性能,本文提出将URL数据结合HTTP请求信息作为原始数据样本进行特征提取,解决了单纯URL数据过于简单而造成特征提取困难的问题,通过实验对比了三种编码处理方式,根据实验结果选取了最佳字符编码的处理方式,保证了后续检测模型的效果。同时本文针对URL字符输入的特点,设计了适合URL检测的卷积神经网络模型,为了提取数据深层特征,使用了两层卷积层进行特征提取,其次本文在池化层选择使用BiLSTM算法提取数据的时序特征,同时将该网络的最后一个单元输出达到池化效果,避免了大量的模型计算,保证了模型的检测效率。同时为解决数据样本不均衡问题,在迭代过程中为其分配不同惩罚因子,改进了数据样本初始化权重的分配规则并进行了归一化处理,增加恶意样本在整体误差函数中的比重。实验结果表明本文模型在准确率、召回率以及检测效率上较优于其他主流检测模型,并对于不均衡数据集具有较好的抵抗能力。  相似文献   

4.
吴森焱  罗熹  王伟平  覃岩 《软件学报》2021,32(9):2916-2934
随着Web应用的日益广泛,Web浏览过程中,恶意网页对用户造成的危害日趋严重.恶意URL是指其所对应的网页中含有对用户造成危害的恶意代码,会利用浏览器或插件存在的漏洞攻击用户,导致浏览器自动下载恶意软件.基于对大量存活恶意URL特征的统计分析,并重点结合了恶意URL的重定向跳转、客户端环境探测等逃避检测特征,从页面内容、JavaScript函数参数和Web会话流程这3个方面设计了25个特征,提出了基于多特征融合和机器学习的恶意URL检测方法——HADMW.测试结果表明:该方法取得了96.2%的精确率和94.6%的召回率,能够有效地检测恶意URL.与开源项目以及安全软件的检测结果相比,HADMW取得了更好的效果.  相似文献   

5.
《软件》2019,(1):63-68
恶意URL现如今对网络安全影响巨大,能否高效的检测恶意URL成为一个亟待解决的问题。针对传统基于文本特征的检测方法没有考虑到URL中词的位置和上下文信息的缺点,提出了一种基于上下文信息的恶意URL检测方法,首先利用预处理方法解决了URL中存在大量的随机字符组成单词的问题,使用特殊符号作为分隔符对URL分词,对得到的分词结果使用Word2vec生成词向量空间,然后训练卷积神经网络提取文本特征并分类。实验结果表明,该方法在大量真实数据上能够达到97.30%的准确率、90.15%的召回率和92.33%的F1值。  相似文献   

6.
针对于传统方法中存在的文本特征表示能力差、模型主题识别准确率低等问题,提出一种融合SENet与卷积神经网络的文本主题识别方法.将每个词对应的Word2vec词向量与LDA主题向量进行融合,并依据词语对主题的贡献度完成文档加权向量化处理;构建SECNN主题识别模型,使用SENet对卷积层输出的特征图进行权值的重标定,依靠...  相似文献   

7.
为提高对恶意U RL检测的准确率,提出一种结合注意力机制的卷积神经网络和双向长短时记忆网络并联联合算法模型(CATBL).提取用于表达恶意URL二进制文件内容相似性的纹理图像特征,提取URL信息特征及主机信息特征,将这几种特征进行融合,利用CNN(convolutional neural network)挖掘深层次局部特征,采用Attention机制调整权重和双向LSTM(bidirectional long short-term memory)提取全局特征,用于对网络中的恶意URL进行检测.实验结果表明,使用该算法检测恶意U RL的准确率达到98.8%,与传统检测方式相比,具有明显的提升.  相似文献   

8.
针对目前主流恶意网页检测技术耗费资源多、检测周期长和分类效果低等问题,提出一种基于Stacking的恶意网页集成检测方法,将异质分类器集成的方法应用在恶意网页检测识别领域。通过对网页特征提取分析相关因素和分类集成学习来得到检测模型,其中初级分类器分别使用K近邻(KNN)算法、逻辑回归算法和决策树算法建立,而次级的元分类器由支持向量机(SVM)算法建立。与传统恶意网页检测手段相比,此方法在资源消耗少、速度快的情况下使识别准确率提高了0.7%,获得了98.12%的高准确率。实验结果表明,所提方法构造的检测模型可高效准确地对恶意网页进行识别。  相似文献   

9.
在电力生产的过程中, 往往会产生大量电力相关的文本数据, 但这些数据大多是非结构化数据且体量庞大繁杂, 实现对电力相关数据有效的组织管理可以促进电力企业实现数字资产商品化, 以此为电力企业发掘新的利润增长点. 本文针对将电力行业中的相关规章制度文本进行结构化处理这一问题, 提出了基于字符和二元词组特征的命名实体识别的模型. 在该模型中, 通过使用融合多特征的BERT预训练语言模型得到词嵌入表示, 并使用引入相对位置编码的Transformer模型和条件随机场作为编码层和解码层, 本文提出的模型在实体类型识别的准确率为92.64%, 取得了有效的识别效果.  相似文献   

10.
张卫丰  刘蕊成  许蕾 《软件学报》2018,29(5):1410-1421
网页木马是一种在网页中插入攻击脚本,利用浏览器及其插件中的漏洞,使受害者的系统静默地下载并安装恶意程序的攻击形式.本文结合动态程序分析和机器学习方法,提出了基于动态行为分析的网页木马检测方法.首先,针对网页木马攻击中的着陆页上的攻击脚本获取行为,监控动态执行函数执行,包括动态生成函数执行、脚本插入、页面插入和URL跳转,并根据一套规则提取这些行为,此外提取与其相关的字符串操作记录作为特征.其次,针对利用堆恶意操作注入shellcode的行为,提出堆危险指标作为特征.最后从Alexa和VirusShare收集了500个网页样本作为数据集,用机器学习方法训练分类模型.实验结果表明:与现有方法相比,文中方法具有准确率高(96.94%)、能有效对抗代码混淆的干扰(较低的误报率6.1%和漏报率1.3%)等优点.  相似文献   

11.
随着信息化技术的不断发展,网络空间中存在的威胁也在不断变化。其中,基于恶意URL的攻击手段层出不穷。针对恶意URL识别与检测问题进行了深入探究,设计并实现了具有双层注意力机制的Bi-LSTM网络模型对恶意URL进行识别和检测,并将其命名为A2Bi-LSTM。该模型分别在字符级别及单词级别对恶意URL中包含的可疑内容进行注意力权值的计算,进一步提升了恶意URL的识别精度。实验结果表明,A2Bi-LSTM对恶意URL的识别准确率达到97%,相较于传统检测模型有着更好的检测效果,能够有效应对此类攻击威胁,有助于网络空间安全体系的构建。  相似文献   

12.
使用预训练语言模型的微调方法在以文本分类为代表的许多自然语言处理任务中取得了良好的效果,尤其以基于Transformer框架的BERT模型为典型代表。然而,BERT直接使用[CLS]对应的向量作为文本表征,没有从全局和局部考虑文本的特征,从而限制了模型的分类性能。因此,本文提出一种引入池化操作的文本分类模型,使用平均池化、最大池化以及K-MaxPooling等池化方法从BERT输出矩阵中提取文本的表征向量。实验结果表明,与原始的BERT模型相比,本文提出的引入池化操作的文本分类模型具有更好的性能,在实验的所有文本分类任务中,其准确率和F1-Score值均优于BERT模型。  相似文献   

13.
汪鑫  武杨  卢志刚 《计算机科学》2018,45(3):124-130, 170
互联网应用已经渗透到人们日常生活的方方面面,恶意URL防不胜防,给人们的财产和隐私带来了严重威胁。当前主流的防御方法主要依靠黑名单机制, 难以检测 黑名单以外的URL。因此,引入机器学习来优化恶意URL检测是一个主要的研究方向,但其主要受限于URL的短文本特性,导致提取的特征单一,从而使得检测效果较差。针对上述挑战,设计了一个基于威胁情报平台的恶意URL检测系统。该系统针对URL字符串提取了结构特征、情报特征和敏感词特征3类特征来训练分类器,然后采用多分类器投票机制来判断类别,并实现威胁情报的自动更新。实验结果表明,该方法对恶意URL进行检测 的准确率 达到了96%以上。  相似文献   

14.
在生物医学领域,以静态词向量表征语义的命名实体识别方法准确率不高.针对此问题,提出一种将预训练语言模型BERT和BiLSTM相结合应用于生物医学命名实体识别的模型.首先使用BERT进行语义提取生成动态词向量,并加入词性分析、组块分析特征提升模型精度;其次,将词向量送入BiLSTM模型进一步训练,以获取上下文特征;最后通过CRF进行序列解码,输出概率最大的结果.该模型在BC4CHEMD、BC5CDR-chem和NCBI-disease数据集上的平均F1值达到了89.45%.实验结果表明,提出的模型有效地提升了生物医学命名实体识别的准确率.  相似文献   

15.
针对新闻主题文本用词缺乏规范、语义模糊、特征稀疏等问题,提出了结合BERT和特征投影网络(FPnet)的新闻主题文本分类方法。该方法包含两种实现方式:方式1将新闻主题文本在BERT模型的输出进行多层全连接层特征提取,并将最终提取到的文本特征结合特征投影方法进行提纯,从而强化分类效果;方式2在BERT模型内部的隐藏层中融合特征投影网络进行特征投影,从而通过隐藏层特征投影强化提纯分类特征。在今日头条、搜狐新闻、THUCNews-L、THUCNews-S数据集上进行实验,实验结果表明上述两种方式相较于基线BERT方法在准确率、宏平均F1值上均具有更好的表现,准确率最高分别为86.96%、86.17%、94.40%和93.73%,验证了所提方法的可行性和有效性。  相似文献   

16.
针对传统语言模型的词向量表示无法解决多义词表征的问题,以及现有情感分析模型不能充分捕获长距离语义信息的问题,提出了一种结合BERT和BiSRU-AT的文本情感分类模型BERT- BiSRU-AT。首先用预训练模型BERT获取融合文本语境的词向量表征;然后利用双向简单循环单元(BiSRU)二次提取语义特征和上下文信息;再利用注意力机制对BiSRU层的输出分配权重以突出重点信息;最后使用Softmax激励函数得出句子级别的情感概率分布。实验采用中文版本的推特数据集和酒店评论数据集。实验结果表明,结合BERT和BiSRU-AT的文本情感分析模型能够获得更高的准确率,双向简单循环模型和注意力机制的引入能有效提高模型的整体性能,有较大的实用价值。  相似文献   

17.
基于BERT+BiLSTM+CRF的中文景点命名实体识别   总被引:1,自引:0,他引:1  
为解决旅游文本在特征表示时的一词多义问题, 针对旅游游记文本景点实体识别中景点别名的问题, 研究了一种融合语言模型的中文景点实体识别模型. 首先使用BERT语言模型进行文本特征提取获取字粒度向量矩阵, BiLSTM用于上下文信息的提取, 同时结合CRF模型提取全局最优序列, 最终得到景点命名实体. 实验表明, 提出的模型性能提升显著, 在实际旅游领域内景点识别的测试中, 与以往研究者方法比较下准确率, 召回率分别提升了8.33%, 1.71%.  相似文献   

18.
健康医疗文本关系提取可充分利用医疗资源,为构建医院系统和相关知识图谱奠定基础,但健康医疗文本上下文联系紧密,内容结构复杂,使用传统的机器学习方法无法充分学习并利用文本中所包含的信息,且由于未针对文本中包含的医疗领域专业名词进行处理,使研究所需的重要实体流失,导致准确率不高.因此,提出了一种基于BERT和BILSTM融合...  相似文献   

19.
针对电力集控安全隐患文本实体边界模糊、常用实体识别模型识别准确率低的问题,提出了一种融合注意力机制与基于Transformer的双向编码器表示(BERT)-双向长短时记忆(BiLSTM)-条件随机场(CRF)的电力集控安全隐患数据实体识别模型。首先,利用BERT层将安全隐患文本编码表示为融合上下文语义的字位置和句位置的向量表示组,以减少实体识别误差积累。然后,提出了BiLSTM网络层挖掘电力集控隐患文本的语义特征并进行标签概率预测,在此基础上加入注意力机制增加重要信息的权重,提高重要信息对安全隐患语义信息的影响程度。最后,利用CRF层为标注结果进行综合打分,得到全局最优标签序列。在不同的电力安全隐患实体信息类别上的对比试验显示,所提模型的准确率为97.54%、召回率为96.47%、F值为97.13%,与传统算法相比总体效果提升了5%~21%。该结果证明了电力集控安全隐患实体识别模型的有效性。  相似文献   

20.
传统的医学文本数据分类方法忽略了文本的上下文关系,每个词之间相互独立,无法表示语义信息,文本描述和分类效果差;并且特征工程需要人工干预,因此泛化能力不强。针对医疗文本数据分类效率低和精度低的问题,提出了一种基于Transformer双向编码器表示BERT、卷积神经网络CNN和双向长短期记忆BiLSTM神经网络的医学文本分类模型CMNN。该模型使用BERT训练词向量,结合CNN和BiLSTM,捕捉局部潜在特征和上下文信息。最后,将CMNN模型与传统的深度学习模型TextCNN和TextRNN在准确率、精确率、召回率和F1值方面进行了比较。实验结果表明,CMNN模型在所有评价指标上整体优于其他模型,准确率提高了1.69%~5.91%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号