首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 406 毫秒
1.
针对现有代码漏洞检测方法误报率和漏报率较高的问题,提出基于上下文特征融合的代码漏洞检测方法.该方法将代码特征解耦分为代码块局部特征和上下文全局特征.代码块局部特征关注代码块中关键词的语义及其短距离依赖关系.将局部特征融合得到上下文全局特征从而捕捉代码行上下文长距离依赖关系.该方法通过局部信息与全局信息协同学习,提升了模型的特征学习能力.模型精确地挖掘出代码漏洞的编程模式,增加了代码漏洞对比映射模块,拉大了正负样本在嵌入空间中的距离,促使对正负样本进行准确地区分.实验结果表明,在9个软件源代码混合的真实数据集上的精确率最大提升了29%,召回率最大提升了16%.  相似文献   

2.
针对新闻文本分类方法中词向量的表示无法很好地保留字在句子中的信息及其多义性,利用知识增强的语义表示(ERNIE)预训练模型,根据上下文计算出字的向量表示,在保留该字上下文信息的同时也能根据字的多义性进行调整,增强了字的语义表示。在ERNIE模型后增加了双向门限循环单元(Bi GRU),将训练后的词向量作为Bi GRU的输入进行训练,得到文本分类结果。实验表明,该模型在新浪新闻的公开数据集THUCNews上的精确率为94. 32%,召回率为94. 12%,F1值为0. 942 2,在中文文本分类任务中具有良好的性能。  相似文献   

3.
为了调查机器学习相关主题分布和发展趋势,从在线问答网站Stack Overflow上,利用过滤标签,从4 178多万帖子中提取出60 028个与机器学习相关的问题帖. 通过分析问题帖,统计各个机器学习平台的讨论量,发现Scikit-learn、TensorFlow、Keras是前3位频繁被讨论的机器学习平台,占总讨论量的58%. 为了进一步分析机器学习相关讨论主题,进行潜在狄利克雷分布(LDA)主题模型训练,提出自适应LDA中的主题数渐进搜索方法,采用主题一致性系数评估输出结果,获得主题最佳数量,从而发现9个讨论主题,分属3个类别:代码相关、模型相关、理论相关. 基于主题中问题帖的浏览数、评论数,分析不同主题的流行度和回答困难程度.  相似文献   

4.
在实际软件项目开发中,采用代码生成技术能大幅提高软件开发的质量和生产率,降低软件开发的风险,一个企业级项目中的代码生成器是非常有必要的。本框架是一款代码生成器框架,可以作为一个平台帮助开发者快速实现自己的代码生成器。框架提供一些元数据处理的基本服务,并且提供简单灵活的接口,供程序员定制自己的代码生成器。  相似文献   

5.
为了解决由于近邻选择不恰当导致的推荐性能下降问题,提出基于自然近邻与协同过滤的API推荐方法——N-APIRec. 该方法利用BM25算法将项目转换成向量,以自然近邻算法筛选数据集中的相似项目以减少搜索范围,从相似项目中筛选相似的方法声明,通过协同过滤的方式推荐API. 将N-APIRec在MV、SH数据集上与前沿方法进行实验对比,结果验证了N-APIRec的有效性,在MV、SH数据集上的推荐成功率分别为77.38%、30.00%,优于现有方法.  相似文献   

6.
针对答案选择过程中存在语句特征、语句间的相关语义信息提取不充分的问题,在长短时记忆网络(LSTM)的基础上,提出基于LSTM和衰减自注意力的答案选择模型(DALSTM). DALSTM使用LSTM和衰减自注意力编码层提取丰富的上下文语义信息,通过衰减矩阵缓解反复使用注意力机制出现的权重过集中于关键词的问题.使用注意力机制对问题与答案间的信息进行双向交互,融合问答对间的相似性特征,丰富问答对间的相关语义信息.在WiKiQA、TrecQA及InsuranceQA数据集上的模型评估结果表明,相较于其他基于BiLSTM的先进模型,DALSTM的整体性能表现更好,3个数据集的平均倒数排名(MRR)分别达到0.757、0.871、0.743.  相似文献   

7.
释义识别技术(Paraphrase Identification, PI)被广泛用于问答系统、抄袭检测、个性化推荐等领域.针对已有释义识别方法缺乏有效的特征提取机制问题,提出了一种新的释义识别模型.与传统“编码-匹配”模式不同,采用“编码-匹配-提取”模式,通过添加特征提取层进一步提取分类信息.所提出模型由6层组成:输入层、嵌入层、编码层、匹配层、特征提取层、输出层.在编码层,采用基于注意力机制的上下文双向长短期记忆网络对文本上下文进行编码,充分利用句子的前向和逆向两个方向的上下文信息;在匹配层,通过多种矩阵运算,从不同角度获得句子对匹配信息;在特征提取层,利用Xception网络以便更有效地从匹配结果中提取分类信息.此外,本文采用多特征融合的方法,将GloVe预训练的词向量、字符向量和附加特征向量的连接作为最终的词向量,较普通的词向量携带更丰富的语义信息.实验结果表明,所构建的模型在Quora和SemEval-2015 PIT两个公开数据集上(分别作为大型数据集和中小型数据集的代表)都达到了竞争性效果.  相似文献   

8.
提出一种基于上下文多元信息实现文档相似度计算的方法,该方法首先抽取文档的特征词,对具有相同(或相近)意义特征词的文档,分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息,以量化形式描述成一个相似函数;然后分别从两两文档的相似函数中得到文档的相似度评价值,作为衡量文档相似程度的重要依据.利用该评价方法,使用NTCIR-3中的跨语言信息检索数据集中的中文文档,对初始检索文档的顺序重新排列,实验结果表明,该方法分别将前10个最佳召回文档和前100个最佳召回文档的平均精确度提高了15.45%~18.49%和11.96%~15.35%在另一组有关相同网页信息的实验中,几组不同类别文档相似度F1-measure平均值均在95%以上.  相似文献   

9.
基于支持向量机和遗传算法的特征选择   总被引:1,自引:1,他引:1  
支持向量机是一个具有多类分类能力的非线性分类器,利用特征集中的不同特征组合构成特征子集,所提供的数据在支持向量机上的平均正确分类率为目标函数值,利用遗传算法在整个特征组合空间中搜索能实现平均正确分类率最大化的最优特征子集。  相似文献   

10.
互联网上存在着海量蕴含丰富信息的短文本数据,由于短文本存在特征稀疏、用语不规范的特点,使用传统的聚类算法效果较差。提出了一种使用词向量表示特征并结合关键词提取的短文本聚类算法:定义特征权重计算公式,计算类簇中特征的权重,得到类簇的关键词;使用Skip gram模型训练得到的词向量计算关键词之间的语义相似度进而得到类簇的相似度实现聚类。在4个数据集上进行的实验结果表明文章的方法效果优于传统的聚类算法,宏平均较次优结果分别提高了22.3%、24.9%、2.9%和34.4%。  相似文献   

11.
为了尽快找到一个错误及其来源,以加快 ASP程序调试的效率,把启发式搜索技术引入 ASP程序支撑原因分析算法.在生成支撑原因分析图时利用启发式函数,仅搜索对回答集产生影响且有可能更快找到一个支撑原因的规则.改进算法在搜索关于某个回答集的支撑原因时,其时间和空间复杂度明显下降.实例分析表明了该算法的有效性.  相似文献   

12.
本文是对多核程序设计的一种探索,在OpenMP模型下以赫夫曼算法为基础设计并行压缩程序。首先对传统的串行程序进行分析,使应用程序开发人员了解程序行为、发现性能瓶颈、明确优化方向。再用OpenMP的基本结构进行并行程序的设计之后,借助开发工具对并行程序进行优化和调试,得到改进方案。然后在双核处理器上分别运行并行程序与串行程序,将两者进行性能上的比较,实验结果证明性能得到很大程度地提高。  相似文献   

13.
因特网上现有的各种检索方法都是基于关键词的,而关键词检索的弊端就是它的低查全率和低准确率。在对比现有检索技术与语义检索技术之后,着重介绍了语义Web、本体以及相关的工具如Protégé、Jena以及SPARQL查询语言等,构建了一个花卉文献本体,开发出基于该本体的语义检索系统。该系统比较了传统检索与语义检索2种方式,验证了语义检索技术的优势所在,提供了简单的推理功能,可以对关于花卉的一些语句进行推理验证。  相似文献   

14.
为了实现关系数据库上自由态的关键词查询,通过创建索引表并运用其存储的知识为每个属性赋予不同的权值来改进信息检索中传统的排序方法.对每个查询用索引表和改进的排序方法来获得Top-N答案.用实际数据集进行了实验,实验结果表明此方法在查询时间和准确性上是有效的.  相似文献   

15.
传统索引方法在高维情况下会面临维数灾难问题,基于向量近似的索引方法是有效的高维检索方法.对向量近似方法中k近邻搜索算法加以改进,应用到基于相关反馈的交互式图像检索系统中.根据反馈过程前后的距离变化特性,在进行k近邻搜索过程中,将上轮次的查询结果和用户反馈信息用作过滤信息,可减少特征向量的访问数量.在大容量真实图像数据库上的实验表明,将新算法应用干相关反馈过程的图像检索中,可提高k近邻搜索速度.  相似文献   

16.
在结构化的P2P网络中,传统的资源搜索过程大多采用DHT路由算法进行资源的定位和搜索,但这类网络只能支持单一关键字的精确匹配查询。针对这个问题,本文提出混合式的P2P网络模型,并在此基础上实现了支持多关键字搜索的搜索算法。首先为节点和资源关键字分配唯一的标识符,然后对资源关键字标识符进行拆分操作,并将拆分后的标识符存储到相应的节点上。在搜索过程中,只需根据拆分后的标识符查找相应的节点即可。结果表明,采用这种搜索算法的网络不仅能够支持多关键搜索,同时也能实现网络的负载均衡。  相似文献   

17.
张颖  李昕 《辽宁工学院学报》2013,(5):305-309,312
提出一种新的关键词查询排序算法来提高关系数据库关键词查询系统的查询效果。文中定义了关键词查询模型,分析了典型系统的排序算法,并确定了影响查询效果的四个主要因素,进而提出新的关键词查询排序算法。实验结果表明,该算法具有较高的查询和排序准确率,能够有效地提高关键词查询效果。  相似文献   

18.
一种网络课程答疑系统分词器的设计   总被引:1,自引:0,他引:1  
针对网络课程答疑系统提出了一种新的分词词典和查询算法,借鉴了现有三类分词算法的优点,克服了它们的不足,所设计的分词词典包括专业词典和基础词典两部分,所设计的算法在分词词典中搜索时,先搜索基础词典,后搜索专业词典,如果在基础词典中搜索出单词,则不继续搜索专业词典,该算法大大降低了算法的时间复杂度。本文将分词词典设计成由首字和次字构成的二维索引矩阵,和全部词语的有序顺序表组成,将单字的内码作为其在矩阵中的下标,对有序顺序表采用顺序查找,减少了词典搜索次数。  相似文献   

19.
As the certificate-based searchable encryption schemes need to verify the data user 's public key and manage certificates, and single keyword search always return huge volumes of irrelevant ciphertext. Therefore, by exploiting the identity encryption technique we propose a certificateless conjunctive keyword search over encrypted data scheme which can eliminate the key escrow problem and avoid the waste of bandwidth and computational resources. Rigorous security analysis proves that Our proposed scheme is secure against the off-line keyword guessing attack in the standard model. Moreover, the empirical experiment on real-world dataset demonstrates its efficiency and feasibility in practical scenarios.  相似文献   

20.
研究并设计了装备采办知识搜索引擎系统结构,包括搜索模块、索引模块、检索模块、查询扩展模块和结果聚类模块。就装备采办知识管理搜索关键技术查询扩展模块和结果聚类模块,提出了相似性度量的渐进直推式支持向量机(similarity measurement progressive tranductive support vector machine,SMPTSVM)查询扩展模型,以及基于人工免疫算法的搜索引擎结果聚类算法。实验结果表明,该模型和算法提高了搜索结果的查全率、查准率及搜索结果的平均聚类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号