首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 59 毫秒
1.
软件缺陷预测是提升软件质量的有效方法,而软件缺陷预测方法的预测效果与数据集自身的特点有着密切的相关性。针对软件缺陷预测中数据集特征信息冗余、维度过大的问题,结合深度学习对数据特征强大的学习能力,提出了一种基于深度自编码网络的软件缺陷预测方法。该方法首先使用一种基于无监督学习的采样方法对6个开源项目数据集进行采样,解决了数据集中类不平衡问题;然后训练出一个深度自编码网络模型。该模型能对数据集进行特征降维,模型的最后使用了三种分类器进行连接,该模型使用降维后的训练集训练分类器,最后用测试集进行预测。实验结果表明,该方法在维数较大、特征信息冗余的数据集上的预测性能要优于基准的软件缺陷预测模型和基于现有的特征提取方法的软件缺陷预测模型,并且适用于不同分类算法。  相似文献   

2.
软件缺陷预测是软件工程领域的重点研究方向,是保证软件质量的重要途径之一。其中软件缺陷数据的类不平衡问题会影响缺陷预测分类的准确性,为解决类不平衡数据对预测分类的影响,针对如何优化数据预处理的算法执行顺序进行了研究,提出了一种有效提升分类效果的软件缺陷预测模型(ASRAdaboost)。该算法模型在根据对照实验确定数据预处理最优顺序后,采用特征选择卡方检验算法,再执行SMOTE过采样与简单采样方法,解决数据类不平衡和属性冗余同时存在的问题,最后结合Adaboost集成算法,构建出软件缺陷预测模型ASRAdaboost。实验均采用J48决策树作为基分类器,实验结果表明:ASRAdaboost算法模型有效提高了软件缺陷预测的准确性,得到了更好的分类效果。  相似文献   

3.
软件缺陷预测是合理利用软件测试资源、提高软件性能的重要途径。为处理软件缺陷预测模型中浅层机器学习算法无法对软件数据特征进行深度挖掘的问题,提出一种改进深度森林算法——深度堆叠森林(DSF)。该算法首先采用随机抽样的方式对软件的原始特征进行变换以增强其特征表达能力,然后用堆叠结构对变换特征做逐层表征学习。将深度堆叠森林应用于Eclipse数据集的缺陷预测中,实验结果表明,该算法在预测性能和时间效率上均比深度森林有明显的提升。  相似文献   

4.
针对传统软件缺陷预测方法在预测面向对象的软件缺陷时存在的不足,提出一种基于流形学习的面向对象的软件缺陷预测模型。结合拉普拉斯特征映射法和分类方法,利用拉普拉斯特征映射法,对待预测的软件属性度量数据进行降维处理,得到其低维特征;利用分类算法,从低维特征数据中预测软件存在的缺陷。实验结果表明,该方法有效提高了面向对象的软件缺陷预测精度,也提高了算法的执行效率。  相似文献   

5.
刘帆  朱强 《信息与电脑》2023,(22):63-65
为提升客流量预测精度,提出基于深度学习的轨道交通客流量预测模型。首先,通过自助站台系统收集乘客的进出站信息。其次,初步处理数据,包括数据清洗、归一化整理。最后,整合不同模型中的客流量数据,以揭示它们之间的相关性。基于深度学习中的卷积神经网络算法,构建了一种新型的轨道交通客流量预测模型,该模型利用历史客流数据进行训练,并能够自动学习数据中的复杂特征和规律,从而精准预测未来客流量变化。实验结果显示,所设计的模型精度达到89.91%,表明新模型在客流量预测准确性方面取得了显著的提升。  相似文献   

6.
刘影  孙凤丽  郭栋  张泽奇  杨隽 《测控技术》2020,39(12):111-115
针对软件缺陷预测时缺陷数据集中存在的类别分布不平衡问题,结合上采样算法SMOTE与Edited Nearest Neighbor (ENN) 数据清洗策略,提出了一种基于启发式BP神经网络算法的软件缺陷预测模型。模型中采用上采样算法SMOTE增加少数类样本以改善项目中的数据不平衡状况,并针对采样后数据噪声问题进行ENN数据清洗,结合基于启发式学习的模拟退火算法改进四层BP神经网络后建立分类预测模型,在AEEEM数据库上使用交叉验证对提出的方案进行性能评估,结果表明所提出的算法能够有效提高模型在预测类不平衡数据时的分类准确度。  相似文献   

7.
特征提取是软件缺陷预测中的关键步骤,特征提取的质量决定了缺陷预测模型的性能,但传统的特征提取方法难以提取出软件缺陷数据的深层本质特征。深度学习理论中的自动编码器能够从原始数据中自动学习特征,并获得其特征表示,同时为了增强自动编码器的鲁棒性,本文提出一种基于堆叠降噪稀疏自动编码器的特征提取方法,通过设置不同的隐藏层数、稀疏性约束和加噪方式,可以直接高效地从软件缺陷数据中提取出分类预测所需的各层次特征表示。利用Eclipse缺陷数据集的实验结果表明,该方法较传统特征提取方法具有更好的性能。  相似文献   

8.
软件缺陷预测是典型的类不均衡学习问题,其中有缺陷的样本数量远少于无缺陷的样本数量,但有缺陷的样本通常是预测的重点。现有的软件预测模型大多建立在基于静态度量元的软件缺陷数据集上,重点关注如何平衡类分布,而忽略了数据集中属性特征对软件缺陷的判别能力。当软件缺陷数据集中的属性特征对类目标概念缺乏判别能力时,传统机器学习算法难以构建有效的软件缺陷预测模型,从而无法获得有效的预测性能。为此,提出了一种基于不相似性的软件缺陷预测算法,通过改善软件缺陷数据集中属性的判别能力,进而提升软件缺陷预测性能。实验证明:基于不相似性的软件缺陷预测算法能够有效地改善传统机器学习算法在软件缺陷数据集上的预测性能。  相似文献   

9.
为了提高软件的可靠性,软件缺陷预测已经成为软件工程领域中一个重要的研究方向.传统的软件缺陷预测方法主要是设计静态代码度量,并用机器学习分类器来预测代码的缺陷概率.但是,静态代码度量未能充分考虑到潜藏在代码中的语义特征.根据这种状况,本文提出了一种基于深度卷积神经网络的软件缺陷预测模型.首先,从源代码的抽象语法树中选择合适的结点提取表征向量,并构建字典将其映射为整数向量以方便输入到卷积神经网络.然后,基于GoogLeNet设计卷积神经网络,利用卷积神经网络的深度挖掘数据的能力,充分挖掘出特征中的语法语义特征.另外,模型使用了随机过采样的方法来处理数据分类不均衡问题,并在网络中使用丢弃法来防止模型过拟合.最后,用Promise上的历史工程数据来测试模型,并以AUC和F1-measure为指标与其他3种方法进行了比较,实验结果显示本文提出的模型在软件缺陷预测性能上得到了一定的提升.  相似文献   

10.
SDAE-LSTM模型在金融时间序列预测中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
针对金融时间序列预测的复杂性和长期依赖性,提出了一种基于深度学习的LSTM神经网络预测模型。利用堆叠去噪自编码从金融时间序列的基本行情数据和技术指标中提取特征,将其作为LSTM神经网络的输入对金融时间序列进行预测;通过LSTM神经网络的长期依赖特性来提高金融时间序列的预测精度。利用股价指数数据,与传统的神经网络的预测结果进行比较,结果表明基于深度学习的LSTM神经网络具有比较高的预测精度。  相似文献   

11.
深度Web资源探测系统的研究与实现   总被引:1,自引:0,他引:1  
李涛  陈鹏  李哲 《微计算机信息》2007,23(33):185-187
本文介绍了深度Web的资源重要性和传统爬虫工作的原理。为了能够更好的利用传统爬虫获取深度Web资源和解决传统爬虫在工作中的不足,提出了一种任务可定制化的爬虫框架,并基于可定制化的任务,实现探测网络深度资源的功能。  相似文献   

12.
在深度强化学习领域,如何有效地探索环境是一个难题。深度Q网络(Deep Q-Network,DQN)使用ε-贪婪策略来探索环境,ε的大小和衰减需要人工进行调节,而调节不当会导致性能变差。这种探索策略不够高效,不能有效解决深度探索问题。针对DQN的ε-贪婪策略探索效率不够高的问题,提出一种基于平均神经网络参数的DQN算法(Averaged Parameters DQN,AP-DQN)。该算法在回合开始时,将智能体之前学习到的多个在线值网络参数进行平均,得到一个扰动神经网络参数,然后通过扰动神经网络进行动作选择,从而提高智能体的探索效率。实验结果表明,AP-DQN算法在面对深度探索问题时的探索效率优于DQN,在5个Atari游戏环境中相比DQN获得了更高的平均每回合奖励,归一化后的得分相比DQN最多提升了112.50%,最少提升了19.07%。  相似文献   

13.
传统Deep Web数据集成研究侧重满足用户的即时查询需求,对数据分析应用缺乏充分支持,提出一个面向分析的Deep Web数据集成系统DWDIS,能够在较少人工参与下对大量Web数据库进行高质量数据获取、抽取和整合,为分析型应用提供优质全面的结构化数据.DWDIS支持领域模型的自动演化;通过自动识别和理解查询接口,采用查询词采新率模型以较小代价最大限度地获取Deep Web页面;充分利用集成系统已有数据中隐含的数据特征,对Deep Web页面进行有效页面抽取和语义标注;结合Web数据源特征,使用机器学习方法对来自大量Web数据库的数据实现高准确率的重复记录检测和数据融合.  相似文献   

14.
Deep Web查询接口的判定技术研究   总被引:1,自引:0,他引:1  
互联网的飞速发展,给人类带来了海量的可供访问信息,但是,现今搜索引擎索引的绝大部分是表层Surface Web网的信息,限于一些技术原因,搜索引擎几乎无法索引到Deep Web网中的信息。由于查询接口是Deep Web的唯一入口,但并非所有的网页表单都是查询接口,为了能充分利用Deep Web后台数据库信息,首先要找到进入Deep Web后台数据库的入口,所以对查询接口的正确判定至关重要。文中介绍了利用决策树CA.5分类算法自动判定网页表单是否为Deep Web查询接口的方法。  相似文献   

15.
Deep Web数据源自动分类   总被引:1,自引:0,他引:1  
随着World Wide Web(WWW)的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长.其中大部分的Deep Web是结构化的,把这些结构化的Deep Web按其领域进行分类,是Deep Web集成查询接口生成的一个非常重要的步骤.文中提出了一种利用朴素贝叶斯分类的方法,并通过实验证明了其有效性.  相似文献   

16.
传统的搜索引擎可以很好地发现静态网页,但是不能获取隐藏在查询接口背后的大量数据.大量不断更新的数据只 能通过填写HTML页面的查询接口对后台的数据进行查询得到.本文介绍了一种发现查询接口的有效方法.通过用更具表的属性描述查询接口,并利用决策树技术对查询接口进行分类,从而达到比较高的识别准确率.  相似文献   

17.
在光怪陆离的都市夜生活里,有一群人仅仅需要平静的夜,美剧就是他们的精神慰藉。而为他们默默工作的,是暖黄灯光下的魅酷。  相似文献   

18.
Deep Web中蕴含着大量高质量的数据,然而只有通过Web查询接口对Web数据库提交查询才能获取这些数据,因此,自动获取Web查询接口模式是实现Web数据库集成的关键.将Web查询接口模式的抽取过程看作一个词法分析的过程,通过构建EGLM-FA(元素分组及标签匹配有限状态自动机)来完成对Web查询接口模式的抽取.首先应用Html呈现引擎将Web查询接口所在页面进行解析,利用查询接口Form中的DOM节点及其坐标信息构建相应的NSS(节点空间结构),之后再将所有的NSS组成NSS列表,将NSS列表作为EGLM-FA的输入,进而抽取出Web查询接口的模式.  相似文献   

19.
关于中国Deep Web的规模、分布和结构   总被引:7,自引:0,他引:7  
随着Web数据库的广泛应用,Web正在加速的"深化",大量的高质量的信息隐藏在Deep Web中.基于IP采样的方法,对1,000,000个IP样本进行了分析统计,揭示了2006年初中国Deep Web的规模、分布和结构.主要结论包括有:1中国Deep Web查询接口往往位于站点浅层,94.6%的Deep Web查询接口出现在站点的前3层;2中国Deep Web大约有24,000个站点,28,000个Web数据库和74,000个查询接口;3中国Deep Web大部分是非结构化的,其中64%是非结构化的Web数据库;4中国Deep Web分布于多种不同的主题领域;5目前主要的中文搜索引擎已覆盖国内Deep Web大约二分之一的页面.  相似文献   

20.
Deep Web爬虫爬行策略研究   总被引:6,自引:0,他引:6  
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某Deep Web站点的页面用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明Deep Web站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的Deep Web爬虫,它可以自动发现和下载Deep Web页面。由于Deep Web惟一“入口点”是查询接口,Deep Web爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际Deep Web站点上的实验证明了此方法是非常有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号