首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对大数据样例选择问题,提出了一种基于随机森林(RF)和投票机制的大数据样例选择算法。首先,将大数据集划分成两个子集,要求第一个子集是大型的,第二个子集是中小型的。然后,将第一个大型子集划分成q个规模较小的子集,并将这些子集部署到q个云计算节点,并将第二个中小型子集广播到q个云计算节点。接下来,在各个节点用本地数据子集训练随机森林,并用随机森林从第二个中小型子集中选择样例,之后合并在各个节点选择的样例以得到这一次所选样例的子集。重复上述过程p次,得到p个样例子集。最后,用这p个子集进行投票,得到最终选择的样例子集。在Hadoop和Spark两种大数据平台上实现了提出的算法,比较了两种大数据平台的实现机制。此外,在6个大数据集上将所提算法与压缩最近邻(CNN)算法和约简最近邻(RNN)算法进行了比较,实验结果显示数据集的规模越大时,与这两个算法相比,提出的算法测试精度更高且时间消耗更短。证明了提出的算法在大数据处理上具有良好的泛化能力和较高的运行效率,可以有效地解决大数据的样例选择问题。  相似文献   

2.
王春东  姜鑫 《计算机应用》2023,(11):3484-3489
针对实用拜占庭容错(PBFT)共识机制的主节点选择不合理和高交易延迟问题,提出一种基于可验证延迟函数(VDF)的改进实用拜占庭容错共识机制VPBFT。首先,针对原有的PBFT算法引入投票机制进行节点选取,并根据随机投票结果将节点划分为普通节点、投票节点、备份节点和共识节点;其次,改进PBFT算法主节点选举机制,即使用VDF进行主节点选举,并利用上一区块哈希值和用户私钥生成随机数,增加主节点的不可预测性,保证共识安全;最后,优化PBFT算法的共识过程,将共识过程简化为三个阶段,从而降低算法复杂度,减少通信开销。实验结果表明,所提出的VPBFT在安全性和共识性能方面优于原有PBFT算法。  相似文献   

3.
陈煜  蒋伟  周继恩 《计算机应用》2018,38(1):171-175
针对目前路网环境下海量轨迹数据压缩效率低下的问题,提出了一种基于预测模型的轨迹数据压缩方法(CTPM)。通过将轨迹数据的时间信息和空间信息分别进行压缩,使得压缩后的轨迹数据在空间维度上无损,并且在时间维度上误差有界,以此提高压缩效率。在空间方面,首先利用部分匹配预测(PPM)算法通过轨迹已经行驶的部分路段对其下一时刻可能的位置进行预测;然后通过删除预测成功的路段来减少轨迹数据的存储代价。在时间方面,首先利用轨迹通行状况具有周期性的特点,构建了不同时间区间的通行速度统计模型,来预测移动对象进入下一路段所需要的时间;然后删除预测时间误差小于给定阈值的路段数据来进行压缩处理。实验结果显示,与已有的基于路网的并行轨迹压缩(PRESS)算法相比,CTPM的空间压缩比和时间压缩比平均分别提高了43%和1.5%,同时时间压缩误差减小了9.5%。实验结果表明所提算法在提高压缩比的同时有效地降低了压缩时间和压缩误差。  相似文献   

4.
基于小波变换的分类量化图像编码算法   总被引:3,自引:0,他引:3  
针对标量量化压缩比小而向量量化压缩速度慢、图像复原效果不理想等弱点,提出了基于小波变换的分类量化图像编码算法(简称“分类量化编码”)。该算法基本思想为:首先将小波变换后的图像高频子带划分为局部快;然后利用文中给出的相对距离最近之值选择方法,依据纹理复杂度和重要性程度将这些局部块划分为4类(平坦、过渡、弱纹理和强纹理);最后对平坦局部块进行向量量化编码,对强纹理局部进行标量量化编码。实验结果表明:该图像压缩算法在压缩速度、图像复原效果、压缩比等方面明显优于零树小波编码和JPEG方法。  相似文献   

5.
传统的大数据样例选择算法由于仅设置单一参数,导致算法在实际应用中的性能较差。因此,提出基于网格技术的大数据样例选择算法。首先,设置大数据样例选择算法的参数,计算出样例精确度的平均值,并在网格技术的支持下,确定样例选择算法的目标函数;其次,通过对样例数据进行聚类,生成大数据样例选择算法;最后,进行仿真实验。仿真结果表明,与传统大数据样例选择算法相比,该算法的压缩比为6.092,在实际应用中的性能更好。  相似文献   

6.
针对最近邻(NN)方法在异常结构化查询语句(SQL)检测应用中面临的存储开销大、检索速度慢的问题,提出了一种基于哈希学习的异常SQL检测(HMSD)方法。该算法利用哈希学习来学习查询SQL语句的二值编码表示。首先,对查询SQL语句进行清洗去重,从而将查询SQL语句表示为实值特征形式;然后利用等方差哈希方法来学习查询SQL语句的二值编码表示;最后,通过二值编码表示进行检索并提高异常SQL检测的速度。实验结果表明,在异常SQL检测数据集Wafamole上,将数据集进行随机划分,使训练集包含10 000条SQL语句,测试集包含30 000条SQL语句,在128比特长度下,与最近邻方法相比,所提算法的检测精度提高了1.3%,假正例率(FPR)降低了0.19%,假负例率(FNR)降低了2.41%,检索时间减少了94%,存储开销降低了97.5%;与支持向量机方法相比,所提算法的检测精度提高了0.17%,验证了所提算法能解决最近邻方法在异常SQL检测中存在的问题。  相似文献   

7.
刘芳名  张鸿 《计算机应用》2021,41(8):2187-2192
针对大多数跨模态哈希方法采用二进制矩阵表示相关程度,因此无法捕获多标签数据之间更深层的语义信息,以及它们忽略了保持语义结构和数据特征的判别性等问题,提出了一种基于多级语义的判别式跨模态哈希检索算法——ML-SDH。所提算法使用多级语义相似度矩阵发现跨模态数据中的深层关联信息,同时利用平等指导跨模态哈希表示在语义结构和判别分类中的关联关系,不仅实现了对蕴含高级语义信息的多标签数据进行编码的目的,而且构建的保留多级语义的结构能够确保最终学习的哈希码在保持语义相似度的同时又具有判别性。在NUS-WIDE数据集上,哈希码长度为32 bit时,所提算法在两个检索任务中的平均准确率(mAP)比深度跨模态哈希(DCMH)、成对关联哈希(PRDH)、平等指导判别式哈希(EGDH)算法分别高出了19.48,14.50,1.95个百分点和16.32,11.82,2.08个百分点。  相似文献   

8.
方法压缩率较高,图压缩算法无法直接被用于下游任务分析的问题,提出一种图摘要与图压缩的融合算法,即基于节点相似性分组与图压缩的图摘要算法(GSNSC)。首先,初始化节点为超节点,并根据相似度对超节点分组;其次,将每个组的超节点合并,直到达到指定次数或指定节点数;再次,在超节点之间添加超边和校正边以恢复原始图;最后,对于图压缩部分,判断对每个超节点的邻接边压缩和摘要的代价,并选择二者中代价较小的执行。在Web-NotreDame、Web-Google和Web-Berkstan等6个数据集上进行了图压缩率和图查询实验。实验结果表明,在6个数据集上,与SLUGGER(Scalable Lossless sUmmarization of Graphs with HiERarchy)算法相比,所提算法的压缩率至少降低了23个百分点;与SWeG(Summarization of Web-scale Graphs)算法相比,所提算法的压缩率至少降低了13个百分点;在Web-NotreDame数据集上,所提算法的度误差比SWeG降低了41.6%。以上验证了所提算法具有更好的图压缩率和图查询准确度。  相似文献   

9.
韩亚茹  闫连山  姚涛 《计算机应用》2022,42(7):2015-2021
随着移动互联网技术的发展,图像数据的规模越来越大,大规模图像检索任务已经成为了一个紧要的问题。由于检索速度快和存储消耗低,哈希算法受到了研究者的广泛关注。基于深度学习的哈希算法要达到较好的检索性能,需要一定数量的高质量训练数据来训练模型。然而现存的哈希方法通常忽视了数据集存在数据类别非平衡的问题,而这可能会降低检索性能。针对上述问题,提出了一种基于元学习网络的深度哈希检索算法。所提算法可以直接从数据中自动学习加权函数。该加权函数是只有一个隐含层的多层感知机(MLP),在少量无偏差元数据的指导下,加权函数的参数可以和模型训练过程中的参数同时进行优化更新。元学习网络参数的更新方程可以解释为:较符合元学习数据的样本权重将被提高,而不符合元学习数据的样本权重将被减小。基于元学习网络的深度哈希检索算法可以有效减少非平衡数据对图像检索的影响,并可以提高模型的鲁棒性。在CIFAR-10等广泛使用的基准数据集上进行的大量实验表明,在非平衡比率较大时,所提算法的平均准确率均值(mAP)最佳;在非平均比率为200的条件下,所提算法的mAP比中心相似度量化算法、非对称深度监督哈希(ADSH)算法和快速可扩展监督哈希(FSSH)算法分别提高0.54个百分点,30.93个百分点和48.43个百分点。  相似文献   

10.
随机森林分类算法在产生决策树以及投票流程中各个决策树的分类准确度各不相同,由此带来的问题是少部分决策树会影响随机森林算法的整体分类性能。除此以外,数据集中的不平衡数据也能影响到决策树的分类精度。针对以上缺点,对Bootstrap抽样方法添加约束条件,以降低非平衡数据对生成决策树的影响;以及利用袋外数据(Outof-Bagging)和非平衡系数对生成的决策树进行评估加权。试验结果表明,所提算法改善了随机森林对不平衡数据的分类精度。  相似文献   

11.
实例选择能有效移除数据中的噪声和冗余数据,但现有方法难以在提高泛化能力的同时实现约简。针对该问题,提出一种冗余实例对消除算法用于实例选择。给出最近同类实例对的概念,计算数据集中存在的最近同类实例对,并移除满足条件的实例,在11个不同数据集上进行的仿真实验结果表明,经过该算法处理后的数据集在分类准确率和存储压缩率上较原始样本集有明显提升。对比剪辑最近邻规则算法,该算法能够在保持分类准确率的同时提高平均存储压缩率35%以上,并完整保留原始样本集的数据分布特征,在分类准确率和存储压缩率上取得折中。  相似文献   

12.
李莉  石可欣  任振康 《计算机应用》2022,42(5):1554-1562
跨项目软件缺陷预测可以解决预测项目中训练数据较少的问题,然而源项目和目标项目通常会有较大的数据分布差异,这降低了预测性能。针对该问题,提出了一种基于特征选择和TrAdaBoost的跨项目缺陷预测方法(CPDP-FSTr)。首先,在特征选择阶段,采用核主成分分析法(KPCA)删除源项目中的冗余数据;然后,根据源项目和目标项目的属性特征分布,按距离选出与目标项目分布最接近的候选源项目数据;最后,在实例迁移阶段,通过采用评估因子改进的TrAdaBoost方法,在源项目中找出与目标项目中少量有标签实例分布相近的实例,并建立缺陷预测模型。以F1作为评价指标,与基于特征聚类和TrAdaBoost的跨项目软件缺陷预测(FeCTrA)方法以及基于多核集成学习的跨项目软件缺陷预测(CMKEL)方法相比,CPDP-FSTr的预测性能在AEEEM数据集上分别提高了5.84%、105.42%,在NASA数据集上分别提高了5.25%、85.97%,且其两过程特征选择优于单一特征选择过程。实验结果表明,当源项目特征选择比例和目标项目有类标实例比例分别为60%、20%时,所提CPDP-FSTr能取得较好的预测性能。  相似文献   

13.
模糊粗糙集由于能够处理实数值数据,甚至是混合值数据中的不确定性受到人们的广泛关注,其最重要的应用之一是特征选择,相关的特征选择方法已有不少研究,但其快速的特征选择算法研究很少。实际中的数据一般含有噪声点或信息含量低的样例,如果对数据集先筛选出代表样例,再对筛选的样例集进行数据挖掘便会降低挖掘计算量。本文基于模糊粗糙集,先根据样例的模糊下近似值对样例进行筛选,然后利用筛选样例的模糊粗糙信息熵构造特征选择的评估度量,并给出相应的特征选择算法,从而降低了算法的计算复杂度。数值试验表明该快速算法具有有效性,并且对控制筛选样例个数的参数给出了建议。  相似文献   

14.
王晓雨  王展青  熊威 《计算机应用》2022,42(8):2461-2470
大多数深度监督跨模态哈希方法采用对称的方式学习哈希码,导致其不能有效利用大规模数据集中的监督信息;并且对于哈希码的离散约束问题,常采用的基于松弛的策略会产生较大的量化误差,导致哈希码次优。针对以上问题,提出深度非对称离散跨模态哈希(DADCH)方法。首先构造了深度神经网络和字典学习相结合的非对称学习框架,以学习查询实例和数据库实例的哈希码,从而更有效地挖掘数据的监督信息,减少模型的训练时间;然后采用离散优化算法逐列优化哈希码矩阵,降低哈希码二值化的量化误差;同时为充分挖掘数据的语义信息,在神经网络中添加了标签层进行标签预测,并利用语义信息嵌入将不同类别的判别信息通过线性映射嵌入到哈希码中,增强哈希码的判别性。实验结果表明,在IAPR-TC12、MIRFLICKR-25K和NUS-WIDE数据集上,哈希码长度为64 bit时,所提方法在图像检索文本时的平均精度均值(mAP)较近年来提出的先进的深度跨模态检索方法——自监督对抗哈希(SSAH)分别高出约11.6、5.2、14.7个百分点。  相似文献   

15.
为了解决基于传感器数据的运动识别问题,利用深度卷积神经网络(CNN)在公开的OPPORTUNITY传感器数据集上进行运动识别,提出了一种改进的渐进式神经网络架构搜索(PNAS)算法。首先,神经网络模型设计过程中不再依赖于合适拓扑结构的手动选择,而是通过PNAS算法来设计最优拓扑结构以最大化F1分数;其次,使用基于序列模型的优化(SMBO)策略,在该策略中将按照复杂度从低到高的顺序搜索结构空间,同时学习一个代理函数以引导对结构空间的搜索;最后,将搜索过程中表现最好的20个模型在OPPORTUNIT数据集上进行完全训练,并从中选出表现最好的模型作为搜索到的最优架构。通过这种方式搜索到的最优架构在OPPORTUNITY数据集上的F1分数达到了93.08%,与进化算法搜索到的最优架构及DeepConvLSTM相比分别提升了1.34%和1.73%,证明该方法能够改进以前手工设计的模型结构,且是可行有效的。  相似文献   

16.
针对众包标记经过标记集成后仍然存在噪声的问题,提出了一种基于自训练的众包标记噪声纠正算法(Selftraining-based label noise correction, STLNC). STLNC整体分为3个阶段:第1阶段利用过滤器将带集成标记的众包数据集分为噪声集和干净集.第2阶段利用加权密度峰值聚类算法构建数据集中低密度实例指向高密度实例的空间结构关系.第3阶段首先根据发现的空间结构关系设计噪声实例选择策略;然后利用在干净集上训练的集成分类器对选择的噪声实例按照设计的实例纠正策略进行纠正,并将纠正后的实例加入到干净集,再重新训练集成分类器;重复实例选择与纠正过程直到噪声集中所有的实例被纠正;最后用最后一轮训练得到的集成分类器对所有实例进行纠正.在仿真标准数据集和真实众包数据集上的实验结果表明STLNC比其他5种最先进的噪声纠正算法在噪声比和模型质量两个度量指标上表现更优.  相似文献   

17.
针对现有基于偏移量计算的在线GPS轨迹数据压缩算法不能有效评估关键点的问题,提出基于偏移量计算的在线GPS轨迹数据压缩算法--关键点前继修正算法(KPFA)。该算法通过计算同步欧式距离(SED)累积偏移量来发现轨迹点中信息量较大的关键点,同时设置阈值对关键点之前和上一个关键点之后的轨迹点进行修正,更好地保留轨迹信息。实验结果表明,和按时间比例的开窗算法(OPW-TR)及启发式空间质量简化算法的改进算法(SQUISH-E)相比,压缩率相同时KPFA的平均SED误差最小,并且运行时间最快且维持在100 000 ms。KPFA算法对轨迹点的信息量评估准确度更高,运行时间更稳定。  相似文献   

18.
肖如良  曾智霞  肖晨凯  张仕 《计算机应用》2021,41(12):3620-3625
工业物联网(IIoT)系统中的传感器由于持续使用和正常磨损出现损坏,导致收集和记录的传感数据出现隐性异常。为解决该问题,提出一种基于局部敏感Bloom Filter(LSBF)模型的异常检测算法LSBFAD。首先利用基于空间划分的快速Johnson-Lindenstrauss变换(SP-FJLT)对数据进行哈希映射,然后采用相互竞争(MC)策略进行除噪,最后利用0-1编码构建Bloom Filter。在SIFT、MNIST和FMA三个基准数据集上进行的仿真实验中,LSBFAD算法的误报率(FAR)均低于10%。实验结果表明,基于LSBF的异常检测算法与当前主流的异常检测算法相比,具有较高的检测率(RD)和较低的误报率,可有效应用于IIoT数据的异常检测。  相似文献   

19.
拓守恒 《系统仿真技术》2010,6(3):202-208,240
针对训练子集随机性强、规模大、算法时空复杂度高等问题,提出了基于量子微粒群的支持向量机(QPSO-SVM)核函数集成学习算法。该方法首先采用K-Means算法对训练样本进行聚类分析,然后根据其聚类分布选择少量具有代表性的样本,并通过基于量子行为的粒子群算法来训练单个支持向量机(SVM),最后通过贝叶斯投票方法得到集成的SVM分类学习器。实验表明该方法在非线性高复杂度的数据分类中对分类精度有较大提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号