首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 23 毫秒
1.
石秀金  胡艳玲 《计算机科学》2017,44(5):120-124, 165
基于分类树的差分隐私保护方法有效地对静态集值型数据进行了保护,但对于动态集值型数据却没有相应的保护方法,因此提出一种基于分类树的差分隐私保护下的动态集值型数据发布的算法。该算法首先根据数据集中项的全集构造关系矩阵,挑选关系最紧密的项集构造分类树;然后设定一个边界值来限制数据的增量更新,并将新增的记录添加到分类树的根节点中,按照初始分类树的分配法迭代分配每个记录;最后根据拉普拉斯机制向叶子节点中加入噪音,保证整个算法满足差分隐私的要求。相对已有算法,所提算法优化了分类树,使所发布数据建立的分类树模型有少量的叶子节点产生,减少了噪音的添加。实验用两组真实的数据集验证了所提算法的有效性和相对于其他算法的优越性。  相似文献   

2.
为提高数据采掘的效率,通常需要在提供同等分析结果的情况下对原数据集进行简化。文章提出了一种有效的数据缩减算法Sodra,以无监督与有监督相结合的学习方式生成适于分类的缩减数据集。对实际数据集和人工数据集的分类实验表明,所提出的算法既能大大降低空间需求,又不损害分类性能。同时,利用缩减集上的特征分析算法Relif-P可进一步提高算法对无关特征的适应能力。  相似文献   

3.
针对人体姿态监测传感器所返回数据的不平衡性特点影响分类性能的问题,提出一种基于不平衡数据分类的人体姿态分类算法。根据姿态监测传感器所返回数据的特点,基于K-means的思想,提出一种噪声样本识别算法。针对样本集的不平衡性问题,本文通过引入经典的过采样算法SMOTE,对少数类样本集进行操作。利用Adaboost学习框架的优势,对平衡后的样本集进行训练,获得最终分类模型。选择G-mean、F-value及AUC为分类模型的评价指标,通过在ARe Mr人体姿态数据集上与三种经典的不平衡分类模型CUS-Boost、SMOTEBoost以及RUS-Boost算法相对比。验证了本文所提出的基于不平衡数据分类的人体姿态分类算法有效性、精准性。  相似文献   

4.
基于分类树划分的差分隐私方法能有效地对集值型数据的发布进行保护,但在构造分类树时该方法没有充分利用集值型数据集自身的特征。通过对添加噪音量的影响因素分析,提出了一种基于数据集特征的集值型数据发布方法,该方法首先对数据集进行分析,然后根据数据集中记录的种类数占总输出域的比例以及只出现一次的记录种类数占总输出域比例,动态构造分类树。实验结果表明:当数据集满足 且 时,通过有效利用集值型数据集的特征,构造较优的分类树,可以添加少于10%的噪音。  相似文献   

5.
针对当前电力营业厅等服务型场所缺乏领域特有的情感分析数据集这一问题,构建了一个可应用于电力营业厅等服务型场所的情感分析数据集。该数据集可对用户话语进行情感极性分类,并可对用户情感来源进行归因分类。数据集共包含2 080条数据,首先从电力系统营业厅客户的交互、反馈中收集原始语音、文本数据,然后对这些数据进行清洗、脱敏和增广,最后进行情感极性分类和情感指向分类两类文本分类任务的标签标注和校对。在得到的数据集上使用多种特征提取方法和分类器模型进行多次交叉验证实验,其中基于BERT作为编码器的神经网络分类器模型最高可在数据集两类任务上取得95.31%和92.07%的准确率,充分验证了所提出的情感分析数据集的有效性和实用性。实验结果表明该数据集可用于对话系统的实际应用及相关领域的情感分析中,帮助营业厅等服务类场所更有针对性地提升服务质量和用户体验。  相似文献   

6.
倪彤光  王士同 《控制与决策》2014,29(10):1751-1757
为了解决包含不确定信息的分类学习问题,提出一种新的适用于不确定类标签数据的迁移支持向量机。该方法基于结构风险最小化模型,同时将源领域中所学知识、领域间的共享数据、目标领域中已标定的和不确定的数据纳入学习框架中,进而实现了源领域和目标领域的知识迁移。在多种真实数据集上的实验结果表明了所提出方法的有效性。  相似文献   

7.
实际的分类数据往往是分布不均衡的.传统的分类器大都会倾向多数类而忽略少数类,导致分类性能恶化.针对该问题提出一种基于变分贝叶斯推断最优高斯混合模型(varition Bayesian-optimized optimal Gaussian mixture model, VBoGMM)的自适应不均衡数据综合采样法. VBoGMM可自动衰减到真实的高斯成分数,实现任意数据的最优分布估计;进而基于所获得的分布特性对少数类样本进行自适应综合过采样,并采用Tomek-link对准则对采样数据进行清洗以获得相对均衡的数据集用于后续的分类模型学习.在多个公共不均衡数据集上进行大量的验证和对比实验,结果表明:所提方法能在实现样本均衡化的同时,维持多数类与少数类样本空间分布特性,因而能有效提升传统分类模型在不均衡数据集上的分类性能.  相似文献   

8.
采样技术与ELM分类算法进行结合可提高少数类样本的分类精度,但现有的大多数结合ELM的采样方法并未考虑到样本的不平衡程度及样本内部的分布情况,采样技术过于单一,导致分类模型的效率低下,少数类样本的识别率不高。针对此问题,提出了一种基于DPC聚类的重采样技术结合ELM的不平衡数据分类算法,首先根据数据集的不平衡程度分2种情况构建一个混合采样模型来平衡数据集;然后在此模型上运用DPC聚类算法分别对多数类样本和少数类样本进行分析处理,解决数据中存在的类内不平衡和噪声问题,使得2类样本相对均衡;最后使用ELM分类算法对得到的数据集进行分类。实验结果表明,与同类型分类算法进行比较,所提算法的2个分类性能指标在实验数据集上都有明显提升。  相似文献   

9.
邱津怡  罗俊  李秀  贾伟  倪福川  冯慧 《计算机应用》2019,39(10):2930-2936
葡萄品种质量检测需要识别多类别的葡萄,而葡萄图片中存在多种景深变化、多串等多种场景,单一预处理方法存在局限导致葡萄识别的效果不佳。实验的研究对象是大棚中采集的15个类别的自然场景葡萄图像,并建立相应图像数据集Vitis-15。针对葡萄图像中同一类别的差异较大而不同类别的差异较小的问题,提出一种基于卷积神经网络(CNN)的多尺度葡萄图像识别方法。首先,对Vitis-15数据集中的数据通过三种方法进行预处理:旋转图像的数据扩增方法、中心裁剪的多尺度图像方法以及前两种方法的数据融合方法;然后,采用迁移学习方法和卷积神经网络方法来进行分类识别,迁移学习选取ImageNet上预训练的Inception V3网络模型,卷积神经网络采用AlexNet、ResNet、Inception V3这三类模型;最后,提出适合Vitis-15的多尺度图像数据融合的分类模型MS-EAlexNet。实验结果表明,在同样的学习率和同样的测试集上,数据融合方法在MS-EAlexNet上的测试准确率达到了99.92%,相较扩增和多尺度图像方法提升了近1个百分点,并且所提方法在分类小样本数据集上具有较高的效率。  相似文献   

10.
针对传统句子分类模型存在特征提取过程复杂且分类准确率较低等不足,利用当下流行的基于深度学习模型的卷积神经网络在特征提取上的优势,结合传统句子分类方法提出一种基于卷积神经网络和贝叶斯分类器的句子分类模型。该模型首先利用卷积神经网络提取文本特征,其次利用主成分分析法对文本特征进行降维,最后利用贝叶斯分类器进行句子分类。实验结果表明在康奈尔大学公开的影评数据集和斯坦福大学情感分类数据集上,所提出的方法优于只使用深度学习的模型或传统句子分类模型。  相似文献   

11.
在群智感知系统中,从分布式数据源中持续收集和分析数据可以为先进的数据挖掘模型提供决策支持.由于数据中可能包含个人相关的信息,数据的采集和分析过程中通常伴随着隐私泄露的风险.本地化差分隐私作为先进的隐私保护方案可在用户的隐私性和数据的可用性之间提供较好的权衡.当前,键值数据作为异构类型数据,其同时含有分类数据和数值数据,基于本地化差分隐私在多维度下对键值数据进行关联分析面临着一定的挑战.针对隐私保护前提下键值数据的发布和关联分析问题,首先定义了键值数据的频率关联和均值关联问题,然后提出了适用于键值对的索引独热编码,为键值数据提供本地化差分隐私保护,最后在扰动的数据上对键值数据进行关联分析.基于仿真数据集和真实数据集的实验和理论分析验证了所提方案的有效性.  相似文献   

12.
针对花粉图像清晰度不足、形状相近等特性所导致的识别精度低、人工识别低效的问题,提出一种基于动态高效网络的花粉图像识别模型。在ImageNet数据集上使用Noisy Student方法对EfficientNet进行预训练;将训练后的权重迁移到花粉识别模型中;引入动态学习率提升模型的识别精度。采用MixUp和GridMask的方法用于花粉图像数据增强。仿真结果与其它模型进行比较,验证了提出模型具有更好的分类效果。  相似文献   

13.
针对用电大数据环境下,非交互式差分隐私模型无法提供准确查询结果及计算开销较大的问题,提出一种基于最大信息系数与数据匿名化的差分隐私数据发布方法。从原始数据集中选出部分隐私属性作为特征集,利用最大信息系数选出与此特征集相关性高的数据作为隐私数据集,使用协同隐私保护算法对隐私数据集进行保护,发布满足差分隐私保护的用电大数据集。理论分析与实验结果表明,所提出的方法在提高大数据隐私保护处理效率同时,有效分化查询函数敏感性,提高发布数据可用性。  相似文献   

14.
摘 要: 多维分类根据数据实例的特征向量将数据实例在多个维度上进行分类,具有广泛的应用前景。在多维分类算法的模型学习过程中,海量的训练数据使得准确的分类算法需要很长的模型训练时间。为了提高多维分类的执行效率,同时保持高的预测准确性,本文提出了一种基于贝叶斯网络的多维分类学习方法。首先,将多维分类问题描述为条件概率分布问题。其次,根据类别向量之间的依赖关系建立了条件树贝叶斯网络模型。最后,根据训练数据集对条件树贝叶斯网络模型的结构和参数进行学习,并提出了一种多维分类预测算法。大量的真实数据集实验表明,本文提出的方法与当前最好的多维分类算法MMOC相比,在保持高准确性的同时将模型的训练时间降低了两个数量级。因此,本文提出的方法更适用于海量数据的多维分类应用中。  相似文献   

15.
特征选择可以有效地去除高维数据中的冗余和不相关的特征,保留重要的特征,从而降低模型计算的复杂性,提高模型精度。在特征选择过程中,针对数据中存在的离群点和边界点等可能影响分类效果的噪声数据,提出了基于粗糙集与密度峰值聚类的特征选择方法。首先,通过密度峰值聚类方法去除噪声数据,并挑出簇类中心;然后,结合粗糙集理论的思想,按簇类中心划分数据,并根据同一簇类的点应具有相同标签的假设,定义特征重要性评价指标;最后,设计了一种启发式特征选择算法,用于挑选出使簇类结构纯度更高的特征子集。在6个UCI数据集上,与其他算法进行了分类精度、特征选择个数和运行时间的对比实验,实验结果验证了所提算法的有效性和高效性。  相似文献   

16.
《微型机与应用》2015,(23):7-10
针对传统的机器学习算法对不平衡数据集的少类分类准确率不高的问题,基于支持向量机和模糊聚类,提出一种不平衡数据加权集成学习算法。首先提出加权支持向量机模型(Weighted Support Vector Machine,WSVM),该模型根据不同类别数据所占比例的不同,为各类别分配不同的权重,然后将WSVM与模糊聚类结合提出一种新的集成学习算法。将本文提出的算法应用于人造数据集和UCI数据集实验中,实验结果表明,所提出的算法能够有效地解决不平衡数据的分类问题,具有更好的分类性能。  相似文献   

17.
基于深度学习的加密流量分类方法中的分类模型大多是深层直筒型结构,存在梯度消失的问题,且网络层数的增加会使模型结构和计算的复杂度显著上升。为此,提出了一种基于改进Inception-ResNet的加密流量分类方法。该方法通过改进Inception模块,并将该模块作为残差块以残差结构连接的方式嵌入卷积神经网络来构建分类模型;此外,改进分类模型的损失函数,并使用VPN-nonVPN数据集来验证所提方法的有效性。实验结果表明,所提方法在2种场景的分类实验中的精确率、召回率、F1值分别达到了94.21%、92.53%和93.31%以上。在与其他方法的对比实验中,以分类难度最大的12分类实验为例,所提方法比C4.5决策树算法和1D-CNN(1 Dimensional-Convolutional Neural Network)在精确率上分别高出13.91和9.50个百分点,在召回率上分别高出14.87和1.59个百分点。与CAE(Convolutional Auto Encoding)和SAE (Stacked Auto Encoder)等方法相比,所提方法虽然在各项指标上没有明显提升,但在单次训练...  相似文献   

18.
针对基于深度学习的分类模型在少样本训练时所遭受的梯度消失、过拟合问题,结合DCGAN和SRGAN特性,提出一种抑制过拟合、提升图像生成质量的DS-GAN协同数据增强算法。通过改进DCGAN生成新的图像,使用改进SRGAN对其进行超分辨率重构,二者协同得到新的超分辨率图像。首先,提出一种软标签函数,代替DCGAN原始固定标签;其次,引入空洞卷积残差块作为SRGAN判别器主结构,同时加入CBAM注意力机制实现权重的再分配;最后,在SRGAN判别器中引入自适应平均池化,降低网络参数量。实验结果表明,使用标准数据集AID和RSOD,经MobileNet V2分类网络进行测验,DS-GAN数据增强方法相较于常规增强和DCGAN增强方法有明显提高。在AID数据集上,准确率分别提升8.01%、9.49%。在RSOD数据集上,准确率分别提升4.76%、1.4%。  相似文献   

19.
为应对不断升级的恶意代码变种,针对现有恶意代码分类方法对特征提取能力不足、分类准确率下降的问题,文章提出了基于双向时域卷积网络(Bidirectional Temporal Convolution Network,BiTCN)和池化融合(Double Layer Pooling,DLP)的恶意代码分类方法(BiTCN-DLP)。首先,该方法融合恶意代码操作码和字节码特征以展现不同细节;然后,构建Bi TCN模型充分利用特征的前后依赖关系,引入池化融合机制进一步挖掘恶意代码数据内部深层的依赖关系;最后,文章在Kaggle数据集上对模型进行验证,实验结果表明,基于Bi TCN-DLP的恶意代码分类准确率可达99.54%,且具有较快的收敛速度和较低的分类误差,同时,文章通过对比实验和消融实验证明了该模型的有效性。  相似文献   

20.
提出了一种基于卷积神经网络和随机森林相结合的方法,用于对海洋可食用鱼类进行识别分类。通过使用YOLOv3目标检测网络对原始鱼类图片进行目标定位并使用数据增强方法对数据集进行扩充,模型在自建数据集上进行训练和微调,达到了较高的分类准确率和稳定性。实验结果表明该模型在鱼类分类任务上的有效性,并为解决传统方法对鱼类分类的困难提供了一种新思路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号