首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
高效性和可扩展性是多关系数据挖掘中最重要的问题,而提高算法效率的主要瓶颈在于假设空间,且用户对分类的指导会在很大程度上帮助系统完成分类任务,减少系统独自摸索的时间。针对以上问题提出了改进的多关系决策树算法,即将虚拟连接元组传播技术和提出的背景属性传递技术应用到多关系决策树算法中。对改进的多关系决策树算法进行了理论证明,并且对多关系决策树算法和改进的多关系决策树算法进行比较实验。通过实验可以得出,当改进的多关系决策树在搜索数据项达到背景属性传递阈值时,改进的多关系决策树算法的效率相对很高且受属性个数增加(或  相似文献   

2.
In this study, an efficient sleep spindle detection algorithm based on decision tree is proposed. After analyzing the EEG waveform, the decision algorithm determines the exact location of sleep spindle by evaluating the outputs of three different methods namely: Short Time Fourier Transform (STFT), Multiple Signal Classification (MUSIC) algorithm and Teager Energy Operator (TEO).The EEG records collected from patients used in this study have been recorded at the Sleep Research Center in Department of Psychiatry of Gülhane Military Medicine Academy. The obtained results are in agreement with the visual analysis of EEG evaluated by expert physicians. The method is applied to 16 distinct patients, 420,570 minutes long EEG records and the performance of the algorithm was assessed for the sleep spindles detection with 96.17% sensitivity and 95.54% specificity. As a result, it is found that the proposed sleep spindle detection algorithm is an efficient method to detect sleep spindles on EEG records.  相似文献   

3.
张君如  赵晓焱  袁培燕 《计算机应用》2020,40(10):2980-2985
针对联邦学习算法在用户行为预测中存在的准确率低和运行效率不高等问题,提出一种无损失的联邦学习安全树(FLSectree)算法。首先,通过对损失函数的推导,证明损失函数的一阶偏导数与二阶偏导数为敏感数据,采用特征索引序列的扫描和分裂来返回加密后的最佳分裂点,以保护敏感数据不被泄露;接着,通过对实例空间的更新来继续向下分裂并寻找下一个最佳分裂点,直至满足终止条件后结束训练;最后,利用训练后的结果使得各参与方得到本地算法参数。实验结果表明,FLSectree算法能够在保护数据隐私的前提下有效提高用户行为预测算法的准确率和训练效率,与联邦学习FATE(Federated AI Technology Enabler)框架中的SecureBoost算法相比,FLSectree算法在用户行为预测中的准确率提高了9.09%,运行时间降低了87.42%,训练结果与集中式Xgboost算法一致。  相似文献   

4.
张君如  赵晓焱  袁培燕 《计算机应用》2005,40(10):2980-2985
针对联邦学习算法在用户行为预测中存在的准确率低和运行效率不高等问题,提出一种无损失的联邦学习安全树(FLSectree)算法。首先,通过对损失函数的推导,证明损失函数的一阶偏导数与二阶偏导数为敏感数据,采用特征索引序列的扫描和分裂来返回加密后的最佳分裂点,以保护敏感数据不被泄露;接着,通过对实例空间的更新来继续向下分裂并寻找下一个最佳分裂点,直至满足终止条件后结束训练;最后,利用训练后的结果使得各参与方得到本地算法参数。实验结果表明,FLSectree算法能够在保护数据隐私的前提下有效提高用户行为预测算法的准确率和训练效率,与联邦学习FATE(Federated AI Technology Enabler)框架中的SecureBoost算法相比,FLSectree算法在用户行为预测中的准确率提高了9.09%,运行时间降低了87.42%,训练结果与集中式Xgboost算法一致。  相似文献   

5.
保持隐私的决策树的生成过程研究   总被引:1,自引:0,他引:1  
路慧萍  童学锋 《计算机应用》2005,25(6):1382-1384
介绍了保持隐私的数据挖掘技术,研究了决策树分类器在保持隐私的数据挖掘中的应用。在传统的决策树算法中引入标量积协议,既保持决策树算法本身的优点,又满足了保持隐私的需求。  相似文献   

6.
针对大数据环境下聚类分析的隐私保护问题,基于MapReduce计算框架,提出了一种并行化的支持差分隐私保护和离群点消除的K-means算法。算法并行地计算数据集中各点间的欧氏距离矩阵与最近邻超球半径以导出离群点的判定阈值,并在此基础上完成差分隐私保护下的初始聚类中心选取和并行聚类过程。理论分析证明整个算法满足ε-差分隐私保护,实验结果说明该算法在隐私保护的有效性,聚类结果的可用性以及执行效率等方面取得了很好的平衡,相比于同类算法有较优的表现。  相似文献   

7.
基于关联度函数的决策树分类算法   总被引:10,自引:0,他引:10  
韩松来  张辉  周华平 《计算机应用》2005,25(11):2655-2657
为了克服决策树算法中普遍存在的多值偏向问题,提出了一种新的基于关联度函数的决策树算法--AF算法,并从理论上分析了它克服多值偏向的原理。通过实验发现,与ID3算法比较,AF算法不仅克服了多值偏向问题,而且保持了较高的分类正确率。  相似文献   

8.
决策树算法的一种改进算法   总被引:2,自引:0,他引:2  
决策树是归纳学习和数据挖掘的重要方法,主要用于分类和预测.ID3算法是决策树中应用最广泛的算法,通过对数据挖掘中决策树的基本思想进行阐述,讨论了ID3算法倾向于取值较多属性的缺点,引入无关度对ID3算法作了改进.实验数据结果分析表明,改进后的算法能得到更合理、更有效的规则.  相似文献   

9.
不确定数据的决策树分类算法   总被引:5,自引:0,他引:5  
李芳  李一媛  王冲 《计算机应用》2009,29(11):3092-3095
经典决策树算法不能处理树构建和分类过程中的不确定数据。针对这一局限,将可用于不确定数据表达的证据理论与决策树分类算法相结合,把决策树分类技术扩展到含有不确定数据的环境中。为避免在决策树构建过程中出现组合爆炸问题,引入新的测量算子和聚集算子,提出了D-S证据理论决策树分类算法。实验结果表明,D-S证据理论决策树分类算法能有效地对不确定数据进行分类,有较好的分类准确度,并能有效避免组合爆炸。  相似文献   

10.
针对攻击者利用生成式对抗网络技术(GAN)还原出训练集中的数据,泄露用户隐私信息的问题,提出了一种差分隐私保护梯度惩罚Wasserstein生成对抗网络(WGAN-GP)的方法.该方法在深度学习训练过程中对梯度添加精确计算后的高斯噪声,并使用梯度惩罚进行梯度修正,实现差分隐私保护.利用梯度惩罚Wasser-stein生成对抗网络与原始数据相似的数据.实验结果表明,在保证数据可用性的前提下,该方法可以有效保护数据的隐私信息,且生成数据具有较好的质量.  相似文献   

11.
针对传统的聚类算法存在隐私泄露的风险,提出一种基于差分隐私保护的谱聚类算法。该算法基于差分隐私模型,利用累计分布函数生成满足拉普拉斯分布的随机噪声,将该噪声添加到经过谱聚类算法计算的样本相似度的函数中,干扰样本个体之间的权重值,实现样本个体间的信息隐藏以达到隐私保护的目的。通过UCI数据集上的仿真实验,表明该算法能够在一定的信息损失度范围内实现有效的数据聚类,也可以对聚类数据进行保护。  相似文献   

12.
13.
阐述了饰品企业营销的现状,提出了将数据挖掘技术应用到饰品营销中的方案.在分析决策树算法的基础上,介绍了决策树算法及决策树的构造,并使用该算法对企业客户进行分类及对新客户类型预测,实现对商业数据中隐藏信息的挖掘,且对该挖掘模型进行了验证.  相似文献   

14.
基于决策分类熵的决策树构造算法及应用   总被引:1,自引:0,他引:1  
董广  王兴起 《计算机应用》2009,29(11):3103-3106
为了更好地完成金融数据集上的分类挖掘任务,以粗糙集理论为基础提出决策分类熵的概念,进而以属性的决策分类熵为属性分裂度量提出基于决策分类熵的决策树构造算法,并针对过拟合问题提出一种抑制参数来实现树规模的良好控制。实例分析及金融数据集上的实验表明:相比经典的C4.5决策树算法,新算法能够较好地克服其缺点和不足,构建更优的决策树,能够更好地完成分类任务。  相似文献   

15.
决策树算法的系统实现与修剪优化   总被引:6,自引:3,他引:6  
决策树是对分类问题进行深入分析的一种方法,在实际问题中,按算法生成的决策树往往复杂而庞大,令用户难以理解,这就告诉我们在重分类精确性的同时,也要加强对树修剪的研究,以一个决策树算法的程序实现为例,进一步讨论了对树进行修剪优化时可能涉及的问题,目的在于给决策树研究人员提供一个深入和清晰的简化技术视图。  相似文献   

16.
朱骁  杨庚 《计算机应用研究》2022,39(1):236-239+248
为了让不同组织在保护本地敏感数据和降维后发布数据隐私的前提下,联合使用PCA进行降维和数据发布,提出横向联邦PCA差分隐私数据发布算法。引入随机种子联合协商方案,在各站点之间以较少通信代价生成相同随机噪声矩阵。提出本地噪声均分方案,将均分噪声加在本地协方差矩阵上。一方面,保护本地数据隐私;另一方面,减少了噪声添加量,并且达到与中心化差分隐私PCA算法相同的噪声水平。理论分析表明,该算法满足差分隐私,保证了本地数据和发布数据的隐私性,较同类算法噪声添加量降低。实验从隐私性和可用性角度评估该算法,证明该算法与同类算法相比具有更高的可用性。  相似文献   

17.
唐海霞 《计算机应用研究》2020,37(7):1952-1957,1963
差分隐私直方图发布中,隐私预算涉及到噪声添加的强度,直接影响到直方图发布的数据可用性,如何合理地进行隐私预算的分配是直方图发布算法面临的一大挑战。提出了一种自适应的隐私预算分配策略的直方图发布算法APB(adaptive privacy budget allocation),首先通过分析分组前后引入的噪声误差和重构误差,建立了隐私预算分配权重的优化模型,得到最优分配权重和分组大小以及分组个数之间关系;然后基于优化模型和贪心分组的思想,提出了自适应的隐私预算分配策略,可以更好地均衡噪声误差和重构误差,提高发布数据的可用性。实验结果表明,基于自适应的隐私预算分配策略的直方图发布算法可用性高于同类算法。  相似文献   

18.
针对经典聚类方法无法应对任意背景知识下恶意攻击者在海量数据挖掘过程中的恶意攻击问题,结合差分隐私保护机制,提出一种适用于Spark内存计算框架下满足差分隐私保护的聚类算法,并从理论上证明了改进算法满足在Spark并行计算框架下的ε-差分隐私。实验结果表明,改进算法在保证聚类结果可用性前提下,具有良好的隐私保护性和满意的运行效率,在海量数据聚类分析的隐私保护挖掘中,具有很好的应用前景和价值。  相似文献   

19.
随着医学技术的进步和大数据时代的到来,在数据发布时如何对患者就诊记录中的敏感信息进行隐私保护成为当前的研究热点。针对医疗大数据在发布过程中隐私保护问题,提出了基于属性效用值排序法AUR-Tree(attribute utility value ranking-tree)差分隐私数据发布算法。该算法用属性效用值排序法衡量准标识属性对敏感属性的影响程度,以此作为迭代分割的度量依据,采用基于泛化的自顶向下迭代分割分类树技术,通过类等差法合理的分配隐私预算从而实现在医疗数据发布过程中的隐私保护。实验结果表明:该算法在极大地提高了数据的安全性、有效性和可用性的前提下,还保留了后续数据挖掘的价值。  相似文献   

20.
Individual privacy may be compromised during the process of mining for valuable information, and the potential for data mining is hindered by the need to preserve privacy. It is well known that k-means clustering algorithms based on differential privacy require preserving privacy while maintaining the availability of clustering. However, it is difficult to balance both aspects in traditional algorithms. In this paper, an outlier-eliminated differential privacy (OEDP) k-means algorithm is proposed that both preserves privacy and improves clustering efficiency. The proposed approach selects the initial centre points in accordance with the distribution density of data points, and adds Laplacian noise to the original data for privacy preservation. Both a theoretical analysis and comparative experiments were conducted. The theoretical analysis shows that the proposed algorithm satisfies ε-differential privacy. Furthermore, the experimental results show that, compared to other methods, the proposed algorithm effectively preserves data privacy and improves the clustering results in terms of accuracy, stability, and availability.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号