首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
已有的随机化回答模型调控的数据范围宽、粒度粗,对隐私数据的保护粒度缺乏灵活性,无法实现精细化、个性化、差异化的隐私保护。提出三类多参数随机化回答模型,包括行多参、复合多参、分组多参共11种随机化回答模型,给出了模型的分类框架和分类层次。细粒度多参数随机化模型可实现精细化、个性化、差异化的隐私保护效果。  相似文献   

2.
基于局部加权朴素贝叶斯算法和处理混合型属性距离度量方法的研究,针对局部加权算法中存在的一些问题,将两种相似性距离度量方法运用于局部加权朴素贝叶斯方法,构造出VDMLWL和IVDMLWL两种算法。通过在WEKA中的实验将这两种算法的分类结果进行分析与比较,发现改进的局部加权朴素贝叶斯的距离函数,能更精确地对不同类型属性数据进行分类,有效提高了局部加权朴素贝叶斯算法分类的效率和可靠性。  相似文献   

3.
基于随机化的数据扰乱及重构技术是数据挖掘中的隐私保护(Privacy-Preserving Data Mining,PPDM)领域中最重要的方法之一.但是,随机化难以消除由于属性变量本身相关性引起的数据泄漏.介绍了一种利用主成分分析(Principal Component Analysis,PCA)进行属性精简的增强随机化方法,降低了参与数据挖掘的属性数据间相关性,更好地保护了隐私数据.  相似文献   

4.
为有效降低隐私数据库中数据泄露的可能性,进一步提高数据安全性,本文设计一种基于分支混淆算法的隐私数据库自适应加密方法。在收集应用程序对数据库的请求内容的基础上,利用分支混淆算法对隐私数据库内数据的特征进行分类,并选取朴素贝叶斯分类器对数据库内混淆点实施分类,从而确定数据库中数据的字段类型,基于此,针对不同字段类型数据选取相应加密算法。其中,数值类型数据采用保序加密算法,等值比较类型数据采用等值加密算法,文本类型数据采用分词辅助索引加密算法。在加密数值型、时间类型、字符型字段的同时,保留偏序特性和可检索特性。实验结果表明提出的方法可实现对隐私数据库内不同字段类型数据的有效加密,且加密所需的时间开销较小,安全性高。  相似文献   

5.
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。  相似文献   

6.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。  相似文献   

7.
云外包为大规模数据上的机器学习任务提供有力支撑的同时也带来了数据隐私泄漏的风险.本文旨在通过加密保护外包数据隐私并在加密数据上高效实现安全朴素贝叶斯训练和分类.现有安全朴素贝叶斯方案大多考虑的是外包训练好的贝叶斯模型以及预测阶段的计算任务.虽有少量工作考虑了同时在外包数据上完成朴素贝叶斯模型训练和分类,但这些工作在安全性和效率方面存在不足.本文结合somewhat同态加密算法、SIMD (single-instruction multiple data)技术和混淆电路提出了一个新的加密数据安全朴素贝叶斯训练和分类方案.本文在不影响正确性的前提下对朴素贝叶斯算法进行转换,设计了相应的明文编码方式避免计算过程出现数据溢出,并提出了新的交互协议在外包加密数据上安全批量地实现了朴素贝叶斯模型训练和分类所需的运算.提出的方案在保护外包数据集、朴素贝叶斯模型、待分类样本和分类结果的隐私的同时有效降低了计算和通信开销.本文在半诚实模型下证明了提出方案的安全性,并且通过实验验证了提出方案的有效性.  相似文献   

8.
差分隐私保护模型中,非交互式数据发布是一个研究的热点.提出了一个基于朴素贝叶斯的差分隐私合成数据集发布算法.该算法首先采用朴素贝叶斯的条件独立假设来计算原数据集的联合分布,然后采用指数机制生成发布的数据集.仿真实验表明,随着隐私预算的增加,使用合成数据集训练得到的分类器在测试数据集时分类正确率逐渐提高,并且趋于稳定.  相似文献   

9.
针对朴素贝叶斯分类算法的特点,提出一种改进的特征选择方法。现代大规模数据分类在单机计算机上训练和测试时间过长,对此,在hadoop分布式平台下设计并实现了基于朴素贝叶斯的数据分类算法。实验结果表明,改进的算法能有效提高分类的正确率,所设计的并行朴素贝叶斯数据分类算法具有较高的执行效率,适用于海量数据的处理与分析。  相似文献   

10.
针对传统时间序列分类方法需要较为繁琐的特征抽取工作以及在只有少量标记数据时分类效果不佳的问题,通过分析BP神经网络和朴素贝叶斯分类器的特点,提出一种基于BP和朴素贝叶斯的时间序列分类模型。利用了BP神经网络非线性映射能力和朴素贝叶斯分类器在少量标记数据下的分类能力,将BP神经网络抽取到的特征输入到朴素贝叶斯分类器中,可以较为有效的解决传统时间序列分类算法的问题。实验结果表明,该模型在标记数据较少的情况下的时间序列分类中具有较高的分类准确度。  相似文献   

11.
一种有效的隐私保护关联规则挖掘方法   总被引:23,自引:3,他引:23  
隐私保护是当前数据挖掘领域中一个十分重要的研究问题,其目标是要在不精确访问真实原始数据的条件下,得到准确的模型和分析结果.为了提高对隐私数据的保护程度和挖掘结果的准确性,提出一种有效的隐私保护关联规则挖掘方法.首先将数据干扰和查询限制这两种隐私保护的基本策略相结合,提出了一种新的数据随机处理方法,即部分隐藏的随机化回答(randomized response with partial hiding,简称RRPH)方法,以对原始数据进行变换和隐藏.然后以此为基础,针对经过RRPH方法处理后的数据,给出了一种简单而又高效的频繁项集生成算法,进而实现了隐私保护的关联规则挖掘.理论分析和实验结果均表明,基于RRPH的隐私保护关联规则挖掘方法具有很好的隐私性、准确性、高效性和适用性.  相似文献   

12.
针对垂直分布的数据,给出一种基于隐私保护的朴素贝叶斯分类协议。该协议利用同态加密、门限密码及数字信封技术,实现数据垂直分布时的数据分类,并保证不向其他方泄露任何与结果有关的信息。理论分析表明,该协议在满足安全性的同时具有较低的通信与计算复杂度。  相似文献   

13.
Extended Naive Bayes classifier for mixed data   总被引:2,自引:0,他引:2  
Naive Bayes induction algorithm is very popular in classification field. Traditional method for dealing with numeric data is to discrete numeric attributes data into symbols. The difference of distinct discredited criteria has significant effect on performance. Moreover, several researches had recently employed the normal distribution to handle numeric data, but using only one value to estimate the population easily leads to the incorrect estimation. Therefore, the research for classification of mixed data using Naive Bayes classifiers is not very successful. In this paper, we propose a classification method, Extended Naive Bayes (ENB), which is capable for handling mixed data. The experimental results have demonstrated the efficiency of our algorithm in comparison with other classification algorithms ex. CART, DT and MLP’s.  相似文献   

14.
针对基于随机响应的隐私保护分类挖掘算法仅适用于原始数据属性值是二元的问题,设计了一种适用于多属性值原始数据的隐私保护分类挖掘算法。算法分为两个部分:a)通过比较参数设定值和随机产生数之间的大小,决定是否改变原始数据的顺序,以实现对原始数据进行变换,从而起到保护数据隐私性的目的;b)通过求解信息增益比例的概率估计值,在伪装后的数据上构造决策树。  相似文献   

15.
一种限定性的双层贝叶斯分类模型   总被引:28,自引:1,他引:28  
朴素贝叶斯分类模型是一种简单而有效的分类方法,但它的属性独立性假设使其无法表达属性变量间存在的依赖关系,影响了它的分类性能.通过分析贝叶斯分类模型的分类原则以及贝叶斯定理的变异形式,提出了一种基于贝叶斯定理的新的分类模型DLBAN(double-level Bayesian network augmented naive Bayes).该模型通过选择关键属性建立属性之间的依赖关系.将该分类方法与朴素贝叶斯分类器和TAN(tree augmented naive Bayes)分类器进行实验比较.实验结果表明,在大多数数据集上,DLBAN分类方法具有较高的分类正确率.  相似文献   

16.
文本分类是信息检索和文本挖掘的重要基础,朴素贝叶斯是一种简单而高效的分类算法,可以应用于文本分类.但是其属性独立性和属性重要性相等的假设并不符合客观实际,这也影响了它的分类效果.如何克服这种假设,进一步提高其分类效果是朴素贝叶斯文本分类算法的一个难题.根据文本分类的特点,基于文本互信息的相关理论,提出了基于互信息的特征项加权朴素贝叶斯文本分类方法,该方法使用互信息对不同类别中的特征项进行分别赋权,部分消除了假设对分类效果的影响.通过在UCIKDD数据集上的仿真实验,验证了该方法的有效性.  相似文献   

17.
The Naive Bayes classifier is a popular classification technique for data mining and machine learning. It has been shown to be very effective on a variety of data classification problems. However, the strong assumption that all attributes are conditionally independent given the class is often violated in real-world applications. Numerous methods have been proposed in order to improve the performance of the Naive Bayes classifier by alleviating the attribute independence assumption. However, violation of the independence assumption can increase the expected error. Another alternative is assigning the weights for attributes. In this paper, we propose a novel attribute weighted Naive Bayes classifier by considering weights to the conditional probabilities. An objective function is modeled and taken into account, which is based on the structure of the Naive Bayes classifier and the attribute weights. The optimal weights are determined by a local optimization method using the quasisecant method. In the proposed approach, the Naive Bayes classifier is taken as a starting point. We report the results of numerical experiments on several real-world data sets in binary classification, which show the efficiency of the proposed method.  相似文献   

18.
Naive Bayes is one of the most widely used algorithms in classification problems because of its simplicity, effectiveness, and robustness. It is suitable for many learning scenarios, such as image classification, fraud detection, web mining, and text classification. Naive Bayes is a probabilistic approach based on assumptions that features are independent of each other and that their weights are equally important. However, in practice, features may be interrelated. In that case, such assumptions may cause a dramatic decrease in performance. In this study, by following preprocessing steps, a Feature Dependent Naive Bayes (FDNB) classification method is proposed. Features are included for calculation as pairs to create dependence between one another. This method was applied to the software defect prediction problem and experiments were carried out using widely recognized NASA PROMISE data sets. The obtained results show that this new method is more successful than the standard Naive Bayes approach and that it has a competitive performance with other feature-weighting techniques. A further aim of this study is to demonstrate that to be reliable, a learning model must be constructed by using only training data, as otherwise misleading results arise from the use of the entire data set.  相似文献   

19.
操作风险数据积累比较困难,而且往往不完整,朴素贝叶斯分类器是目前进行小样本分类最优秀的分类器之一,适合于操作风险等级预测。在对具有完整数据朴素贝叶斯分类器学习和分类的基础上,提出了基于星形结构和Gibbs sampling的具有丢失数据朴素贝叶斯分类器学习方法,能够避免目前常用的处理丢失数据方法所带来的局部最优、信息丢失和冗余等方面的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号