首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 30 毫秒
1.
研究了非监督学习Nave Bayes分类的原理和方法,并将其应用到文本数据——网络安全审计数据的分析中。为了提高分类准确率,根据分类的效果对数据的属性集进行选择,使用能提高分类准确性的属性作为分类的依据。对KDDCUP99数据集进行了基于不同属性集的实验,发现了与分类结果相关的属性,分类效果良好。  相似文献   

2.
研究了非监督学习Na(i)ve Bayes分类的原理和方法,并将其应用到文本数据--网络安全审计数据的分析中.为了提高分类准确率,根据分类的效果对数据的属性集进行选择,使用能提高分类准确性的属性作为分类的依据.对KDD CUP99数据集进行了基于不同属性集的实验,发现了与分类结果相关的属性,分类效果良好.  相似文献   

3.
朴素贝叶斯由于条件独立性假设使其分类效果不明显,同时在处理海量数据时缺乏灵活性。针对以上情况,提出一种基于动态约简的增量贝叶斯分类算法。算法首先利用(F-λ)广义动态约简计算出数据集的核属性,然后根据训练集的先验信息构造分类器对测试实例进行分类,最后利用类置信度进行选择性增量学习,增强处理增量数据的能力。实验结果表明,该算法在处理属性少的小量数据时,分类效果有一定的改善,在处理多属性大量数据时,分类效果明显提高。  相似文献   

4.
针对传统数据分类属性模型中存在的较为复杂且大数据分类效率低等问题,基于云计算环境,提出利用深度属性加权贝叶斯(deep attribute weighting Bayesian,AWB)算法结合改进差别信息树(differential information tree,DIT)的大数据高效分类方法.利用AWB算法构建大数据训练集的模糊知识库,提高大数据分类精度;采用改进DIT进行模糊粗糙集属性约简,以并行方式利用映射函数对信息进行分区,将洗牌算法融入模糊分类器的设计中,提高大数据分类效率;利用CloudSim仿真器在大型网络数据集对所提方法的性能进行实验论证.实验结果表明,所提方法提高了分类准确度,降低了计算时间,提高了计算效率.  相似文献   

5.
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。提出一种新的算法,该算法为避免数据预处理时,训练集的噪声及数据规模使属性约简的效果不太理想,并进而影响分类效果,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的贝叶斯分类器,进而采用遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的分类精度。  相似文献   

6.
针对目前大多数分类器简单抛弃缺失数据的问题,基于朴素信念分类提出了一种有缺失值实例的加权保守推理规则的分类算法.以数据集特征属性与决策属性之间的相关系数作为权值,根据有缺失值实例加权保守推理规则对有非随机缺失属性的待分类实例所有可能的类别进行选择.实验结果表明,提出的基于有缺失值实例的加权保守推理规则分类算法有效地提高了分类性能,是一种有效的缺失数据集分类算法.  相似文献   

7.
如何对生产环境中经代码混淆的结构化数据集的敏感属性(字段)进行自动化识别、分类分级,已成为对结构化数据隐私保护的瓶颈。提出一种面向结构化数据集的敏感属性自动化识别与分级算法,利用信息熵定义了属性敏感度,通过对敏感度聚类和属性间关联规则挖掘,将任意结构化数据集的敏感属性进行识别和敏感度量化;通过对敏感属性簇中属性间的互信息相关性和关联规则分析,对敏感属性进行分组并量化其平均敏感度,实现敏感属性的分类分级。实验表明,该算法可识别、分类、分级任意结构化数据集的敏感属性,效率和精确率更高;对比分析表明,该算法可同时实现敏感属性的识别与分级,无须预知属性特征、敏感特征字典,兼顾了属性间的相关性和关联关系。  相似文献   

8.
基于遗传算法的朴素贝叶斯分类   总被引:1,自引:0,他引:1  
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。提出一种新的算法,该算法为避免数据预处理时,训练集的噪声及数据规模使属性约简的效果不太理想,并进而影响分类效果,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的贝叶斯分类器,进而采用遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的分类精度。  相似文献   

9.
研究了利用Bayes定理发现分类规则的方法,用Bayes定理可以发现分类规则,然后用分类规则进行数据分类。结合实例针对概念性数据集及包含数值性属性和概念性属性的数据集两种情况进行讨论。通过实例说明Bayes定理是数据挖掘中一种有效的数据分类方法。  相似文献   

10.
模糊聚类分析是一种重要的分类方法。传统模糊聚类分析法着眼于全体属性,在对多属性数据集分类方面具有明显优势,对基于特定、重要属性的分类时显得不足。本文对传统方法进行改进,提出了一种基于特征属性分类的模糊聚类方法,利用特征属性进行分类,产生了较好的分类效果,展示了一个成用实例。改进的方法人人提高了特定分类问题的应用价值。  相似文献   

11.
一种基于权重属性熵的分类匿名算法   总被引:2,自引:0,他引:2  
为了在高效地保护数据隐私不被泄露的同时保证数据效用,提出了一种基于权重属性熵的分类匿名方法(Weight-properties Entropy for Classification Anonymous,WECA)。该方法在数据分类挖掘的特定应用背景下,通过信息熵的概念来计算数据集中不同准标识符属性对敏感属性的分类重要程度,选取分类权重属性熵比率最高的准标识符属性对分类树进行有利的划分,同时构建了分类匿名信息损失度量,在更好地保护隐私数据的前提下确保了数据分类效用。最后,在标准数据集上的实验结果表明,该算法在保证较少的匿名损失的同时具有较高的分类精度,提高了数据可用性。  相似文献   

12.
赵蕊  李宏 《计算机工程》2007,33(13):87-89
提出了一种多值属性和多类标数据的决策树算法(SSC),在MMC算法中,对用孩子结点的类标集相似度来评定结点属性分类效果的计算方法进行了改进,综合考虑集合的同一性和一致性,提出了相似度评定方法,使类标集相似度的计算更加全面和准确。实验证明该算法的分类效果优于MMC算法。  相似文献   

13.
为提高多分类器系统的分类精度,提出了一种基于粗糙集属性约简的分类器集成方法 MCS_ARS。该方法利用粗糙集属性约简和数据子集划分方法获得若干个特征约简子集和数据子集,并据此训练基分类器;然后利用分类结果相似性得到验证集的若干个预测类别;最后利用多数投票法得到验证集的最终类别。利用UCI标准数据集对方法 MCS_ARS的性能进行测试。实验结果表明,相较于经典的集成方法,方法 MCS_ARS可以获得更高的分类准确率和稳定性。  相似文献   

14.
属性选择通常作为一个主要的预处理步骤,在机器学习和数据挖掘领域有着广泛的应用。选择出能够表征数据集分形特征的属性子集,对研究数据集的分形规律具有重要的价值。根据数据集的分形特征,引入了密度分析方法,指出了当前基于分形维数的属性选择方法的不足,提出了一种基于分形和邻接空间密度变化的属性选择方法。为了分析实验结果的有效性,利用SVM分类算法和K-fold交叉验证相结合的方法对3个数据集属性选择前后的分类性能进行了测试。实验证明该方法在属性选择方面有较好的性能,能够得到较优的属性子集。  相似文献   

15.
吴涛  张方方 《计算机应用》2011,31(5):1318-1320
多侧面覆盖算法对海量高维数据的分类采用分而治之的思想,依据分量差的绝对值和,选取部分属性构建不同样本子集的覆盖,降低了学习的复杂度,但初始属性集的选择依据经验或实验获得。为降低初始属性集选择的主观性和属性集调整的复杂性,利用Relief特征选择方法确定适合不同数据集的最优特征子集,构建了分层递阶的覆盖网络,并对实际数据集进行实验。实验结果表明,该算法具有较高的精度和效率,可以有效地实现复杂问题的分类。  相似文献   

16.
周亮  晏立 《计算机应用研究》2010,27(8):2899-2901
为了克服现有决策树分类算法在大数据集上的有效性和可伸缩性的局限,提出一种新的基于粗糙集理论的决策树算法。首先提出基于代表性实例的原型抽象方法,该方法从原始数据集中抽取代表性实例组成抽象原型,可缩减实例数目和无关属性,从而使算法可以处理大数据集;然后提出属性分类价值量概念,并作为选择属性的启发式测度,该测度描述了属性对分类的贡献价值量的多少,侧重考虑了属性之间以及实例与分类之间的关系。实验表明,新算法比其他算法生成的决策树规模要小,准确率也有显著提高,在大数据集上尤为明显。  相似文献   

17.
为解决高维数据在分类时造成的“维数灾难”问题,提出一种新的将核函数与稀疏学习相结合的属性选择算法。具体地,首先将每一维属性利用核函数映射到核空间,在此高维核空间上执行线性属性选择,从而实现低维空间上的非线性属性选择;其次,对映射到核空间上的属性进行稀疏重构,得到原始数据集的一种稀疏表达方式;接着利用L 1范数构建属性评分选择机制,选出最优属性子集;最后,将属性选择后的数据用于分类实验。在公开数据集上的实验结果表明,该算法能够较好地实现属性选择,与对比算法相比分类准确率提高了约3%。  相似文献   

18.
.连续属性离散化算法比较研究*   总被引:2,自引:0,他引:2  
探讨了贪心及其改进算法、基于属性重要性、基于信息熵和基于聚类四类连续属性离散化算法,并通过实验验证这四类算法的离散化效果.实验结果表明,数据集离散化的效果不仅取决于使用算法,而且与数据集连续属性的分布和决策数据值的分类也有密切关系.  相似文献   

19.
使用用户所提供的博客特征信息,及广告点击反馈记录,形成训练集数据,运用改进的决策树算法生成的分类规则,进行数据挖掘分析,判断对特定用户和同一类型广告可能的投放效果,为广告投放提供可靠的依据。同时针对广告匹配的特点,对ID3决策树中偏向于多值属性进行改进,转换多值属性化为二值或三值属性,在数据预处理方面,提出了适合连续数据离散化的方法。从反馈的点击数据得到验证,此方法对提高广告的有效点击次数有明显的效果。  相似文献   

20.
高维数据多级模糊模式识别的分类研究*   总被引:1,自引:0,他引:1  
通过分析对象属性间的关系,提出了一种基于改进的多级模糊模式识别的分类方法。该方法重点考虑对象属性间影响较大的因素,以此建立影响对象分类的属性之间的简化关系,使分类结果更加合理;针对分类标准为对象属性分类的离散值,存在对象属性值介于中间状态不便分类问题,通过建立属性值所属级别的矩阵来确定属性权重,使分类精确;利用Rough集的特征属性约简算法降低数据集的维数,提高高维数据的分类效率。经实例证明该方法分类准确、效率高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号