首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 16 毫秒
1.
由于数据挖掘技术日益广泛地应用于各个领域,而大多数领域中数据都存在缺失值,因此基于缺失数据的数据挖掘方法的研究具有重要意义.利用直接删除、特殊值填充、平均值填充、Robust方法4种处理缺失值的方法建立4个缺失值处理模型以及相应的朴素贝叶斯分类器模型.通过在5个实际数据集上进行实验比较,并采用五重交叉验证来检验这些模型的性能.结果表明,用这些模型处理缺失值构建的朴素贝叶斯分类器是有效的.  相似文献   

2.
一种小规模数据集下的贝叶斯网络学习方法及其应用   总被引:1,自引:1,他引:0  
提出了一种小规模数据集下学习贝叶斯网络的有效算法—FCLBNo FCLBN利用bootstrap方法在给定的小样本数据集上进行重抽样,然后用在抽样后数据集上学到的贝叶斯网络来佑计原数据集上的贝叶斯网络的高置信度的特征,并用这些特征来指导在原数据集上的贝叶斯网络搜索。用标准的数据集验证了FCLBN的有效性,并将FCLBN应用于酵母菌细胞中蛋白质的定位预测。实验结果表明,FCLBN能够在小规模数据集上学到较好的网络模型。  相似文献   

3.
张亚萍  胡学钢 《微机发展》2007,17(11):33-35
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。  相似文献   

4.
对数据发布中传统方法脱敏多元组关系-集值数据可能导致信息泄露以及产生较高信息损失的问题进行研究,提出基于(K,L)-多样性模型的多元组关系-集值数据的脱敏方法PAHI.根据准标识符将多元组数据转换为单元组数据;用信息增益比优化分割方法,实现集值数据K-匿名;引入敏感度值建立集值指纹桶,采用敏感度距离优化剩余元组的处理,...  相似文献   

5.
基于K-means的朴素贝叶斯分类算法的研究   总被引:1,自引:0,他引:1  
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。  相似文献   

6.
张晓博  杨燕  李天瑞  陆凡  彭莉兰 《计算机应用》2020,40(10):3088-3094
针对多发于老龄人群的帕金森病(PD)的早期智能化诊断的问题,提出基于医疗检测文本信息数据的聚类技术来对PD进行分析预测。首先,对原始数据集进行预处理以获取有效特征信息,并通过主成分分析(PCA)方法将原始特征分别降维到8个不同维度的维度空间;然后,应用5个传统的经典聚类模型和3种不同的聚类集成方法分别对8个维度空间的数据进行聚类;最后,采用4个聚类性能指标来预测数据集中的多巴胺异常PD患者、健康体和无多巴胺缺失(SWEDD) PD患者。仿真结果显示,PCA特征维度值取30时,高斯混合模型(GMM)的聚类准确度达到89.12%;PCA特征维度值取70时,谱聚类(SC)的聚类准确度达到61.41%;PCA特征维度值取80时,元聚类算法(MCLA)的聚类准确度达到59.62%。对比实验结果表明,5种经典聚类方法中,PCA的特征维度值小于40时,高斯混合模型聚类效果最佳;3种聚类集成方法中,对于不同的特征维度,MCLA的聚类性能均表现优异,进而为PD的早期智能化辅助诊断提供了技术和理论支撑。  相似文献   

7.
张晓博  杨燕  李天瑞  陆凡  彭莉兰 《计算机应用》2005,40(10):3088-3094
针对多发于老龄人群的帕金森病(PD)的早期智能化诊断的问题,提出基于医疗检测文本信息数据的聚类技术来对PD进行分析预测。首先,对原始数据集进行预处理以获取有效特征信息,并通过主成分分析(PCA)方法将原始特征分别降维到8个不同维度的维度空间;然后,应用5个传统的经典聚类模型和3种不同的聚类集成方法分别对8个维度空间的数据进行聚类;最后,采用4个聚类性能指标来预测数据集中的多巴胺异常PD患者、健康体和无多巴胺缺失(SWEDD) PD患者。仿真结果显示,PCA特征维度值取30时,高斯混合模型(GMM)的聚类准确度达到89.12%;PCA特征维度值取70时,谱聚类(SC)的聚类准确度达到61.41%;PCA特征维度值取80时,元聚类算法(MCLA)的聚类准确度达到59.62%。对比实验结果表明,5种经典聚类方法中,PCA的特征维度值小于40时,高斯混合模型聚类效果最佳;3种聚类集成方法中,对于不同的特征维度,MCLA的聚类性能均表现优异,进而为PD的早期智能化辅助诊断提供了技术和理论支撑。  相似文献   

8.
变结构离散动态贝叶斯网络(SVDDBN)处理不确定性问题更具有一般性,为了克服SVDDBN缺失数据会导致推理结果精度变差的问题,提出了一步预测的SVDDBN缺失数据插补算法。根据信息可以沿着网络的时间轴方向向下一个时间片传播的规律,利用“混合”信息在线进行信度更新,可得到滤波值,再通过进一步预测得到下一个时间片缺失数据节点的后验概率作为插补值。仿真结果表明:提出的算法能有效插补缺失数据,提高SVDDBN推理的精确度及可靠性。  相似文献   

9.
数据缺失是统计调查中经常存在的问题,若是少量缺失则可以利用删除法;若缺失值较多,利用删除法则会丢失大量有用信息,这时候就需利用插补法来补全数据,从而减少对统计分析的影响。根据统计年鉴上近几年的粮食产量、种植规模、有效灌溉面积等系列数据,分别采用贝叶斯多重插值法和刀切多重插值法展开了模拟研究,通过对两种方法所得数据的比对分析,来进一步掌握实际的插值效果。研究发现,利用这两种方法构建的模型都有较好的估计结果,但是贝叶斯多重插补法更为精确,而Jackknife法在操作方面则更为简单。  相似文献   

10.
赵煜  邵必林  边根庆  宋丹 《计算机应用》2015,35(7):1959-1964
针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其次,综合微博特征数据的特点来改进少数类样本合成过采样技术(SMOTE),对原始数据集进行非参数概率分布估计,并根据近似概率分布对数据集进行过采样处理,从而使正反例数据量达到平衡;最后,利用随机森林算法,依据微博转发关键特征进行分类器训练,并利用袋外(OOB)数据误差估计来分析和设置随机森林算法的相关参数。通过与基于决策树(DT)、支持向量机(SVM)、朴素贝叶斯(NB)和随机森林等算法的微博转发预测方法进行对比,所提方法整体性能优于基准方法中性能最优的SVM方法,召回率提高了8%,F值提高了5%。实验结果表明,所提方法在实际应用中能够有效提高微博转发行为预测的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号