首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
岳根霞  刘金花  刘峰 《计算机仿真》2021,(1):451-454,459
从大数据的基本特点和医疗大数据研究现状出发,分析处理过程中存在的问题,提出在决策树算法下的医疗大数据填补及分类方法.分析医疗数据的关联规则,采用关联分析(Apriori)算法和频繁模式树(Frequent Pattern Growth,FP-Growth)算法挖掘数据.以挖掘数据为基础填补其中的缺失数据,按照医疗数据特...  相似文献   

2.
KNN算法是一种简单、有效且易于实现的分类算法,可用于类域较大的分类。近年来对KNN算法的研究偏向于静态大数据集,不过,在越来越多的情况下要用KNN算法在线实时处理流数据。考虑到流式数据流量大,连续且快速,不易存储和恢复等特性,以及流处理系统Storm对流数据处理具有实时性、可靠性的特点,提出了基于Storm的流数据KNN分类算法,该算法首先对整个样本集进行划分,形成多个片集,然后计算出待分类向量在各片集上的[K]近邻,最后再将所有片集[K]近邻归约得出整体[K]近邻,实现待分类向量的分类。实验结果表明,基于Storm的流数据KNN分类算法能够满足大数据背景下对流数据分类的高吞吐量、可扩展性、实时性和准确性的要求。  相似文献   

3.
针对蛋白质序列分类的需求,深入研究了蛋白质序列分类算法。对蛋白质序列的特征属性进行了大量的分析和研究,给出了蛋白质序列特征属性的描述形式。在此基础上设计了一种基于加权决策树的蛋白质序列分类算法,详细阐述了加权决策树的构造过程以及决策树的主要参数计算方法,而且根据蛋白质序列的特征,对决策树进行了改进,给出了加权决策树的实现方法。测试结果表明:设计的蛋白质序列分类算法具有较高的分类精度和较快的执行速度。  相似文献   

4.
随着云计算、物联网等技术的兴起,流数据作为一种新型的大数据形态广泛存在于电信、互联网、金融等领域.与传统静态数据相比,大数据环境下的流数据具有快速、连续和随时间变化等特点.同时数据流的隐含分布变化会带来概念漂移问题.为了适应大数据环境下流数据分类算法的要求,必须对传统的静态离线数据分类算法进行改进,提出基于分布式计算平台Storm的P-HT并行化算法.算法在满足Storm流处理平台要求基础上,通过滑动窗口机制、替代子树机制和并行化处理,提高了算法的灵活性和通用性,并且能良好地适应数据流的概念漂移.最后通过实验验证该算法的有效性和高效性,结果表明在与传统C4.5算法相比精度没有降低的情况下,改进的P-HT算法具有更大的吞吐量和更快的处理速度.  相似文献   

5.
面向流数据分类的在线学习综述   总被引:1,自引:0,他引:1  
翟婷婷  高阳  朱俊武 《软件学报》2020,31(4):912-931
流数据分类旨在从连续不断到达的流式数据中增量学习一个从输入变量到类标变量的映射函数,以便对随时到达的测试数据进行准确分类.在线学习范式作为一种增量式的机器学习技术,是流数据分类的有效工具.主要从在线学习的角度对流数据分类算法的研究现状进行综述.具体地,首先介绍在线学习的基本框架和性能评估方法,然后着重介绍在线学习算法在一般流数据上的工作现状,在高维流数据上解决"维度诅咒"问题的工作现状,以及在演化流数据上处理"概念漂移"问题的工作现状,最后讨论高维和演化流数据分类未来仍然存在的挑战和亟待研究的方向.  相似文献   

6.
在图像标注、疾病诊断等实际分类任务中,数据标记空间的类别通常存在着层次化结构关系,且伴随着特征的高维性.许多层次特征选择算法因不同的实际任务需求而提出,但这些已有的特征选择算法忽略了特征空间的未知性和不确定性.针对上述问题,提出一种基于ReliefF的面向层次分类学习的在线流特征选择算法OH_ReliefF.首先将类别...  相似文献   

7.
大数据分类挖掘过程中所涉及的数据量较大,导致大数据挖掘结果的查全率、查准率以及分类正确率下降。为解决以上问题,设计了基于云计算的大数据分类挖掘算法。利用云计算技术设计大数据采集架构,在此基础上,利用改进随机森林算法分类处理采集的大数据,通过并行化聚类算法聚类数据,实现大数据分类挖掘。实验结果表明,本文算法的查全率与查准率、分类正确率较高,实际应用效果好。  相似文献   

8.
李雪婵 《计算机科学》2008,35(6):299-300
本文对目前比较优秀的各种分类方法进行了介绍、分析和比较.在此基础上,借鉴决策树方法的快速分类特性,提出了一种基于数据库抽样的海量数据分类算法,给出了算法的设计思想和实现原理,并对多处理环境下的优化进行了探讨.实验研究表明,该算法可以明显提高海量数据库的分类效率.  相似文献   

9.
基于流数据的模糊聚类算法   总被引:1,自引:0,他引:1  
对流数据进行有效聚类是一个吸引研究者很大注意力的问题.传统的聚类挖掘算法只能适用于纯数值属性数据或纯分类属性数据,很难适用于混合属性的数据.针对混合属性数据的特点,在借鉴AcluStream算法的基础上,提出了一种模糊聚类算法.算法对流数据的相异度分类度量,定量属性使用欧氏距离和曼哈坦距离度量,定性属性可以采用hamming距离度量.模糊聚类算法的主要步骤有两步:第一步,运用最小距离聚类算法进行聚类,构成一个初始类.第二步,对基于最小距离聚类算法进行聚类所得到的初始簇,运用密度聚类方法进行聚合或分割,使得聚类集合稳定.实践证明:该算法是快速地有效的.  相似文献   

10.
一种新的基于遗传算法的数据分类方法   总被引:5,自引:0,他引:5  
当前分类算法还存在诸如伸缩性不强、可调性差、缺乏全局优化能力等问题.通过构造完全分类规则集,设计了一种有效的遗传编码方法,使得遗传算法的各种优良特性在数据分类中得到充分的运用,从而提出了一种新的数据分类算法,新算法有效提高了数据分类的准确性,较好克服了当前存在的缺点.最后,给出了实验结果,证实了算法的有效性.  相似文献   

11.
针对当前分类算法还存在的诸如伸缩性不强、可调性差、缺乏全局优化能力等问题,该文提出了一种有效的用于数据挖掘分类任务的方法——基于决策树的协同进化分类算法。实验结果表明该方法获得了更高的预测准确率,产生了更小的规则集。  相似文献   

12.
针对当前分类算法还存在的诸如伸缩性不强、可调性差、缺乏全局优化能力等问题,该文提出了一种有效的用于数据挖掘分类任务的方法--基于决策树的协同进化分类算法.实验结果表明该方法获得了更高的预测准确率,产生了更小的规则集.  相似文献   

13.
分类决策树的归纳是一种重要的数据挖掘算法。本文重点介绍了两种基于并行算法的分类决策树的构造算法,并对它们的适用性及特点作了分析。  相似文献   

14.
Lazy和Eager分类算法的比较研究   总被引:1,自引:1,他引:0  
数据挖掘的两个高层目标是预测和描述,这个过程中分类算法的应用是非常广泛的。分类算法在机器学习领域中可以分为Lazy和Eager两种类型,分别具有不同的算法特点。文章基于实验对这两种类型的分类算法进行了分析,概括出适宜两种类型的环境条件,旨在提出实际应用中进行算法选择的经验性结论。  相似文献   

15.
方书晴 《软件》2012,(6):77-79,82
数据挖掘技术是信息时代的宠儿,而分类和预测是数据分析的两种基本形式,能预测未知数据的趋势。本文主要介绍了何为数据的分类和预测,并且通过判定树归纳细化了数据分类的划分步骤;通过介绍线性回归、多元回归以及非线性回归等预测方法加深了对数据预测的认识;并介绍了分类法准确率评估方法以及分类和预测的异同点。  相似文献   

16.
基于Rough Set的加权朴素贝叶斯分类算法   总被引:8,自引:1,他引:8  
朴素贝叶斯算法是一种简单而高效的分类算法,但其条件独立性假设并不符合客观实际,这在某种程度上影响了它的分类性能。加权朴素贝叶斯是对它的一种扩展。基于Rough Set的属性重要性理论,提出了基于Rough Set的加权朴素贝叶斯分类方法,并分别从代数观、信息观及综合代数观和信息观的角度给出了属性权值的求解方法。通过在UCI数据集上的仿真实验,验证了该方法的有效性。  相似文献   

17.
摘 要: 通过分析集值属性的标签共现频率,可以挖掘频繁模式以及进行异常的检测。为了提高标签共现计算的性能,本文提出了一种流数据环境下基于k集合覆盖的分布式标签共现算法。采用多集合的容斥原理对标签共现问题进行了分析,并提出了一种分布式标签共现计算流程。通过引入信息检索中的倒排索引对标签及其出处进行索引,基于k集合覆盖的思想将整个倒排索引划分到多个分布式从节点上,并根据流数据的变化动态地更新每个从节点的局部索引,在对所有从节点的结果进行汇聚后得到最终结果。实验表明,本文提出的基于k集合覆盖的分布式标签共现算法与其它算法相比较,不仅具有较低的平均更新时间,而且使用更少的索引副本,因而更适用于大规模流数据的标签共现计算。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号