首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
当前空调系统运行数据预处理方面的研究相对较少。分析了空调系统运行数据质量问题,论述了空调系统运行数据噪声识别与清洗的重要性。阐明了机器学习中K-Means聚类算法的模型实现,分析了基于K-Means聚类算法对运行数据进行数据噪声识别的方法;在噪声数据识别的基础上,构建了空调系统运行数据的数据噪声清洗技术。利用实际的空调系统数据进行算法的具体应用,以空调系统的180组实际运行数据为样本,应用K-Means聚类算法进行数据判别,识别出180组数据中存在的噪声数据,并进行了噪声数据的数据清洗,对每一步的噪声数据处理进行详细的说明。研究结果表明,基于K-Means聚类算法,可以有效识别和清洗空调系统运行数据中的异常值和噪声值,为后续的数据挖掘工作奠定良好的数据基础。  相似文献   

2.
本文分析总结了建筑能耗监测大数据的特点,基于数据挖掘理论和机器学习算法,提出了建筑能耗监测大数据预处理体系与方法。阐明了基于k NN算法的缺失数据填充、基于K-Means算法的异常数据识别与清洗、基于PCA算法的多维度数据降维的原理,应用提出的数据预处理体系和方法,对实际项目的整个制冷季节35 380组数据进行了数据预处理,实现了缺失数据的填充、异常数据的识别与清洗、数据的降维,为后续的数据挖掘应用奠定数据基础。  相似文献   

3.
《Planning》2014,(3)
传统的K-means算法要求事先给出聚类数k值,从而导致聚类质量的下降。本文提出一种基于聚类有效性函数IG的K-means算法,该函数定义为数据特征轴总长度的平方与最小类间距的比值,当比值达到最小时对应的值为最佳聚类数k。而且,与其它有效性函数比较,IG能高效处理簇密度不同的数据集。实验证明,改进算法提高了聚类质量。  相似文献   

4.
《Planning》2015,(2)
针对利用距离差聚类分析算法分析学生学科成绩不够准确的问题,提出了利用标准差计算标准偏移量构建目标函数的K-means聚类分析算法,给出了初始聚类中心选取办法和算法的描述及处理流程;实验结果分析可得,利用标准偏移量构建的学生成绩K-means聚类分析算法,符合对学生成绩按学科类别聚类分析的特性要求;该算法能够较好的实现学科成绩高度关联属性的聚类分析结果。  相似文献   

5.
《Planning》2016,(14)
为解决传统K-means算法在处理海量数据时存在的不足,提出了1种适用于并行Canopy-Kmeans算法的迭代式MapReduce模型。通过Canopy算法对数据进行初始聚类,得到初始聚类中心,并按照初始聚类将数据存储于Mapper节点,减少Mapper和Reducer节点之间通信线路,减小运算量;在Mapper节点和Reducer节点之间建立互通信,将聚类中心作为迭代流通信息,减少信息流量;最终通过1次运算过程输出最终聚类结果。实验结果证明,改进的算法在时间、正确率和加速比性能方面,均优于传统的串行K-means算法,并在基于传统MapReduce模型的K-means算法基础上有所提高。  相似文献   

6.
基于制冷空调行业大数据介绍了数据挖掘的基本过程,重点阐述了制冷空调行业中常用的决策树、支持向量机等有监督学习算法和聚类分析、关联规则分析等无监督学习算法的原理与应用;简要介绍了数据挖掘工具R及数据挖掘技术在制冷空调行业的研究现状。认为大数据可推动制冷空调行业转型发展,利用大数据可最终实现空调产品高度智能化、企业运营数字化、用户体验极致化等。  相似文献   

7.
首先, 在分析了聚类分析及特征的基础上, 给出了k-均值聚类算法的基本思想、算法流程、准则函数及算法步骤等; 其次, 将聚类分析理论和方法引入高层结构智能方案设计, 建立了基于K-Means聚类分析方法的高层结构智能方案设计方法, 并给出了工程应用实例, 及该实例的聚类结果及聚类过程的空间分布图、评价函数与迭代次数及聚类数间的关系曲线。实践表明:k-means聚类分析方法能有效地用于高层结构智能方案设计, 为高层建筑结构智能方案设计开拓了崭新的途径和方法。  相似文献   

8.
《Planning》2019,(11):125-128
通过收集南通市市区公交线路名称和站点名称,在不依赖GPS定位数据的基础上,采用Canopy和K-means聚类算法分析乘客上车时间序列,从而建立乘客上车站点的理论模型,并在Hadoop平台上用MapReduce框架实现算法的并行化。最后,以南通公交IC刷卡记录为例,用Canopy算法和K-means算法对IC卡刷卡记录进行分析。实验表明,在Hadoop平台,用Canopy和K-means算法分析公交IC卡数据运行稳定、可靠,具有很好的聚类效果。  相似文献   

9.
建立供热管网泄漏数据采集系统,以干管某管段出现泄漏为例,采集压力测点(设置5个压力测点,将干管分为4个管段,泄漏点设置在压力测点1与2之间)的压力随测试时间的变化。以测试时间内压力测点的压力作为样本,经数据预处理(数据采集与选取、缺失值处理、噪声清理)后,分别采用样本熵法、基于K-means均值聚类算法的数据挖掘算法对泄漏段进行诊断。样本熵法可提取压力测点信号变化(主要为压力测点的压力变化)的差异性,根据一定规模的样本熵均值,判定泄漏管段的位置。基于K-means均值聚类算法的数据挖掘算法,在小规模样本量的前提下,通过人为扩大样本规模,结合样本熵法与K-means均值聚类算法,经聚类处理、均值处理,确定簇心样本熵及位置,从而判定泄漏段位置。与样本熵法相比,基于K-means均值聚类算法的数据挖掘算法,以较小规模的样本量实现泄漏段的诊断,而且诊断结果更加直观。样本熵法很难由小规模样本量确定泄漏段位置。  相似文献   

10.
近年来供热二次网平衡调控和节能日益成为供热企业关注的焦点。随着热计量器具的大量安装和海量数据的采集,供热企业积累了前所未有的供热末端数据,但是这些数据存在着数据量大、有一定失真度等问题,使得供热企业由于缺乏合适的工具而无法发挥这些数据的作用。基于上述原因,本文提出了一种基于孤立森林的分布式算法,通过对热计量表数据进行分析,对数据进行清洗和筛选,从而正确识别出供暖异常情况。本文将孤立森林算法部署到spark分布式计算平台上,极大地提高了算法的运行速度,并且误报率(FPR)和查全率(TPR)等指标都优于常用的K均值(K-Means)算法和高斯混合模型(GMM)算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号