首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 531 毫秒
1.
基于实际电厂的大量脱硫数据,删除初始脱硫数据库中异常值和非稳态值,提取与输出相关系数较高的集成学习模型输入参数,采用改进的基于随机采样和聚类采样的集成学习算法,建立预测脱硫塔循环泵开启台数的集成学习模型,研究分类问题中样本不均衡、优选样本评价标准缺失和脱硫优化的问题. 结果显示,与改进前模型相比,改进后的集成学习模型总体预测准确度提升了33%,并且基于聚类的采样略优于随机采样. 此外,对单一类别预测的召回率进行分析,对比不同算法对少数类和多数类的召回率,结果显示2种改进的采样方法对少数类的预测有较大的提升,预测的召回率大于90%,对多数类的预测也有一定的提升效果. 讨论泵组合作为模型输出时,其样本分布和模型精度的差异.  相似文献   

2.
针对现实生活中出现的越来越多的高维海量分类数据,基于属性聚类的方法,提出了一种新的离群数据挖掘算法.该算法首先通过计算属性之间的相关性,将高维分类数据的属性分成多个属性子集,然后在多个属性子集上根据离群得分分别进行离群挖掘,最终选择离群得分最大的k个数据对象作为离群数据.通过采用人工数据集和UCI数据集验证了算法的有效性和可行性,实验结果表明,该算法在精度和效率方面都有提高,可用于高维海量分类数据的离群挖掘.  相似文献   

3.
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.  相似文献   

4.
彩色图像数据库中目标特征数据挖掘方法   总被引:2,自引:0,他引:2  
针对由于彩色图像数据特征较多使得目标特征挖掘容易出现不确定性的问题,提出一种新的彩色图像数据库中目标特征数据挖掘方法.采用减法聚类算法对彩色图像数据进行聚类,采用离群点检测技术对聚类数据进行分类处理,采用量子行为粒子群优化方法选取最优目标图像特征数据,并与结构相似度计算方法相结合,实现对最优目标图像特征数据的挖掘.结果证明,该方法相比传统的挖掘方法,其挖掘召回率降低了约17%,挖掘精确度提高了约28.6%.  相似文献   

5.
将核学习方法的思想和改进的选择C-均值聚类算法相结合,提出了一种改进的模糊核聚类算法,使其能对非超球体、含有噪音和离群点及样本不均衡的数据进行有效的聚类.通过引入高斯核函数,原样本的特征被非线性变换到高维核空间,提高了聚类性能.实验结果表明,该改进算法具有有效性.  相似文献   

6.
在点集配准中,噪声、非刚性形变和误匹配的存在,产生了求解非线性最优空间变换困难的问题。针对这个问题引入局部约束条件,提出了一种采用局部空间聚类和邻域结构特征的点集配准优化算法(PR-SDCLS)。首先,利用点集空间距离矩阵构造运动一致性聚类子集和离群值聚类子集;然后,在运动一致性聚类子集中分别使用高斯混合模型拟合,并引入通过融合形状上下文特征描述子与加权空间距离获得考虑全局和局部特征的混合系数;最后,采用最大期望算法完成参数估计,实现了混合模型的非刚性点集配准模型;为了提高算法效率,模型变换采用再生核希尔伯特空间建模,并使用核近似策略。实验结果表明,该算法在涉及不同类型数据退化(变形、噪声、离群点、遮挡和旋转)的非刚性数据集上,面对大量异常值时具有良好的配准效果和鲁棒性,配准平均误差的均值在经典和先进的算法基础上降低了约42.0538%。  相似文献   

7.
针对现有的基于YOLOv3的目标检测算法在多尺度目标检测上存在速度与精度难以平衡的问题,在已有算法的基础上改进形成新的YOLOv3多尺度目标检测算法. 该算法首先通过k-means++聚类为各个尺度选择候选锚框的数量和长宽比维数,有效降低原始算法在初始聚类点所造成的聚类偏差; 其次将YOLOv3的检测尺度从3扩展到4,以提高对不同尺度下目标检测的精度; 最后为避免梯度衰落,将检测层前的6个卷积层转换为2个残差单元. 在UA-DETRAC数据集上的实验结果表明,该方法比原始YOLOv3的准确率和召回率分别提高了7.91%和4.57%,同时此算法的处理速度可实现对交通视频的实时处理.  相似文献   

8.
针对网络入侵检测数据存在大量冗余信息和传统聚类算法对离群点检测不足的问题,提出一种基于主成分分析(principal component analysis, PCA)和半监督聚类的入侵检测算法。首先使用PCA对数据进行特征提取,消除数据间的冗余属性;然后利用少量已标记样本和成对约束信息,通过引入竞争凝聚让系统主动学习,以实现对大量未知样本的检测。在入侵检测数据集和UCI基准数据集上的实验结果表明,该算法能有效提高系统的性能。  相似文献   

9.
以往建立在模糊C均值(fuzzyC-means, FCM)框架下利用源域虚拟簇中心作为迁移知识的迁移聚类算法容易受到离群点和噪声的干扰,且单个簇中心不足以描述簇结构。针对此问题,提出多代表点自约束的模糊迁移聚类算法,该算法引入样本代表权重机制为簇中每个样本分配代表权重来刻画簇结构,这种机制能更好的刻画簇结构,对离群点和噪声有较好的抑制作用;同时利用源域样本,重构目标域簇结构,并以此作为迁移知识进行目标域样本聚类,相对于利用单中心作为迁移知识来说,整体重构后的目标域簇结构所包含的迁移知识量更为丰富。试验结果表明。在人工数据集和真实数据集上,所提出的聚类算法相比对比算法, NMI和ARI最高提升了0.674 5和0.608 4。说明在迁移环境下,以代表点自约束作为知识迁移规则,所提出的聚类算法具有一定的聚类效果。  相似文献   

10.
支持向量聚类(SVC)是一种重要的基于密度的聚类算法,在现实世界中有很多重要的应用。在没有任何先验知识的情况下,该算法提供了处理任意簇的能力,即任意轮廓和检测类数量的数据集。然而,如果异常值存在于数据中,该算法无法将这些点进行分类,这样会导致有关数据集重要信息的丢失。为了弥补这些缺陷,将粗糙集理论和模糊集理论与支持向量聚类算法相结合得到一种新的改进算法称为粗糙-模糊支持向量聚类算法(Rough-Fuzzy Support Vector Clustering)。即通过使用支持向量作为聚类原型获得粗糙-模糊聚类。该聚类的结构特征有两个主要内容:下近似集和模糊边界。当支持向量集作为一个特殊的聚类,通过元素间的亲密程度,模糊边界的隶属度可以被计算出来。而下近似集包含的样本点建立在SVC算法训练阶段获得的超球体内。在检测异常值和计算任意轮廓的聚类方面,本文所介绍的聚类算法与软聚类算法相比拥有相当程度的优势。  相似文献   

11.
窃电行为检测的主要目的 在于发现窃电用户,降低电力系统运营成本.在此背景下,提出基于改进模糊C均值聚类的窃电行为检测模型,包括因子分析、基于改进模糊C均值聚类的局部离群因子计算、ROC曲线模型评价与调参及最佳检测阈值选取等模块,适用于无大量已知窃电用户样本的情况.首先,通过因子分析对用户用电特征(包括用电负荷数据和电能表异常事件)进行维度规约,提升模型检测效率.再利用遗传模拟退火算法对模糊C均值聚类算法进行改进,对用户用电特征进行检测.最后与现有成熟算法进行比较,验证该模型对窃电行为具有较高的检测准确度.检测模型可输出所有被测用户用电行为离群度得分和窃电概率排序,利用该文检测模型的输出,能够以较高精度检测出窃电行为用户,根据结果进行现场稽查,可提升反窃电工作效率.  相似文献   

12.
对聚类结果的理解有助于评价聚类效果,可以据此调整聚类过程,更高效地使用聚类结果.但是,聚类结果的理解仍然是一个尚未解决的问题.提出了基于离群点识别技术分析任意聚类算法的聚类结果,发现了聚类结果属性特征簇的方法;提出一种基于不相似性比值的离群点识别算法.通过对全部数据簇的属性描述进行离群点分析,发现各数据簇的特征属性,实现对聚类结果的理解.所提方法适用于任意聚类算法结果的分析.对UCI的iris、ZOO和Housing数据集的采用X-means、Frozen和DBScan算法的聚类结果进行聚类结果分析,实验表明所提方法较成功地发现了不同聚类算法的属性特征簇,有助于对聚类结果的深入理解.  相似文献   

13.
由于桥梁裂缝图像具有分布不规则、缝宽较小、背景像素比例较高等特性,为提高其检测精度和速度,提出了一种改进的YOLOv4算法,优化原主干网络CSPDarkNet53为EfficientNet B7网络以增强特征学习能力,并使用深度可分离卷积代替标准卷积,在提升模型运行效率的同时,也提高了其检测精度和准确率.并通过平移、旋转等数据增强方法将数据集正负样本扩增至6 371张,增强了网络的拟合效果和泛化能力.实验结果表明:YOLOv4-EfficientNet B7的均值平均精度(Mean Average Precision,m AP)为80.11%,比YOLOv4的高出3.85%;检测精确率(precision)为80.13%,召回率(recall)由74.34%提升至78.63%,F1值(F1-score)高达80.61%,提高了2.94%;相较于原YOLOv4算法,检测精确率提高了1.86%,召回率增长了4.29%;与其他主流的裂缝检测算法相比,本算法在mAP和召回率上都有了显著提升,实现了精确检测桥梁裂缝的目的.  相似文献   

14.
针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在误差函数的基础上实现对离群点的检测.结果表明:该算法的检测时间始终低于0.4 min,且检测准确率始终保持在90%以上,说明该算法能够快速、准确地检测大规模数据集中的离群点.  相似文献   

15.
一种面向入侵检测的半监督聚类算法   总被引:1,自引:1,他引:0  
为了解决传统的入侵检测聚类算法准确率较低这个问题,结合半监督学习的思想,提出了一种面向入侵检测的半监督聚类算法。首先利用样本数据集中的部分标记数据,生成用于初始化聚类的种子集,通过计算样本数据集中标记点与每个类簇中标记点均值的欧氏距离,得到每类的初始聚类中心,实现了入侵检测数据的准确识别。该算法有效地避免了传统聚类算法中初始聚类中心选择的盲目性和随机性,提高了检测率。实验结果表明,在处理入侵检测数据时,该算法能够充分利用少量类标记信息进行半监督学习,较传统的K-means算法聚类效果更好,检测准确率更高。  相似文献   

16.
传统过采样算法通过合成少数类样本来改善不平衡问题,但未考虑产生噪点与样本分布不均匀等问题,针对该类问题,提出了一种基于聚类与对改进SMOTE的过采样算法SK-SMOTE。该算法在聚类前,先合成一部分少数样本,以此提高少数类样本数量,同时根据合成的少数类样本的邻居样本的类别和距离赋予权重,通过权重总和是否大于设定的值来决定该样本是否可以被保留。在提高少数类样本数量后,再使用KMeans算法进行聚类,然后保留少数样本较多的簇。在簇内进行过采样,相对稀疏的簇将合成更多的少数类样本。选取UCI和KEEL数据库中的不平衡数据集,将SVM、RF、KNN作为分类算法,并选用几种经典的SMOTE算法与SK-SMOTE进行多组对比实验。实验结果表明,SK-SMOTE算法可有效平衡不平衡数据集,且在不平衡比例较高的数据集上取得了比传统过采样算法更好的结果。  相似文献   

17.
针对大数据集中存在海量数据,当数据规模扩大到一定程度时,离散点检测处理效率受到限制的问题,提出了一种基于分类和回归树(CART)决策树的网络大数据集离群点动态检测算法。首先,划分大数据集异常数据标准,利用方差衡量数据离散程度,使用支持向量机建立异常数据样本关联规则矩阵,明确大数据集异常数据范围,并通过动态网格划分策略降低离群点检测计算量;然后,运用CART决策树方法在分支节点采取布尔检测,将待检测数据统一拟作连续数据,升序排列训练数据集,计算数据最高信息增益,剪枝决策树直到没有非叶子节点可被替换,得到离群点动态检测结果。仿真结果证明,本文算法离群点检测准确率高、检测耗时短,具备显著的计算优势,能为大数据集的可靠应用提供积极帮助。  相似文献   

18.
基于微聚集技术的κ-匿名化MDAV算法没有考虑数据属性的分布情况和数据属性重要性在聚类中的作用,易产生不合理的划分,从而对数据的保护程度与数据可用性之间关系带来影响.针对这个问题本文提出一种基于属性重要度和密度聚类的MDAV改进方法实现对数据集κ-匿名化.首先采用基于密度聚类DENCLUE方法对数据表进行聚集成簇,然后对每个簇采用基于粗糙集属性重要度作为加权距离的权值来计算相似样本,实现对数据集的κ-划分.与MDAV算法比较测试,所改进的方法改善了发布数据的可用性.  相似文献   

19.
基于边界样本的训练样本选择方法   总被引:3,自引:1,他引:3  
以入侵检测系统中的分类器设计为例,研究分类器训练样本选择问题。提出了一种大规模数据集的训练样本选择方法,首先通过聚类将训练数据划分成不同的子集缩小搜索范围;然后根据聚类内离散度和样本的覆盖区域选择样本,保留每个聚类的边界样本,删除内部样本。 即保留了典型样本,减少了训练样本数量,从而保证分类器的性能并且训练效率较高。  相似文献   

20.
为了解决增量大数据聚类速度缓慢问题,提出了一种结合密度峰和代表点分析的快速聚类算法.先对样本集进行初始化聚类,然后根据删除失效的聚类数据调节聚类簇群的密度均值,再利用代表点的算法对样本集进行更新,最后采用密度峰算法进行重复聚类从而更新聚类核心点.通过实验分析表明:该算法可有效提高算法收敛速度.在应用方面,将这种聚类算法引用到大数据量的人脸聚类工作中,优化人脸聚类的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号