共查询到20条相似文献,搜索用时 93 毫秒
1.
一种改进的基于特征赋权的K均值聚类算法 总被引:2,自引:0,他引:2
聚类分析是数据挖掘及机器学习领域内的重点问题之一。近年来,为了提高聚类质量,借鉴和引入了分类领域特征选择及特征赋权思想,提出了一些基于特征赋权的聚类算法。在这些研究基础上,本文提出了一种基于密度的初始中心点选择算法,并借鉴文[1]所提出的特征赋权方法,给出了一种改进的基于特征赋权的K均值算法。实验表明该算法能较为稳定地得到较高质量的聚类结果。 相似文献
2.
针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集体,在集成阶段再利用层次聚类算法对聚类集体进行集成得到最终的结果。在对流特征数据的在线特征选择阶段,对组构造产生的特征组通过探讨特征间的相关性来更新特征组,最终通过组变换获得特征子集。实验结果表明,所提算法能有效应对全新场景下的在线特征选择问题,并且有很好的分类性能。 相似文献
3.
传统的基因表达式编程在解决多分类问题时,人为地把多分类转换成多次两分类。融合了K-最邻近分类和基因表达式编程两种技术,做了下列工作:(1)提出了基于基因表达式编程中的特征抽取,证明了特征抽取区多样性定理;(2)提出了特征的自动聚类策略和特征集的自动选择策略,用特征的聚类辅助对象的分类;(3)提出基于基因表达式编程的最邻近距离分类算法,用抽取出的特征采用最邻近距离分类算法进行多分类;(4)实验表明,采用基于基因表达式编程的最邻近距离分类算法,有效地解决了多分类问题,改善了分类性能,使平均分类正确率提高约4%~10%,用于分类的特征维数减少60%~79%。 相似文献
4.
5.
6.
基于标记特征的多标记分类算法通过对标记的正反样例集合进行聚类,计算样例与聚类中心间的距离构造样例针对标记的特征子集,并生成新的训练集,在新的训练集上利用传统的二分类器进行分类。算法在构造特征子集的过程中采用等权重方式,忽略了样例之间的相关性。提出了一种改进的多标记分类算法,通过加权方式使生成的特征子集更加准确,有助于提高样例的分类精度。实验表明改进的算法性能优于其他常用的多标记分类算法。 相似文献
7.
协同过滤算法作为推荐系统中应用最广泛的算法之一,在大数据环境下面临严重的数据稀疏问题,使得近邻选择的效果不佳,直接影响了算法的推荐性能.为了解决这一问题,本文提出了一种基于用户部分特征的协同过滤算法(UPCF),该算法首先基于评分偏差和项目流行度进行矩阵缺失值填充,随后利用初始聚类中心优化的K-means算法对该填充矩阵进行项目聚类,并利用用户在项目分类下的局部特征进行近邻集合构建,最终采用基于用户的协同过滤算法获得推荐.我们采用流行的MAE指标对算法在MovieLens数据集上进行评测.实验表明,与目前流行的协同过滤算法相比,提出的UPCF算法在没有增加算法复杂性的前提下,性能有近10%的提升. 相似文献
8.
基于类信息的文本聚类中特征选择算法 总被引:2,自引:0,他引:2
文本聚类属于无监督的学习方法,由于缺乏类信息还很难直接应用有监督的特征选择方法,因此提出了一种基于类信息的特征选择算法,此算法在密度聚类算法的聚类结果上使用信息增益特征选择法重新选择最有分类能力的特征,实验验证了算法的可行性和有效性。 相似文献
9.
基于多维自组织特征映射的聚类算法研究 总被引:2,自引:1,他引:1
作为神经网络的一种方法,自组织特征映射在数据挖掘、模式分类和机器学习中得到了广泛应用.本文详细讨论了自组织特征映射的聚类算法的工作原理和具体实现算法.通过系统仿真实验分析,SOFMF算法很好地克服了许多聚类算法存在的问题,在时间复杂度上具有良好的性能. 相似文献
10.
不平衡数据集类别分布严重倾斜,传统的聚类算法由于以提高整体学习性能为目标,往往偏向于聚集多数类,而忽视更有价值的稀有类.本文提出一种基于迭代的特征加权聚类算法,根据当前聚类后簇的特点以及特征重要性度量函数确定特征权值,利用所得权值进行下一轮聚类,直到权值稳定后结束迭代.在多个UCI不平衡数据集上的实验效果表明,本文算法能够较好地识别出重要特征并提高它们的权重,避免聚类算法过度偏向多数类,有效地提高了聚类性能. 相似文献
11.
12.
13.
S. Subramani Author Vitae Author Vitae B. Gurumoorthy Author Vitae 《Computer aided design》2004,36(8):701-721
This paper describes an algorithm based on 3D clipping for mapping feature models across domains. The problem is motivated by the need to identify feature models corresponding to different domains. Feature mapping (also referred to as feature conversion) involves obtaining a feature model in one domain given a feature model in another. This is in contrast to feature extraction which works from the boundary representation of the part. Most techniques for feature mapping have focused on obtaining negative feature models only. We propose an algorithm that can convert a feature model with mixed features (both positive and negative) to a feature model containing either only positive or only negative features.The input to the algorithm is a feature model in one domain. The algorithm for mapping this model to another feature model is based on classification of faces of features in the model and 3D clipping. 3D clipping refers to the splitting of a solid by a surface. The feature mapping process involves three major steps. In the first step, faces forming the features in the input model are classified with respect to one another. The spatial arrangement of faces is used next to derive the dependency relationship amongst features in the input model and a Feature Relationship Graph (FRG) is constructed. In the second step, using the FRG, features are clustered and interactions between features (if any) are resolved. In the final step, the 3D clipping algorithm is used to determine the volumes corresponding to the features in the target domain. These volumes are then classified to identify the features for obtaining the feature model in the target domain. Multiple feature sets (where possible) can be obtained by varying the sequence of faces used for clipping. Results of implementation are presented. 相似文献
14.
针对快速鲁棒特征算法(SURF)局部不变特征描述符存在运算时间较长、匹配准确率较低的问题,文中提出基于网格运动统计的改进快速鲁棒特征图像匹配算法.首先运用Hessian矩阵行列式确定图像中的特征点,采用梯度方向改进SURF中的主方向提取方法,提高特征点主方向的准确性,并使用二进制特征描述子进行特征点描述.再对获取的特征点进行汉明距离粗匹配.最后,采用网格运动统计剔除误匹配点.在Oxford VGG标准数据集上的实验表明,文中算法在图像发生尺度、光照、旋转等变化时匹配准确率与效率较高. 相似文献
15.
现有的在线流特征选择算法通常选择一个最优的全局特征子集,并假设该子集适用于样本空间的所有区域.但是,样本空间的每个区域都使用独有的特征子集进行准确描述,这些特征子集的特征和大小可能有所不同.因此,文中提出基于最大决策边界的局部在线流特征选择算法.引入局部特征选择,在充分利用局部信息的基础上,设计基于最大决策边界的特征衡量标准,尽可能分开同类样本和不同类样本.同时,使用最大化平均决策边界、最大化决策边界和最小化冗余3种策略选择合适的特征.针对局部区域选择最优的特征子集,然后使用类相似度测量方法进行分类.在14个数据集上的实验结果和统计假设检验验证文中算法的分类有效性和稳定性. 相似文献
16.
17.
特征选择算法(TFFS)存有一定的不足:集中度难于正确衡量低频繁特征项的权值;分散度忽略了互信息为负数的特征项对文本分类的影响。提出一种改进的特征选择算法(TFFSL),TFFSL对集中度、分散度做了一定的改进,避免了TFFS的缺陷,同时TFFSL结合特征项长度信息,提高了短语和词语在分类中的作用。SVM分类实验结果表明:与TFFS相比,TFFSL有更高的文本分类性能和剔除无关特征项的能力。 相似文献
18.
Pearson相关系数是一种衡量变量间线性关系的方法,广泛用于变压器中油中气体故障诊断(DGA)的范例推理匹配算法。但是,现有方法存在偏袒数据区间较大的特征以及认为所有特征对相关系数判定的贡献相同这两个问题。因此,在深入分析DGA色谱数据的基础上,提出采用对数特征变换方法缩小特征值域来解决偏袒大数据区间特征的问题,采用均方差特征赋权区分特征贡献度的方法进一步提高DGA故障检测效果,并构造了基于特征变换和特征权重的Pearson相关系数DGA诊断(FTW_Pearson)算法。实验结果表明,FTW_Pearson算法的DGA诊断正确率优于业界普遍使用的大卫三角形法、未考虑特征变换和权重的Pearson相关系数法以及贝叶斯算法和神经网络算法。 相似文献
19.
聚类分析中特征选择的研究* 总被引:1,自引:1,他引:0
介绍了一种新颖的基于高斯混合模型的特征选择算法,并且应用该方法的结果对模拟数据和真实数据进行聚类。实验结果表明,该算法可以有效地确定显著属性,提高聚类准确度。 相似文献
20.
掌纹ROI分割算法的研究与实现 总被引:1,自引:0,他引:1
掌纹感兴趣区(ROI)分割是掌纹识别的关键步骤,目前掌纹分割方法主要存在定位点不易确定和同类图像ROI提取偏移度较大等问题,为改善这些问题,提出一种新的ROI分割算法。首先确定手掌图像中的两个指谷点;然后利用手掌轮廓特定区域边界点拟合直线,以该直线为基准,以固定角度的方式建立直角坐标系,利用指谷点找到掌纹信息丰富的区域,确定掌纹的ROI,最后提取特征矢量进行匹配识别。实验结果表明,该算法分割掌纹ROI的准确度高、速度快,对同类图像分割的偏移度更小,掌纹ROI的提取率达98.2%,掌纹正确识别率提高了3%左右,为基于掌纹的身份认证系统的实现提供了理论和实验依据。 相似文献