共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
同时兼具数值型和分类型属性的混合数据在实际应用中普通存在,混合数据的聚类分析越来越受到广泛的关注.为解决高维混合数据聚类中属性加权问题,提出了一种基于信息熵的混合数据属性加权聚类算法,以提升模式发现的效果.工作主要包括:首先为了更加准确客观地度量对象与类之间的差异性,设计了针对混合数据的扩展欧氏距离;然后,在信息熵框架下利用类内信息熵和类间信息熵给出了聚类结果中类内抱团性及一个类与其余类分离度的统一度量机制,并基于此给出了一种属性重要性度量方法,进而设计了一种基于信息熵的属性加权混合数据聚类算法.在10个UCI数据集上的实验结果表明,提出的算法在4种聚类评价指标下优于传统的属性未加权聚类算法和已有的属性加权聚类算法,并通过统计显著性检验表明本文提出算法的聚类结果与已有算法聚类结果具有显著差异性. 相似文献
3.
《计算机应用与软件》2016,(11)
针对K-调和均值算法中距离度量将所有属性视为相等重要而存在的不足,提出一种利用自动属性加权的改进聚类算法。在算法的目标函数中,用加权欧氏距离替代传统的欧氏距离,并证明了使得算法能够收敛的属性权重更新机制。为进一步提高聚类性能,将粒子群算法融入到改进的属性加权聚类算法中以抑制其陷于局部最优,其中采用聚类中心和属性权重的值同时表示粒子的位置进行寻优。在UCI数据集的测试结果表明,该算法的聚类指标平均提高了约9个百分点,具有更高的聚类准确性和稳定性。 相似文献
4.
SNP数据在人类遗传病诊断与治疗中存在重要作用,但SNP原始数据存在大量冗余,因此需要选择出信息量大的SNP,完成SNP数据的降维.针对常用聚类算法应用到信息SNP选择时未考虑单个SNP与SNP子集之间相似度的问题,采用一种新的相似度度量方法,提出了一种改进的聚类算法K-MIGS,并将其应用到SNP选择中.K-MIGS算法解决了传统K-means不能挖掘出SNP位点与SNP子集之间的强相关性问题,并在医院提供的临床数据实验中表明,K-MIGS具有更高的非信息SNP子集重构度.最后使用支持向量机、决策树和神经网络对构造的SNP子集进行分类实验,对比K-means、特征加权K-means、ReliefF和MCMR,结果表明K-MIGS分类准确率和F1指标上提升了10%和15%,充分说明K-MIGS在信息SNP选择中具有更好的效果. 相似文献
5.
经典的K-Means算法认为被分析样本的各个属性对聚类结果的贡献均匀,没有考虑不同属性特征对聚类结果可能造成的不同影响。文章提出了一种基于样本属性加权的K-Means算法。该算法利用变异系数赋权法对属性进行加权处理,通过权值反映各个属性对聚类结果的贡献的大小。实验表明,该算法在不改变时间、空间复杂度的情况下能取得更好的聚类结果。 相似文献
6.
一种基于知识粒度的启发式属性约简算法 总被引:1,自引:0,他引:1
属性约简是粗糙集理论进行知识获取的核心问题之一。根据属性相似度与知识粒度的一致性,通过条件属性与决策属性以及条件属性之间的相似度度量,提出了一种基于知识粒度的启发式属性约简算法。根据条件属性与决策属性的相似度对条件属性进行降序排列,根据条件属性之间的相似度度量选择重要的属性,从而得到约简集合。理论分析与实验结果表明,该算法具有较高的运行效率和较好的约简效果。 相似文献
7.
8.
针对数据集中属性间存在依赖关系以及对象间存在相关性,定义了一种新的相似关系模型,该模型所描述的相似关系能够体现对象之间的自然相关性.在此基础上提出一种基于属性依赖关系和对象相关性的自然聚类算法,该聚类算法在不事先指定聚类数目的情况下,将所有相似性达到设定阈值的对象自然聚为一类;当调整相似性阈值时,该算法还可实现不同粒度的聚类.通过分别对数值型数据集和分类型数据集进行实验比较分析,结果表明这种自然聚类算法与其他聚类算法相比,能够真实反映数据间的相关性以及数据集的自然簇结构,同时可以发现任意形状的簇,有效地提高了聚类的精度和质量. 相似文献
9.
基于信息熵的二元分割算法离散连续属性,在对连续属性较多,数据量较大的数据集进行分析预测中,存在不足。实验表明,在决策树算法中结合改进后的k-means算法作为连续属性离散化算法,在连续属性较多的数据实例中可以构造出更好的决策树。 相似文献
10.
构造了一种新的属性间相关性度量方法,提出了改进属性加权的朴素贝叶斯分类模型。经实验证明,提出的朴素贝叶斯分类模型明显优于张舜仲等人提出的分类模型。 相似文献
11.
图像分割是指将一幅图像分解为若干互不交迭的区域的集合,是图像处理和计算机视觉的基本问题之一。为了提高图像分割的效率,提出了一种基于2维直方图加权的塔形模糊c均值(FCM)聚类图像快速分割算法。该方法先通过构造合理的2维直方图对噪声进行抑制;然后通过塔形分解来缩减聚类样本集;最后利用加权FCM聚类算法进行分类。仿真结果表明,该方法的效率明显优于标准的FCM算法。此外,为确定分割的最优类别数c,还引入了一种基于该快速算法的聚类有效性评价函数——修正划分模糊度,实现了最佳图像分割类别数c的自动确定。基于人造图像和实际图像的测试实验结果表明该方法是有效的。 相似文献
12.
位置加权文本聚类算法 总被引:2,自引:2,他引:0
文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同,提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量,采用层次聚类和K-means文本聚类相结合的改进算法实现文本聚类。实验结果表明,提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度,在稳定性和纯度上都有显著提高,获得了较好的聚类效果。 相似文献
13.
一种基于用户需求的加权模糊聚类分析算法 总被引:1,自引:0,他引:1
从用户的实际需求出发,分析了聚类系统的使用者可能对系统提出的功能要求,提出了一种基于加权Euclid距离的模糊C聚类分析算法.在该算法中,权值是由用户或领域的专家直接指定的,加在不同特征指标上的权值体现了用户对各个特征指标重视程度的差别.与传统的模糊C聚类分析相比,该算法增加了聚类的灵活性,能够产生令用户更加满意的聚类结果. 相似文献
14.
15.
16.
序列化信息瓶颈 (Sequential information bottleneck, sIB) 算法是一种广泛使用的聚类算法。该算法采用联合概率模型表示数据,对样本和属性的相关性有较好的表达能力。但是sIB算法采用的联合概率模型假设数据各个属性对聚类的贡献度相同,从而削弱了聚类效果。本文提出了赋权联合概率模型概念,采用互信息度量属性重要度,并构建赋权联合概率模型来优化数据表示,从而达到突出代表性属性、抑制冗余属性的目的。UCI数据集上的实验表明,基于赋权联合概率模型的WJPM_sIB算法优于sIB算法,在F1评价下,WJPM_sIB算法聚类结果比sIB算法提高了5.90%。 相似文献
17.
18.
19.
20.
基于聚类的快速多目标遗传算法 总被引:9,自引:1,他引:8
多目标遗传算法非常适合于求解多目标优化问题.讨论了进化个体之间的支配关系及有关性质,论证了可以用快速排序的方法对进化群体中的个体进行分类,同时探讨了用聚类方法来保持群体的多样性,具体讨论了基于层次凝聚距离的聚类,在此基础上提出了用分类和聚类的方法构造新的进化群体.理论分析与实验结果表明,所讨论的方法比较国际上已有的方法具有更快的收敛速度. 相似文献