期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

黄德才钱潮恺《计算机科学》2015,42(Z11):55-57, 71

针对近邻传播聚类算法不能处理混合属性数据集的问题,提出了一种新的距离度量测度,并将其应用到近邻传播聚类算法中,提出了一种基于维度属性距离的混合属性近邻传播聚类算法。与传统聚类算法不同的是,该算法不需要计算虚拟的中心点,同时考虑了数据集整体分布对聚类结果的影响。将算法在UCI数据库的2个混合属性数据集上进行验证,同时对比了经典的K-Prototypes算法以及K-Modes算法。实验结果表明,改进后的算法具有更好的聚类质量以及执行效率,算法的优越性得到了验证。相似文献

2.

基于粗糙集的混合属性数据聚类算法 总被引：2，自引：0，他引：2

范黎林王娟《计算机应用》2010,30(12):3377-3379

传统聚类方法将对象严格地划分到某一类,但是很多时候边界对象不能被严格地划分。基于粗糙集的k-means聚类算法和基于粗糙集的leader聚类算法,利用粗糙集理论将数据对象划分到一个簇的上近似集或下近似集当中,提供了一种新的处理不确定性的视角,很好地解决了这种边界不确定问题。但其缺点是不能处理混合属性数据,聚类结果对初值有明显的依赖性。针对这些算法存在的不足,给出了一种适用于混合属性数据的距离定义,对初始值的选取提出了改进办法,提出了一种基于粗糙集的混合属性数据聚类算法。仿真实验证明,在不确定聚类簇数的情况下,该算法的聚类准确率比传统k-means算法明显提高。相似文献

3.

混合属性数据流的二重k近邻聚类算法

黄德才沈仙桥陆亿红《计算机科学》2013,40(10):226-230

现有的数据流聚类算法大都只能处理单一数值属性的数据,不能应对同时包含数值属性与分类属性特征的数据,且已存在的混合属性数据流聚类算法在对数据的标准化处理和聚类上还有很大的改进之处,为此,提出二重k近邻混合属性数据流聚类算法.该算法采用CluStream算法的在线、离线框架,并提出了混合属性数据流下三步聚类的思想.算法先运用二重k近邻和改进的维度距离生成微聚类,然后利用动态标准化数据方法和基于均值的余弦模型生成初始宏聚类,最后利用基于均值的余弦模型和先验聚类结果进行宏聚类优化.实验结果表明,所提出的算法具有良好的聚类质量及可扩展性. 相似文献

4.

一种混合属性数据的聚类算法

张艳丽郑诚《微型机与应用》2011,30(3):64-66,72

提出一种基于属性分解的随机分组的改进方法,以提高聚类算法的稳定性和适用性。实验仿真结果表明,改进算法具有很好的稳定性和应用性。相似文献

5.

一种基于图划分的混合属性数据聚类算法

《计算机应用与软件》2013,(7)

实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。相似文献

6.

基于密度的聚类中心自动确定的混合属性数据聚类算法研究 总被引：2，自引：0，他引：2

陈晋音何辉豪《自动化学报》2015,41(10):1798-1813

面对广泛存在的混合属性数据,现有大部分混合属性聚类算法普遍存在聚类质量低、聚类算法参数依赖性大、聚类类别个数和聚类中心无法准确自动确定等问题,针对这些问题本文提出了一种基于密度的聚类中心自动确定的混合属性数据聚类算法.该算法通过分析混合属性数据特征,将混合属性数据分为数值占优、分类占优和均衡型混合属性数据三类,分析不同情况的特征选取相应的距离度量方式.在计算数据集各个点的密度和距离分布图基础上,深入分析获得规律: 高密度且与比它更高密度的数据点有较大距离的数据点最可能成为聚类中心,通过线性回归模型和残差分析确定奇异点,理论论证这些奇异点即为聚类中心,从而实现了自动确定聚类中心.采用粒子群算法(Particle swarm optimization, PSO)寻找最优dc值,通过参数dc能够计算得到任意数据对象的密度和到比它密度更高的点的最小距离,根据聚类中心自动确定方法确定每个簇中心,并将其他点按到最近邻的更高密度对象的最小距离划分到相应的簇中,从而实现聚类.最终将本文提出算法与其他现有的多种混合属性聚类算法在多个数据集上进行算法性能比较,验证本文提出算法具有较高的聚类质量. 相似文献

7.

基于K近邻的增量式聚类算法

《传感器与微系统》2019,(2):136-139

大多数聚类算法都是在静态情况下运行,使其不允许添加任何增量数据。提出了一种基于K近邻(KNN)的增量聚类算法,算法包含两个创新点,利用K近邻的思想和样本紧密度两个条件处理增量数据;根据簇特征的变化分裂或合并簇。实验表明:提出的算法既可以发现新簇,又能有效规避噪声点,且能够处理非球形的数据集。相似文献

8.

BIRCH混合属性数据聚类方法 总被引：1，自引：1，他引：1

下载免费PDF全文

李贤罗可《计算机工程与应用》2009,45(30):123-125

数据聚类是数据挖掘中的重要研究内容。现实世界中的数据往往同时具有连续属性和离散属性,但现有大多数算法局限于仅处理其中一种属性,而对另一种采取简单舍弃的办法丢失聚类信息和降低聚类质量。一些能处理混合属性的算法又往往处理的属性过多,导致计算量的大增。提出了一种基于BIRCH算法的混合属性数据的聚类算法;在UCI数据集上的实验表明,文中提出的算法具有较好的性能。相似文献

9.

混合属性数据集的聚类边界检测技术

李向丽耿鹏邱保志《控制与决策》2015,30(1):171-175

为了满足数据分析中获取含有混合属性的数据集聚类的边界需求, 提出一种混合属性数据集的聚类边界检测算法(BERGE). 该算法利用模糊聚类隶属度定义边界因子以识别候选边界集, 然后运用证据积累的思想提取聚类的边界. 在综合数据集和真实数据集上的实验结果表明, BERGE 算法能有效地检测混合属性数据集、数值属性数据集以及分类属性数据集的聚类边界, 与现有同类算法相比具有更高的精度. 相似文献

10.

基于残差分析的混合属性数据聚类算法

邱保志张瑞霖李向丽《自动化学报》2020,46(7):1420-1432

针对混合属性数据聚类结果精度不高、聚类结果对参数敏感等问题, 提出了基于残差分析的混合属性数据聚类算法(Clustering algorithm for mixed data based on residual analysis) RA-Clust.算法以改进的熵权重混合属性相似性度量对象间的相似性, 以提出的基于KNN和Parzen窗的局部密度计算方法计算每个对象的密度, 通过线性回归和残差分析进行聚类中心预选取, 然后以提出的聚类中心目标优化模型确定真正的聚类中心, 最后将其他数据对象按照距离高密度对象的最小距离划分到相应的簇中, 形成最终聚类.在合成数据集和UCI数据集上的实验结果验证了算法的有效性.与同类算法相比, RA-Clust具有较高的聚类精度. 相似文献

11.

面向非球形分布数据的自适应K近邻聚类算法 总被引：2，自引：0，他引：2

黄晓斌万建伟张燕《计算机工程》2003,29(11):21-22,165

针对传统聚类算法处理非球形分布数据的不足，提出了一种新型的自适应K近邻聚类算法。该算法由数据集归一化、初始类别构造和初始类别融合3个步骤构成。仿真结果表明，该算法在无须聚类数目的前提下，对非球型分布数据具有很好的聚类效果。相似文献

12.

基于相对密度和熵的混合属性聚类融合算法

余泽《计算机系统应用》2014,23(12):125-130

混合属性聚类是近年来的研究热点,对于混合属性数据的聚类算法要求处理好数值属性以及分类属性,而现存许多算法没有很好得平衡两种属性,以至于得不到令人满意的聚类结果.针对混合属性,在此提出一种基于交集的聚类融合算法,算法单独用基于相对密度的算法处理数值属性,基于信息熵的算法处理分类属性,然后通过基于交集的融合算法融合两个聚类成员,最终得到聚类结果.算法在UCI数据集Zoo上进行验证,与现存k-prototypes与EM算法进行了比较,在聚类的正确率上都优于k-prototypes与EM算法,还讨论了融合算法中交集元素比的取值对算法结果的影响. 相似文献

13.

一种实现混合属性数据流聚类的算法

朱俚治朱梧檟《计算技术与自动化》2016,(2):34-37

在当今的网络中存在三种形式的数据流,连续型数据流,标称型数据流和混合属性数据流。由于目前在数据挖掘中大部分算法只能处理一种属性的数据流,而处理混合属性数据流的算法却很少,但在数据挖掘的实际应用中常常需要将不同属性的数据流进行相互区分。事实上研究人员在区分不同属性数据流时,首先是将不同属性的流进行聚类,其次是对不同属性的流进行识别。在查阅有了有关资料和参考文献后,本文提出了一种对混合属性数据流的聚类算法,该算法的聚类思想是：①提取混合属性数据流的分类属性,②使用k-近邻算法计算数据流分类属性的相似性,③根据k-近邻算法对数据流相似度的计算结果,使用k-均值聚类算法对混合属性数据流进行聚类,④给出聚类的算法。相似文献

14.

Efficient Near Neighbor Searching Using Multi-Indexes for Content-Based Multimedia Data Retrieval

Liu Chih-Chin Hsu Jia-LieN Chen Arbee L.P. 《Multimedia Tools and Applications》2001,13(3):235-254

Many content-based multimedia data retrieval problems can be transformed into the near neighbor searching problem in multidimensional feature space. An efficient near neighbor searching algorithm is needed when developing a multimedia database system. In this paper, we propose an approach to efficiently solve the near neighbor searching problem. In this approach, along each dimension an index is constructed according to the values of feature points of multimedia objects. A user can pose a content-based query by specifying a multimedia query example and a similarity measure. The specified query example will be transformed into a query point in the multi-dimensional feature space. The possible result points in each dimension are then retrieved by searching the value of the query point in the corresponding dimension. The sets of the possible result points are merged one by one by removing the points which are not within the query radius. The resultant points and their distances from the query point form the answer of the query. To show the efficiency of our approach, a series of experiments are performed to compare with the related approaches. 相似文献

15.

一种面向非平衡数据的邻居词特征选择方法 总被引：1，自引：0，他引：1

孙霞郑庆华《小型微型计算机系统》2008,29(12)

在非平衡数据情况下,由于传统特征选择方法,如信息增益(Information Gain,IG)和相关系数(Correlation Coefficient,CC),或者不考虑负特征对分类的作用,或者不能显式地均衡正负特征比例,导致特征选择的结果下降.本文提出一种新的特征选择方法(Positive-Negative feature selection,PN),用于邻居词的选择,实现了文本中术语的自动抽取.本文提出的PN特征选择方法和CC特征选择方法相比,考虑了负特征;和IG特征选择方法相比,从特征t出现在正(负)训练文本的文本数占所有出现特征t的训练文本数比例的角度,分别显式地均衡了正特征和负特征的比例.通过计算特征t后面所跟的不同(非)领域概念个数占总(非)领域概念个数比值分别考察正、负特征t的重要性,解决了IG特征选择方法正特征偏置问题.实验结果表明,本文提出的PN特征选择方法优越于IG特征选择方法和CC特征选择. 相似文献

16.

一种基于抽样的大规模混合数据聚类集成算法

庞天杰梁吉业《计算机科学》2016,43(9):209-212

混合数据聚类是聚类分析中一个重要的问题。现有的混合数据聚类算法主要是在全体样本的相似性度量的基础上进行聚类,因此对大规模数据进行聚类时,算法效率不高。基于此,设计了一种新的抽样策略,在此基础上,提出了一种基于抽样的大规模混合数据聚类集成算法。该算法对利用新的抽样策略得到的多个样本子集分别进行聚类,并将结果集成得到最终聚类结果。实验证明,与改进的K-prototypes算法相比,该算法的效率有了显著提高,同时聚类有效性指标基本相同。相似文献

17.

基于EM的模糊-粗糙集最近邻算法

下载免费PDF全文

何力卢冰原《计算机工程》2010,36(24):136-138

针对由类的重叠引起的训练样本模糊不确定性,以及属性不足引起的类边界粗糙不确定性,提出一种基于期望-最大化(EM)的模糊-粗糙集最近邻分类算法——EM-FRNN。利用UCI数据库的突发性水污染事件案例进行实验,实验结果表明,与朴素的KNN、模糊最近邻算法、模糊粗糙最近邻算法相比,该算法的运算精度高且计算成本较低。相似文献