期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王国伟闫丽陈桂芬《计算机工程与应用》2010,46(17):146-149

一般空间模糊聚类算法没有区分各属性之间的不平衡性和讨论分类数何时为最佳,针对这一问题,提出了一种加权空间模糊动态聚类算法。该算法首先利用层次分析法得到各属性的权值;然后将权值与空间模糊动态聚类法相结合;最后利用概率统计中的F-分布来确定最佳分类,以提高空间模糊聚类算法的智能性。将文中算法与基于模糊等价关系的传递闭包方法进行比较,试验表明,该算法聚类准确率要明显高于未加权的模糊聚类算法。相似文献

2.

基于马氏距离特征加权的模糊聚类新算法 总被引：2，自引：0，他引：2

下载免费PDF全文

蔡静颖谢福鼎张永《计算机工程与应用》2012,48(5):198-200

模糊聚类分析是模糊模式识别中一个重要研究领域,而其中最经典的模糊C均值算法认为样本矢量各特征对聚类结果贡献均匀,没有考虑不同的属性特征对模式分类的不同影响,在处理属性高相关的数据集时,该算法分错率增加。针对这些问题,提出了一种基于马氏距离特征加权的模糊聚类算法,利用自适应马氏距离的优点对特征加权处理,对高属性相关的数据集进行更有效的分类。实验证明该方法的可行性和有效性。相似文献

3.

基于混合数据聚类算法的异质顾客群体识别

下载免费PDF全文

谢卫星王晓琳王旭阳张静娜李玉鹏《计算机工程与应用》2021,57(13):130-137

顾客作为产品满意度测度过程中评价决策的主体,对其进行分类研究,识别不同顾客群体异质评价特征具有重要意义。顾客评价特征存在多元性和冲突性,根本原因是顾客作为决策者的异质性,而顾客的异质性来源于顾客本身属性,包含分类型属性和数值型属性。提出了一种基于惩罚竞争机制的混合属性顾客分类方法,根据数值型和分类型属性值的分布规律,给出了混合数据初始聚类中心的确定方法;建立了统一相似性度量模型,并引入惩罚竞争机制,实现了聚类过程中的基本迭代和自动优化聚类数。以某产品异质顾客分类问题为例验证了所提方法的可行性,继而通过“Heart Disease”标准数据集将所提算法与K-means和K-prototypes两种经典聚类算法进行对比,验证了该方法的有效性。相似文献

4.

模糊K-Modes聚类精确度分析 总被引：4，自引：1，他引：4

赵恒杨万海《计算机工程》2003,29(12):27-28,175

模糊K-Modes聚类算法是对具有分类属性的数据进行聚类的一种有效的算法。为了评价聚类结果，以具有明确分类结构的数据作为输入数据，将模糊K-Modes聚类结果与原始数据的分类结构进行对比，分析了确定它们之间对应关系的方法，在期望聚类结果应该具有的特点的基础上，对现有的精确度定义和计算方法进行修正，在划分相似度的基础上，重新定义模糊K-Modes聚类精确度。相似文献

5.

智能答疑系统中基于聚类的问题分类研究 总被引：3，自引：0，他引：3

酆晓杰刘亚军《微机发展》2005,15(2):69-72

研究了智能答疑系统中的问题分类。针对基于章节目录的分类方式过于依赖特定教材的不足,提出了基于关键词聚类的问题模糊分类方法。此方法基于关键词的语义,采用NERF算法对关键词进行聚类。并利用聚类有效性的方法来弥补此算法过于依赖初始值的不足。最后通过实例进行分析,说明此分类方法的可行性和对基于章节目录的分类方式不足的弥补。相似文献

6.

一种基于密度的加权模糊均值聚类算法 总被引：1，自引：0，他引：1

李翠霞史苇杭李占波《计算机科学》2012,39(5):180-182

针对当数据集合中的数据属性差异不明显时,传统的均值聚类算法会收敛到局部最小值点,造成算法聚类结果不准、精度下降的问题,提出了一种基于密度的加权模糊均值聚类算法。该算法通过计算差异属性类中的相关密度,运用密度作为确定初始类中心的方法,得到了聚类效果更好的初始值。之后用加权模糊算法克服类划分中数据属性差异不明显带来的弊端,对类中差异属性进行归类划分。实验结果表明,该算法依然可以区分出不同属性的重要程度,而且其稳定性和聚类效果都有一定的提高。相似文献

7.

一种基于精简的模糊规则库的分类算法*

贺勇诸克军《计算机应用研究》2007,24(2):24-26

结合模糊聚类和粗糙集提出了一种基于精简的模糊规则库分类算法.对于数值型样本数据,首先采用模糊聚类生成模糊规则库,然后运用粗糙集理论对样本属性进行约简,删除冗余规则,即可得到精简的模糊规则库,以方便进行分类决策.通过对IRIS的仿真测试表明,本算法所产生的模糊规则不仅简单易懂,而且分类效果很好. 相似文献

8.

动态的模糊K-Modes初始化算法

张伟周霆陈芸邹汉斌《计算机工程与设计》2006,27(4):682-683,707

模糊-Modes聚类算法针对分类属性的数据进行聚类,使用爬山法来寻找最优解,因此该算法对初始值较为敏感。为了克服该缺点,提出一种动态的模糊K—Modes初始化算法,该方法能够自动确定聚类数目,以及对应的聚类中心;而且能够应用于数值属性和分类属性相混合的数据集。该初始化算法可以有效地克服模糊K—Modes算法对初值的敏感性。实验的结果表明了该初始化算法的可行性和有效性。相似文献

9.

智能答疑系统中基于聚类的问题分类研究

酆晓杰刘亚军《计算机技术与发展》2005,15(2)

研究了智能答疑系统中的问题分类.针对基于章节目录的分类方式过于依赖特定教材的不足,提出了基于关键词聚类的问题模糊分类方法.此方法基于关键词的语义,采用NERF算法对关键词进行聚类.并利用聚类有效性的方法来弥补此算法过于依赖初始值的不足.最后通过实例进行分析,说明此分类方法的可行性和对基于章节目录的分类方式不足的弥补. 相似文献

10.

面向分类属性数据的一种改进相异性度量及其在客户细分中的应用_*

胡晓雪赵嵩正吴楠《计算机应用研究》2016,33(2)

具有层次结构的分类属性在客户细分应用中广泛存在。针对传统相异性度量无法准确反映决策者在与细分目标相关的决策指标上的偏好信息,提出一种改进的距离层次并给出使用该度量,基于聚类分析的客户细分基本流程。该度量利用距离层次计算各分类属性值概念间的相异性,同时引入指标距离的概念描述对于特定指标,决策者在不同分类属性值上的偏好,结合模糊相似优先比决策方法和树的广度优先遍历计算不同分类属性值间的指标距离,最后通过将所求得的概念距离和指标距离进行加权求和以更全面地度量不同分类属性值间的相异性。对陕西省电力公司工业客户进行细分实验的结果表明：与传统距离层次相比,采用改进相异性度量能提高聚类质量和细分结果的可解释性。相似文献

11.

属性加权的类属型数据非模聚类

陈黎飞郭躬德《软件学报》2013,24(11):2628-2641

类属型数据广泛分布于生物信息学等许多应用领域,其离散取值的特点使得类属数据聚类成为统计机器学习领域一项困难的任务.当前的主流方法依赖于类属属性的模进行聚类优化和相关属性的权重计算.提出一种非模的类属型数据统计聚类方法.首先,基于新定义的相异度度量,推导了属性加权的类属数据聚类目标函数.该函数以对象与簇之间的平均距离为基础,从而避免了现有方法以模为中心导致的问题.其次,定义了一种类属型数据的软子空间聚类算法.该算法在聚类过程中根据属性取值的总体分布,而不仅限于属性的模,赋予每个属性衡量其与簇类相关程度的权重,实现自动的特征选择.在合成数据和实际应用数据集上的实验结果表明,与现有的基于模的聚类算法和基于蒙特卡罗优化的其他非模算法相比,该算法有效地提高了聚类结果的质量. 相似文献

12.

缺陷数据的相似性度量方法改进

万琳杨腾翔刘海宁《计算机系统应用》2017,26(8):152-156

模糊聚类分析主要研究样本的分类问题.本文利用模糊聚类方法对软件缺陷进行分类,引入缺陷数据属性权重计算方法,依据数据挖掘中的属性邻近性度量方法,对缺陷数据进行相似度分析.并按照属性类别进行分析,不仅体现了缺陷数据属性间的形贴近程度,而且体现了属性之间的距离贴近程度.本文方法对软件缺陷数据进行分析并对比度量结果,实验结果充分说明改进后的模糊聚类相似性度量方法在分类准确性方面有一定程度的提高. 相似文献

13.

Research on the Clustering Analysis and Similarity in Factor Space

Sha-Sha Li Tie-Jun Cui Jian Liu 《计算机系统科学与工程》2018,33(5):397-404

In this paper, we study the in uence of multiple domain attributes on the clustering analysis of object based on factor space. The representation method of graphical domain attribute is proposed for the object, which is called attribute circle. An attribute circle can represent infinite domain attributes. The similarity analysis of objects is first based on the concept of attribute circle, and the definition of graphical similarity is transformed into the definition of numerical similarity, and then the clustering analysis method of object set is studied and improved. Considering three kinds of graphical overlap, the analytic solution of similarity is obtained for numerical calculation. The clustering rules: strictly obey the similarity division and dissimilarity division, and refer to fuzzy similarity division. The reliability evaluation semantics of the actual electrical system are listed as the study object set, and the clustering analysis method and its improvement are carried out. The results show that the relation between decision set D and object set U means that the division of U is nonsingular and accurate for D. Although the system reliability is evaluated in different environments, these evaluation semantics are relatively objective, and can support each other. The two methods of similarity calculation have the same conclusion, but the improved method is more accurate and complex. 相似文献

14.

基于粗糙集和聚类的纳税属性离散化方法

徐林章韩臻张艳宁《计算机工程与应用》2008,44(29):236-238

将粗糙集理论中属性重要度和依赖度的概念与分级聚类离散化算法相结合,提出了一种纳税人连续型属性动态的离散化算法。首先将纳税数据对象的每个连续型属性划分为2类,然后利用粗糙集理论计算每个条件属性对于决策属性的重要度,再通过重要度由大至小排序进行增类运算,最后将保持与原有数据对象集依赖度一致的分类结果输出。该算法能够动态地对数据对象进行类别划分,实现纳税人连续型属性的离散化。通过采用专家分析和关联分析的实验结果,验证了该算法具有较高的纳税人连续型属性离散化精度和性能。相似文献

15.

A hybrid particle swarm optimization approach for clustering and classification of datasets

Kuang Yu Huang 《Knowledge》2011,24(3):420-426

This paper introduces a new hybrid cluster validity method based on particle swarm optimization, for successfully solving one of the most popular clustering/classifying complex datasets problems. The proposed method for the solution of the clustering/classifying problem, designated as PSORS index method, combines a particle swarm optimization (PSO) algorithm, Rough Set (RS) theory and a modified form of the Huang index function. In contrast to the Huang index method which simply assigns a constant number of clusters to each attribute, this method could cluster the values of the individual attributes within the dataset and achieves both the optimal number of clusters and the optimal classification accuracy. The validity of the proposed approach is investigated by comparing the classification results obtained for a real-world dataset with those obtained by pseudo-supervised classification BPNN, decision-tree and Huang index methods. There is good evidence to show that the proposed PSORS index method not only has a superior clustering accomplishment than the considered methods, but also achieves better classification accuracy. 相似文献

16.

基于自编码器的多视图属性网络表示学习模型

樊玮王慧敏邢艳《计算机应用》2021,41(4):1064-1070

现有的大多数网络表示学习方法很难兼顾网络中丰富的结构信息和属性信息,导致其后续任务,如分类、聚类等的效果不佳。针对此问题,提出一种基于自编码器的多视图属性网络表示学习模型（AE-MVANR）。首先,将网络的拓扑结构信息转化为拓扑结构视图（TSV）,通过计算节点间相同属性共现频率来构造属性结构视图（ASV）;然后,在两个视图上分别利用随机游走算法得到若干节点序列;最后,经过自编码器训练得到的序列,从而得到融合了结构信息和属性信息的节点表示向量。在几个真实数据集上进行了分类、聚类任务的大量实验,结果表明,所提AE-MVANR优于常用的仅基于网络结构的和同时基于网络结构信息及节点属性信息的网络表示学习方法,具体来说该模型的分类准确率最高提升43.75%,而其聚类结果的标准化互信息（NMI）和轮廓系数（Silhouette Coefficient）指标最高增幅分别为137.95%和1 314.63%,戴维森堡丁指数（DBI）最大降幅达45.99%。相似文献

17.

基于混合粒子群算法的运动估计研究

张冰董骁雄李文孟祥飞李超《计算机工程与科学》2019,41(4):758-764

针对块匹配运动估计算法中传统搜索方法的不足,提出了一种新的基于混合粒子群的块匹配运动估计算法。在保留系统随机搜索性能的同时根据运动矢量特性合理地设计初始搜索种群,并通过混沌差分进化搜索协同粒子群算法迭代寻优,混沌序列用于优化差分变异算子,以提高算法的精细搜索能力。通过相同点检测技术和恰当的终止计划有效地降低了系统的运算复杂度。经实验测试与验证,该算法在搜索质量和运算复杂度中达到了一种动态平衡的状态,其整体性能高于传统的快速运动估计算法,效果更逼近于穷举搜索法。相似文献

18.

一种连续属性离散化的新方法 总被引：6，自引：0，他引：6

凌方王建东《数据采集与处理》2002,17(2):179-182

提出了一种基于聚类方法、结合粗集理论的连续属性离散化方法。在粗集理论中有一个重要概念：属性重要度（Attribute significance)，它常用来作为生成好的约简所采用的启发式评价函数。受此启发，在连续属性离散化方法中可把它用于属性选择，即从已离散化的属性集中选择出属性重要度最高的属性，再把它和待离散化的连续属性一起进行聚类学习，得到该连续属性的离散区间。文中介绍了该方法的算法描述，并通过实验与其他算法进行了比较。实验结果表明，由于这种方法在离散化过程中结合了粗集理论的思想,考虑了属性间的相互影响，从而产生了比较合理的划分点，提高了规则的分类精度。相似文献

19.

基于报警原因的聚类分析方法

王秀利海沫朱建明章宁《计算机科学》2010,37(4):67-70,85

针对入侵检测系统产生大量冗余报警的问题,提出基于报警原因的聚类分析方法。根据报警原因把逻辑上相关的报警归类到同一个报警聚类中,聚类中的报警具有相同的属性,进而归纳为泛化报警,并由它描述报警的共同特征,从而极大地减少报警数量,简化报警分析,有利于准确分析出网络和应用环境面临的安全威胁,以及时采取应对措施。相似文献

20.

一种基于变长聚类的个性化匿名保护方法

下载免费PDF全文

李丹凌捷《计算机工程与应用》2018,54(8):85-90

针对链接攻击导致的隐私泄露问题,以及为了尽可能减少匿名保护时产生的信息损失,提高发布数据集的可用性,提出一种面向个体的基于变长聚类的个性化匿名保护方法。该方法充分考虑记录权重值对聚类簇中心结果的影响,以提高数据的可用性,并对敏感属性值进行分级处理,将敏感属性值分成三个等级类,响应不同个体的保护需求。理论分析和实验结果表明,该方法能满足敏感属性个性化保护需求,同时可有效地降低信息损失,效率较高,生成的匿名数据集具有较好的可用性。相似文献