首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
本文提出一种基于极大连通子图的相关度属性选择算法,该算法利用极大连通子图求解方法得到最优属性子集,该属性子集满足相关度要求并且尽可能多地保留数据集中包含的信息。论文结合选定的分类算法验证该属性选择算法的应用效果,实验表明,该属性选择算法在分类算法的数据预处理过程中可明显提高分类准确率,与利用贪婪搜索策略的基于相关度的属性选择算法相比,应用该算法的分类算法准确率更高。  相似文献   

2.
针对数据集中属性间存在依赖关系以及对象间存在相关性,定义了一种新的相似关系模型,该模型所描述的相似关系能够体现对象之间的自然相关性.在此基础上提出一种基于属性依赖关系和对象相关性的自然聚类算法,该聚类算法在不事先指定聚类数目的情况下,将所有相似性达到设定阈值的对象自然聚为一类;当调整相似性阈值时,该算法还可实现不同粒度的聚类.通过分别对数值型数据集和分类型数据集进行实验比较分析,结果表明这种自然聚类算法与其他聚类算法相比,能够真实反映数据间的相关性以及数据集的自然簇结构,同时可以发现任意形状的簇,有效地提高了聚类的精度和质量.  相似文献   

3.
可处理混合属性的任意形状聚类   总被引:1,自引:1,他引:0       下载免费PDF全文
聚类是数据挖掘中一个非常活跃的研究分支,任意形状的聚类则是一个有待研究的开放问题。提出一种包含分类属性取值频率信息的类间差异性度量和一种对象与类的相似度定义,在此基础上提出一种能处理任意形状的聚类算法,可处理混合属性数据集。在人造数据集和真实数据集上检验了提出的算法,并与相关算法进行了对比,实验结果表明,提出的算法是有效可行的。  相似文献   

4.
在基于距离的语义相似度计算方法的基础上,综合多种因素对相似度的影响,提出一种新的相似度和相关度计算方法。将其应用到教学资源领域本体,计算本体概念间的相似度和相关度。实验结果显示该算法可以提高传统基于距离的相似度算法的性能。最后比较了利用该算法的语义查询与传统关键字查询的结果。  相似文献   

5.
为弥补属性空间聚类方法只关注对象属性信息以及结构聚类方法只关注对象间关系信息的不足,提出一种基于属性-关系综合相似度的聚类算法.在构建基于属性距离的有权网络后,算法给出对象间综合相似度以及类间综合相似度的计算方法,并设计相应策略自底向上实现聚类.与属性空间聚类和结构聚类方法相比,该算法由于兼顾了属性和关系信息而具有更高...  相似文献   

6.
协同过滤算法是推荐系统中使用广泛的一种算法,然而传统协同过滤算法仅利用评分信息,实际场景下会面临相似度计算准确率低,推荐个性化程度不高的缺陷,难以满足用户的需求.针对协同过滤算法的不足,结合用户主观偏好与项目属性扩充提出一种改进算法,首先在项目相似度计算上做了两个改进:引入标签相关度,依据项目标签相关度来研究项目之间的相似度,并根据项目历史评分用户的特征构造项目的扩充属性,可用于从项目受众类型的角度衡量项目相似度;其次考虑到用户存在主观偏好的情况,使用支持向量机为每个用户训练标签偏好预测模型,可用于项目预测评分的修正,提高推荐的个性化程度和准确度.基于MovieLens数据集的实验结果表明,所提算法能更准确地计算项目间的相似度,且能根据用户的个性化偏好得出更精确的预测评分.  相似文献   

7.
冯永  张洋 《计算机应用》2012,32(6):1688-1691
查询接口模式匹配是Deep Web信息集成中的关键部分,双重相关性挖掘方法(DCM)能有效利用关联挖掘方法解决复杂接口模式匹配问题。针对DCM方法在匹配效率、匹配准确性方面的不足,提出了一种基于匹配度和语义相似度的新模式匹配方法。该方法首先使用矩阵存储属性间的关联关系,然后采用匹配度计算属性间的相关度,最后利用语义相似度计算候选匹配的相似性。通过在美国伊利诺斯大学的BAMM数据集上进行实验,所提方法与DCM及其改进方法比较有更高的匹配效率和准确性,表明该方法能更好地处理接口之间模式匹配问题。  相似文献   

8.
张平  党选举  陈皓  杨文雷 《传感器与微系统》2011,30(11):135-137,141
针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法.该方法通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为不相交的小数据集,在各小数据集中用DBSCAN聚类算法进行相似重复记录的检测.理论分析和实验结果表明...  相似文献   

9.
针对传统C4.5算法存在容易产生冗余规则、决策树规模过大、分类速度过慢等问题,提出一种基于余弦相似度的改进C4.5决策树算法。计算每个属性的信息熵和增益率,如果任意属性的任意两个属性值的信息熵之差在一个很小范围内时,计算两个属性值的余弦相似度;合并相似度在阈值范围内的属性值,重新计算合并后属性的信息增益率,依据传统的C4.5算法进行计算。抽取某医院普检数据进行仿真,仿真结果表明,所提算法能够有效降低分裂属性维度,缩减了决策树规模,减少了冗余规则,提高了分类速度。  相似文献   

10.
针对数据集为模糊值时冗余信息难于消除的问题,提出了基于模糊相似关系的广义模糊粗糙集与Quick Reduct算法相结合的方法。利用广义模糊粗糙集数据相似程度对属性值为实数值的数据集合进行约简,不需要预先对原始数据集合进行离散化,约简结果能更完整地反映原信息系统的分类能力。同时算法中利用了启发式信息,使模糊依赖性增加较快的属性作为最小约简。计算实例验证了该方法的有效性。  相似文献   

11.
In recent years, researchers have paid more and more attention on data mining of practical applications. Aimed to the problem of symptom classification of Chinese traditional medicine, this paper proposes a novel computing model based on the similarities among attributes of high dimension data to compute the similarity between any tuples. This model assumes data attributes as basic vectors of m dimensions and each tuple as a sum vector of all the attribute-vectors. Based on the transcendental concept similarity information among attributes, it suggests a novel distance algorithm to compute the similarity distance of any pair of attribute-vectors. In this method, the computing of similarity between any tuples are turned to the formulas of attribute-vectors and their projections of each other, and the similarity between any pair of tuples can be worked out by computing these vectors and formulas. This paper also presents a novel classification algorithm based on the similarity computing model and successfully applies the algorithm into the symptom classification of Chinese traditional medicine. The efficiency of the algorithm is proved by extensive experiments.  相似文献   

12.
提出了一种利用训练数据的类别信息改善分类效果的音频特征提取方法.与传统的利用独立分量分析进行特征提取的方法相比,在计算训练向量空间的基函数组时,特征向量各分量之间的互信息不是直接在全体训练向量上计算的,而是分别在各个不同类的训练向量上计算,然后求其统计平均值.实验结果表明,用这种方法得到的基函数组,能够进一步减小同一类音频的特征向量各分量之间的互信息.从而提高分类的成功率.  相似文献   

13.
基于核变换的高性能支持向量机分类算法   总被引:1,自引:1,他引:0       下载免费PDF全文
由于传统的支持向量机(SVM)算法的核函数没有考虑训练数据自身的特点,因而相对于具体的问题来说,往往不是最优的。为了获得最优的分类结果,提出了一种基于核变换思想的支持向量机分类方法。该方法首先根据训练样本的类属信息,通过对初始核进行线性变换来间接地达到改进输入空间到输出空间的映射函数的目的,同时利用变换后的核函数来求解分类数据特征空间的超平面方程。仿真和实验结果表明,采用此方法,不仅可以提高系统的分类性能和降低噪声的干扰,而且可以增强分类结果的鲁棒性。  相似文献   

14.
在多标签分类问题中,通过k近邻的分类思想,构造测试样本关于近邻样本类别标签的新数据,通过回归模型建立在新数据下的多标签分类算法。计算测试样本在每个标签上考虑距离的k近邻,构造出每个样本关于标签的新数据集。对新数据集采取线性回归和Logistic回归,给出基于样本k近邻数据的多标签分类算法。为了进一步利用原始数据的信息,考虑每个标签关于原始属性的Markov边界,结合新数据的特征建立新的回归模型,提出考虑Markov边界的多标签分类算法。实验结果表明所给出的方法性能优于常用的多标签学习算法。  相似文献   

15.
In this paper a further generalization of differential evolution based data classification method is proposed, demonstrated and initially evaluated. The differential evolution classifier is a nearest prototype vector based classifier that applies a global optimization algorithm, differential evolution, for determining the optimal values for all free parameters of the classifier model during the training phase of the classifier. The earlier version of differential evolution classifier that applied individually optimized distance measure for each new data set to be classified is generalized here so, that instead of optimizing a single distance measure for the given data set, we take a further step by proposing an approach where distance measures are optimized individually for each feature of the data set to be classified. In particular, distance measures for each feature are selected optimally from a predefined pool of alternative distance measures. The optimal distance measures are determined by differential evolution algorithm, which is also determining the optimal values for all free parameters of the selected distance measures in parallel. After determining the optimal distance measures for each feature together with their optimal parameters, we combine all featurewisely determined distance measures to form a single total distance measure, that is to be applied for the final classification decisions. The actual classification process is still based on the nearest prototype vector principle; A sample belongs to the class represented by the nearest prototype vector when measured with the above referred optimized total distance measure. During the training process the differential evolution algorithm determines optimally the class vectors, selects optimal distance metrics for each data feature, and determines the optimal values for the free parameters of each selected distance measure. Based on experimental results with nine well known classification benchmark data sets, the proposed approach yield a statistically significant improvement to the classification accuracy of differential evolution classifier.  相似文献   

16.
Features extracted from real world applications increase dramatically, while machine learning methods decrease their performance given the previous scenario, and feature reduction is required. Particularly, for fault diagnosis in rotating machinery, the number of extracted features are sizable in order to collect all the available information from several monitored signals. Several approaches lead to data reduction using supervised or unsupervised strategies, where the supervised ones are the most reliable and its main disadvantage is the beforehand knowledge of the fault condition. This work proposes a new unsupervised algorithm for feature selection based on attribute clustering and rough set theory. Rough set theory is used to compute similarities between features through the relative dependency. The clustering approach combines classification based on distance with clustering based on prototype to group similar features, without requiring the number of clusters as an input. Additionally, the algorithm has an evolving property that allows the dynamic adjustment of the cluster structure during the clustering process, even when a new set of attributes feeds the algorithm. That gives to the algorithm an incremental learning property, avoiding a retraining process. These properties define the main contribution and significance of the proposed algorithm. Two fault diagnosis problems of fault severity classification in gears and bearings are studied to test the algorithm. Classification results show that the proposed algorithm is able to select adequate features as accurate as other feature selection and reduction approaches.  相似文献   

17.
K近邻作为模式识别研究领域的热点之一,影响其性能的距离度量也得到广泛关注。但传统KNN采用欧氏距离,平等对待所有特征间的差别,不能有效反映数据的内在结构特征。针对此问题,借鉴局部保持投影的基本思想,根据局部保持散度矩阵定义一种距离度量新方法,利用该距离度量提出一种新颖的基于马氏距离的KNN算法。该算法在基于马氏距离分布特征的方式上充分反映每一类数据的内在结构特征。实验结果表明,与传统KNN和基于马氏距离的KNN相比,该算法表现出更好的分类精度。  相似文献   

18.
通常对径向基(radial basis function,RBF)神经网络的改进大多是注重隐藏节点选取、大规模数据学习速率和函数组织形式,忽视了初始输入样本自身间的结构信息。研究发现,输入样本的不同属性对分类能力影响的程度也不同,即每个属性应该有自己的分类权重。在对样本归一化预处理后,研究了不同属性在分类时的贡献因子,提出了新的算法模型CFRBF(contribution factors RBF),用贡献因子来描述样本各个属性的重要性。选用了蛋白质二级预测问题来验证模型,传统的二级预测是将样本直接输入网络,仅仅依靠海明距离来分类,丢失大量信息。针对设计的新模型,使用了一种新的组织形式来解决预测问题。实验证明,采用新的组织形式后网络性能明显提高,而用CFRBF算法后其精度再次提高。同时通过贡献因子可以揭示看似无规律的蛋白质序列之间氨基酸构态影响关系,而且还能给出样本不同属性的分类重要性。  相似文献   

19.
文本分类是文本挖掘中最重要的研究内容之一。为了克服目前以距离衡量的近似分类算法在海量数据下耗费大量时间的缺陷,提出了结合基于余弦距离的局部敏感哈希的方式将KNN算法在TF-IDF下对中文文本进行快速分类。同时结合文本数据的特性给出了不同的哈希函数级联方式分别进行实验。在实验过程采用了布尔向量的方式规避重复访问,使分类的结果在可以允许的范围内,分类速度比原始KNN提高了许多。  相似文献   

20.
一种新的有监督流形学习方法   总被引:2,自引:0,他引:2  
提出了一种新的有监督流形学习方法,目的是提供将流形学习降维方法高效应用于有监督学习问题的全新策略.算法的核心思想是集成流形学习方法对高维流形结构数据的降维有效性与支撑向量机(SVM)在中小规模分类数据集上的优良特性实现高效有监督流形学习.算法具体实现步骤为:首先利用SVM在流形学习降维数据中选出对分类决策最重要的数据集,即支撑向量集;按标号返回可得到原空间的支撑向量集;在这个集合上再次使用SVM即可得到原空间的分类决策,从而完成有监督流形学习.在一系列人工与实际数据集上的实验验证了方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号