首页 | 本学科首页   官方微博 | 高级检索  
 共查询到20条相似文献,搜索用时 15 毫秒
基于变精度粗糙集的Web用户聚类方法   总被引:1,自引:1,他引:0       下载免费PDF全文
针对Web使用挖掘中的用户聚类问题,提出一种基于变精度粗糙集理论的粗糙聚类方法,该方法放宽经典粗糙集中不可区分关系的传递性将其扩展为相容关系,使用变精度粗糙集的相对错误分类率β来形成新的相似β上近似,从而将一个用户划分到多个聚类,该方法不需要区分用户会话,降低了数据预处理的难度,通过理论推导和实例证明了其有效性。  相似文献   

一种半监督K均值多关系数据聚类算法   总被引:1,自引:0,他引:1  
高滢  刘大有  齐红  刘赫 《软件学报》2008,19(11):2814-2821
提出了一种半监督K均值多关系数据聚类算法.该算法在K均值聚类算法的基础上扩展了其初始类簇的选择方法和对象相似性度量方法,以用于多关系数据的半监督学习.为了获取高性能,该算法在聚类过程中充分利用了标记数据、对象属性及各种关系信息.多关系数据库Movie上的实验结果验证了该算法的有效性.  相似文献   

Unsupervised Rough Set Classification Using GAs   总被引:10,自引:1,他引:9  

粗糙的方向性模糊聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
根据高维数据具有方向性的特征,结合概率模糊聚类算法与粗糙集理论提出了一种粗糙的方向性模糊聚类算法。该算法在概率模糊聚类算法中引入了数据方向相似性函数,能对不确定数据进行处理。在算法中利用粗糙集中的下近似集与边界集来确定目标对象函数,属于下近似集的数据在聚类时是确定的,属于边界的数据具有模糊性。实验结果表明,该算法能有效地对高维的方向性数据进行聚类。  相似文献   

基于粗糙集与K-均值聚类的故障知识挖掘   总被引:1,自引:0,他引:1  
徐袭  祝力  范学鑫 《微计算机信息》2007,23(15):141-143
针对连续数据故障诊断知识挖掘,提出了一种将粗糙集理论与K-均值聚类算法相结合的故障诊断知识挖掘方法。该方法在提取设备状态参数数据的基础上,应用K-均值聚类算法将各状态参数下的连续数据离散化为有限类别,再应用粗糙集对所获得的离散数据表进行约简,获得由状态数据出发的故障诊断知识表格。应用于柴油机故障诊断数据知识挖掘,可以快速准确地获得故障诊断知识,方法简单易用。  相似文献   

一种基于容错粗糙集的Web搜索结果聚类方法   总被引:1,自引:0,他引:1  
一些Web聚类方法把类严格作为互斥的关系,聚类效果不理想.一种基于容错粗糙集的k均值的聚类解决了这一问题.首先运用向量模型表示Web文档信息,采用常规方法得到文本特征词集,然后利用某些特征词协同出现的价值,构造特征词客错关系,扩充特征词的描述能力,最后用特征词容错类描述文档之间的相似关系,实现了Web搜索结果聚类,并提出了简单直观的衡量聚类精度的T模型.实验结果表明,利用容错关系聚类的类标记描述性强、容易理解、明显优于普通k均值算法.  相似文献   

一种基于粗糙集的网页分类方法   总被引:16,自引:2,他引:16  
Internet的迅速发展带来了一个新的问题,如何有效,迅速地从浩瀚的Web网页中找到所需要的信息,机器学习的发展给这个问题的解决提供了一个新的方向,本文将粗糙集理论应用于网页分类,提出了一种基于粗糙集的决策表约简的增量式学习算法,并利用该算法实现了一个Web网页的分类器,实验结果表明该分类器具有良好的性能。  相似文献   

Feature Weighting in k-Means Clustering   总被引:3,自引:0,他引:3  
Data sets with multiple, heterogeneous feature spaces occur frequently. We present an abstract framework for integrating multiple feature spaces in the k-means clustering algorithm. Our main ideas are (i) to represent each data object as a tuple of multiple feature vectors, (ii) to assign a suitable (and possibly different) distortion measure to each feature space, (iii) to combine distortions on different feature spaces, in a convex fashion, by assigning (possibly) different relative weights to each, (iv) for a fixed weighting, to cluster using the proposed convex k-means algorithm, and (v) to determine the optimal feature weighting to be the one that yields the clustering that simultaneously minimizes the average within-cluster dispersion and maximizes the average between-cluster dispersion along all the feature spaces. Using precision/recall evaluations and known ground truth classifications, we empirically demonstrate the effectiveness of feature weighting in clustering on several different application domains.  相似文献   

一种带变异操作的粒子群聚类算法   总被引:1,自引:1,他引:0       下载免费PDF全文
针对基本粒子群算法的早熟收敛和收敛较慢的问题,提出了一种带变异操作的粒子群聚类算法。算法中对出现早熟收敛的种群采取变异操作,使其能够跳出局部最优解。对Iris植物样本数据的测试结果表明:该算法具有很好的全局收敛性和较快的收敛速度。  相似文献   

一种半监督K均值多关系数据聚类算法   总被引:3,自引:1,他引:3  
提出了一种半监督K均值多关系数据聚类算法.该算法在K均值聚类算法的基础上扩展了其初始类簇的选择方法和对象相似性度量方法,以用于多关系数据的半监督学习.为了获取高性能,该算法在聚类过程中充分利用了标记数据、对象属性及各种关系信息.多关系数据库Movie上的实验结果验证了该算法的有效性.  相似文献   

Web日志挖掘可以通过对用户访问模式进行分析,以获取用户的访问兴趣程度。目前,大多数的web日志挖掘是基于频率的,其挖掘的信息没有太大的价值。而提出的聚类技术是基于访问时间的,使用模糊向量表示用户浏览模式,记录用户是否浏览过该页面以及停留的时间。通过不同的聚类方法对用户的访问序列进行聚类分析。将模糊粗糙[k]-均值和夹角余弦相结合,提出了一种双层聚类技术,减少了对初始聚类中心的敏感性,并且通过一系列实验,论证了该聚类方法的可行性。而且,实验通过使用Davies-Bouldin指标来验证不同聚类方法的效果并进行比较。由于数据量大时,仍然存在算法效率低的问题,因此,使用MapReduce实现双层聚类的并行化,提高了聚类的效率。  相似文献   

基于粗糙集理论的WEB日志中关联规则提取   总被引:2,自引:0,他引:2  
随着互联网的飞速发展,WEB日志挖掘,也就是从WEB日志中发现和分析出用户的有用信息已成为研究热点.基于关联规则的方法是WEB挖掘的重要方法.本文应用粗糙集理论提取WEB日志中的关联规则,并将关联规则集用于用户行为的预测上,实验证明,该方法的预测精度要好于现有的方法.  相似文献   

基于多例学习的Web图像聚类   总被引:2,自引:0,他引:2  
在图像分类和自动标注系统中,多例学习(MIL)是研究的热点.目前MIL中的算法多为监督学习方法.针对非监督学习,在基于EM算法和启发式迭代优化算法的框架下,提出了6种多例聚类算法,并通过它们对来自于真实Web环境下的图像进行聚类以分析用户的搜索兴趣.由于一幅图像含有若干个区域,每个区域可被看为一个样例,属于同一个图像的区域则组成一个包.因此如何理解图像语义内容的问题即转化为多例学习.在多例学习的经典数据集MUSK数据和来自于Web图像集上的比较实验表明,提出的多例聚类算法具有优良的聚类性能.  相似文献   


Diabetic Retinopathy (DR) is a vision disease due to the long-term prevalence of Diabetes Mellitus. It affects the retina of the eye and causes severe damage to the vision. If not treated on time it may lead to permanent vision loss in diabetic patients. Today’s development in science has no medication to cure Diabetic Retinopathy. However, if diagnosed at an early stage it can be controlled and permanent vision loss can be avoided. Compared to the diabetic population, experts to diagnose Diabetic Retinopathy are very less in particular to local areas. Hence an automatic computer-aided diagnosis for DR detection is necessary. In this paper, we propose an unsupervised clustering technique to automatically cluster the DR into one of its five development stages. The deep learning based unsupervised clustering is made to improve itself with the help of fuzzy rough c-means clustering where cluster centers are updated by fuzzy rough c-means clustering algorithm during the forward pass and the deep learning model representations are updated by Stochastic Gradient Descent during the backward pass of training. The proposed method was implemented using python and the results were taken on DGX server with Tesla V100 GPU cards. An experimental result on the publically available Kaggle dataset shows an overall accuracy of 88.7%. The proposed model improves the accuracy of DR diagnosis compared to the existing unsupervised algorithms like k-means, FCM, auto-encoder, and FRCM with alexnet.


Towards a Software Change Classification System: A Rough Set Approach   总被引:1,自引:0,他引:1  
The basic contribution of this paper is the presentation of two methods that can be used to design a practical software change classification system based on data mining methods from rough set theory. These methods incorporate recent advances in rough set theory related to coping with the uncertainty in making change decisions either during software development or during post-deployment of a software system. Two well-known software engineering data sets have been used as means of benchmarking the proposed classification methods, and also to facilitate comparison with other published studies on the same data sets. Two technologies in computation intelligence (CI) are used in the design of the software change classification systems described in this paper, namely, rough sets (a granular computing technology) and genetic algorithms. Using 10-fold cross validated paired t-test, this paper also compares the rough set classification learning method with the Waikato Environment for Knowledge Analysis (WEKA) classification learning method. The contribution of this paper is the presentation of two models for software change classification based on two CI technologies.  相似文献   

Probabilistic Decision Tables in the Variable Precision Rough Set Model   总被引:5,自引:0,他引:5  
The Variable Precision Rough Set Model (VPRS) is an extension of the original rough set model. This extension is directed towards deriving decision table-based predictive models from data with parametrically adjustable degrees of accuracy. The imprecise nature of such models leads to quite significant modification of the classical notion of decision table. This is accomplished by introducing the idea of approximation region-based, or probabilistic decision table which is a tabular specification of three, in general uncertain, disjunctive decision rules corresponding to rough approximation regions: positive, boundary and negative regions. The focus of the paper is on the extraction of such decision tables from data, their relationship to conjunctive rules and probabilistic assessment of decision confidence with such rules.  相似文献   

智能化搜索是当今商务网站制作搜索引擎的一个发展方向 ,它的特点就是迎合每个用户的兴趣 ,将尽量精确的有关网页页面展现在用户面前。粗糙集理论是一种处理含糊和不精确性问题的新型数学工具 ,特别对于数据挖掘和知识发现更是提供了一个完备的理论基础。本文首先对Rough集理论中上、下近似集和近似精度的基本概念进行了描述 ,然后引用了Rough集中的上、下近似集及其近似精度的理论 ,利用简化的WWW模型 ,将所搜索到的网页形成一棵用户兴趣树 ,再对此棵树上的网页结点进行约简 ,从而能够使展现在用户面前的网页页面尽量准确  相似文献   

本文基于粗糙集理论和模糊聚类的方法对图书馆的用户评价数据进行了分析,旨在寻找用户评价指标之间的关联规则,确定用户评价的关键性指标。  相似文献   

针对粗糙聚类算法缺乏对数据比例变换的鲁棒性的问题,在粗糙聚类的框架下融合模糊聚类的思想,将临界区域中对象的模糊隶属度作为它们对于聚类中心调整的作用权值,得到一种带有模糊权的粗糙聚类算法(fuzzy weighing rough clustering algorithm, FWRCA).实验表明,该算法不仅对于数据的比例变化具有鲁棒性,且在一定程度上克服了粗糙C均值聚类算法对划分阈值ε的敏感性,在性能上优于传统粗糙C均值聚类算法(如RCMCA),可应用于水电工程科学等以原型模型为研究手段并有大量需做比例变换的观测数据的领域.  相似文献   

稀疏编码已经广泛应用于复数图像的降噪问题,其中,近些年提出的分组稀疏编码由于能够充分利用同一分组图像块的相似性,在滤除噪声和提高降噪信噪比方面具有更大的优势.研究了一种基于K-means聚类方法的复数图像分组稀疏降噪算法,通过改进聚类算法,验证了K-means算法对分组稀疏编码算法的分组有效性.采用在线复数词典训练算法快速获取编码字典,并运用分组正交匹配追踪算法,实现了分组图像块的稀疏编码.通过限制每一分组图像块中编码的相似性,有效抑制了对图像块中噪声的编码,提高了对复数图像的降噪效果.为验证算法的有效性,对模拟和真实的干涉合成孔径雷达图像的仿真噪声进行了定量分析,证明了所提算法相对于以前的分组稀疏编码算法在峰值信噪比指标上有一定的提升.最后对真实的干涉合成孔径雷达图像进行了降噪,进一步验证了所提降噪算法对于真实噪声的降噪能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号