首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
双向聚类迭代的协同过滤推荐算法   总被引:1,自引:1,他引:0  
协同过滤是电子商务推荐系统中广泛采用的技术,然而数据稀疏性会影响协同过滤的推荐质量。针对数据稀疏问题提出一种双向聚类迭代的协同过滤推荐算法,对初始得到的用户聚类和项目聚类进行交叉迭代调整,使得聚类簇达到较为稳定的状态。调整后聚类簇的内聚性更强,类之间的区分度更大。实验表明,在调整后的聚类簇中查找邻居将更加准确,可以有效解决数据稀疏问题的影响,有利于提高推荐的准确性。  相似文献   

2.
稀疏子空间聚类是利用子空间并集中数据向量的稀疏表示,从而将数据划分到各自子空间,该类方法关键是求出最优稀疏解。文中采用交替方向法求稀疏解,交替方向法把复杂问题分解成简单的、有效求解的子问题,达到最优速度。在交替方向法求解过程中,通常惩罚因子是恒定不变的。文中提出一种惩罚因子参数自调整策略,根据每次迭代信息,调整惩罚因子参数。基于运动分割数据和Hopkins数据库实验,结果表明在迭代次数和运算时间上,稀疏子空间聚类的交替方向法及其惩罚参数自调整策略比传统算法有很大提高,而且对噪声数据也非常有效。  相似文献   

3.
针对传统协同过滤算法中数据稀疏造成推荐准确度低以及K-means聚类算法需要预先确定聚类个数的问题,提出自适应K-means聚类算法(SKCA)。引入物理学中的拓扑势场理论,利用拓扑势值进行用户重要性表示并获得用户影响范围,结合改进K-means算法完成用户聚类并得到各类代表用户,目标用户通过与各代表用户进行用户相似度计算确定最优代表用户,在最优代表用户场域内使用协同过滤算法进行推荐。与其它算法对比的实验结果表明,SKCA在准确率、F值及运行效率上都有提升,有效缓解了数据稀疏的影响。  相似文献   

4.
针对协同过滤推荐算法中数据极端稀疏所带来的推荐精度低下的问题,文中提出一种基于情景的协同过滤推荐算法。通过引入项目情景相似度的概念,基于项目情景相似度改进了用户之间相似度的计算公式,并将此方法应用至用户离线聚类过程中,最终利用用户聚类矩阵和用户评分数据产生在线推荐。实验结果表明,该算法能够在数据稀疏的情况下定位目标用户的最近邻,一定程度上缓解数据极端稀疏性引起的问题,并减少系统在线推荐的时间。  相似文献   

5.
针对数据稀疏性问题,提出一种基于稀疏子空间聚类和预测评分的协同过滤算法。利用稀疏子空间聚类对用户评分矩阵进行聚类,可以保留更多有用信息。考虑用户评分尺度和用户之间的可信度问题,提出融合信任度的概念,通过计算用户间的信任度,最终使用用户间的信任度与相似度的结合作为新的权重进行推荐。  相似文献   

6.
针对传统的协同过滤推荐算法存在评分数据稀疏和推荐准确率偏低的问题,提出了一种优化聚类的协同过滤推荐算法。根据用户的评分差异对原始评分矩阵进行预处理,再将得到的用户项目评分矩阵以及项目类型矩阵构造用户类别偏好矩阵,更好反映用户的兴趣偏好,缓解数据的稀疏性。在该矩阵上利用花朵授粉优化的模糊聚类算法对用户聚类,增强用户的聚类效果,并将项目偏好信息的相似度与项目评分矩阵的相似度进行加权求和,得到多个最近邻居。融合时间因素对目标用户进行项目评分预测,改善用户兴趣变化对推荐效果的影响。通过在MovieLens 100k数据集上实验结果表明,提出的算法缓解了数据的稀疏性问题,提高了推荐的准确性。  相似文献   

7.
为了解决传统聚类算法难以获得较好的Web用户聚类结果、使用的指标无法全面反映用户行为特征的问题,提出一种基于粒度原理的Web用户聚类算法。首先对离散化数据给出稀疏相似度和初始等价关系的定义,进行初次聚类;然后设计可变精度的二次聚类模型对初始聚类结果进行修正;最后结合应用领域定义一种新的聚类质量评价模型。算法中面向Web用户引入多指标体系,各种指标既可独立考核,也可灵活组合,并同时兼顾决策者对指标的偏好。实验证明,该算法适用于Web用户的高维稀疏数据,不依赖样本的顺序,具有更广应用性,可提供多粒度分析结果,得到的聚类结果能真实反映数据的特征。  相似文献   

8.
协同过滤算法可根据用户的偏好,预测其感兴趣的项目,这项技术是目前商业领域中应用较为广泛且成功的。过去,使用协同过滤算法会因其数据的稀疏性及使用K-Means算法聚类时需要预先确定聚类个数等问题影响协同过滤算法的准确性。针对上述问题,提出了一种多聚类融合的协同过滤推荐算法。首先,构建用户-项目评分矩阵;其次,根据用户兴趣、偏好矩阵查找待估值项所对应的近邻用户,随后使用Slope One算法在对每一个簇内的稀疏矩阵进行填充,从而缓解数据稀疏性问题;再次,使用Canopy聚类算法进行粗聚类,将计算出的每个中心点作为K-Means算法的初始聚类点并进行K-Means细聚类;最后,优化后的协同过滤算法最终被用来预测每个簇中填充后的评分矩阵,并采用带时间加权的相似度公式。最终实验数据显示,优化后能够有效提升算法的效率与推荐质量。  相似文献   

9.
协同过滤推荐算法使用评分数据作为学习的数据源,针对协同过滤推荐算法中存在的评分数据稀疏以及算法的可拓展性问题,提出了一种基于聚类和用户偏好的协同过滤推荐算法。为了挖掘用户的偏好,该算法引入了用户对项目类型的平均评分到评分矩阵中,并加入了基于用户自身属性的相似度;同时,为了降低数据稀疏性,该算法使用Weighted Slope One算法填充评分数据中的未评分项,并通过融入密度和距离优化初始聚类中心的K-means算法聚类填充后的评分数据中的用户,缩小了相似用户的搜索空间;最后在聚类后的数据集中使用传统的协同过滤推荐算法生成目标用户的推荐结果。通过使用MovieLens100K数据集实验证明,提出的算法对推荐效果有所改善。  相似文献   

10.
随着用户项目数量的增长,用户项目矩阵变得越来越稀疏,使用基于最小生成树的k-means算法对项目进行聚类并以聚类结果对用户评分矩阵进行预测填充。考虑到Slope One算法存在用户兴趣变化问题,将时间权重加入Slope One算法中进行评分预测。将改进后的算法在Movie Lens数据集上进行验证,结果表明,改进后的算法可有效解决稀疏性问题和用户兴趣变化问题,并将MAE值降低到0.015以下。  相似文献   

11.
CFSFDP(Clustering by Fast Search and Find of Density Peaks)是一种新的基于密度的聚类算法。该算法可以对非球形分布的数据聚类,有待调节参数少、聚类速度快等优点。但是对于类簇间密度相差较大的数据,该算法容易遗漏密度较小的类簇而影响聚类的准确率。针对这一问题,提出了基于密度比例峰值聚类算法即R-CFSFDP。该算法将密度比例引入到CFSFDP中,通过计算样本数据的密度比峰值来提高数据中密度较小类簇的辨识度,进而提升整体聚类的准确率。基于9个常用测试数据集(2个人工合成数据集,7个UCI数据集)的聚类实验结果表明,对于类簇间密度相差较大和类簇形状复杂的数据聚类问题,R-CFSFDP能够使得类簇中心更加清晰、易确定,聚类结果更好。  相似文献   

12.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。  相似文献   

13.
针对聚类算法在教育大数据应用中存在的聚类数目依赖人工经验等问题,提出一种新的聚类有效性指标,用簇内全部样本与簇中心的距离之和表示簇内紧密度,用任意两簇间样本距离和的最小值表示簇间分离度,通过平衡簇内紧密度和簇间分离度之间的关系,实现最优聚类的划分。在UCI和KDD CUP99数据集上的测试结果表明,新指标的聚类质量评价结果有效、可靠。在此基础上,结合近邻传播算法设计新的聚类分析模型,使用该模型对某高校学生的职业能力进行聚类分析,结果表明:新模型能够准确地给出聚类数目k,有效地挖掘出学生的职业倾向,可以为大学生职业潜能分析、企业的人才选择提供依据与决策。  相似文献   

14.
基于划分和凝聚层次聚类的无监督异常检测   总被引:3,自引:1,他引:2       下载免费PDF全文
李娜  钟诚 《计算机工程》2008,34(2):120-123
将信息熵理论应用于入侵检测的聚类问题,给出在混合属性条件下数据之间距离、数据与簇之间距离、簇与簇之间距离的定义,以整体相似度的聚类质量评价标准作为聚类合并的策略,提出了一种基于划分和凝聚层次聚类的无监督的异常检测算法。算法分析和实验结果表明,该算法具有较好的检测性能并能有效检测出未知入侵行为。  相似文献   

15.
针对大多数基于向量空间模型的中文文本聚类算法存在高维稀疏、忽略词语之间的语义联系、缺少聚簇描述等问题,提出基于语义列表的中文文本聚类算法CTCAUSL(Chinese text clustering algorithm using semantic list)。该算法采用语义列表表示文本,一个文本的语义列表中的词是该文本中出现的词,从而降低了数据维数,且不存在稀疏问题;同时利用词语间的相似度计算解决了同义词近义词的问题;最后用语义列表对聚簇进行描述,增加了聚类结果的可读性。实验结果表明,CTCAUSL算法在处理大量文本数据方面具有较好的性能,并能明显提高中文文本聚类的准确性。  相似文献   

16.
The well-known Fuzzy C-Means (FCM) algorithm for data clustering has been extended to Evidential C-Means (ECM) algorithm in order to work in the belief functions framework with credal partitions of the data. Depending on data clustering problems, some barycenters of clusters given by ECM can become very close to each other in some cases, and this can cause serious troubles in the performance of ECM for the data clustering. To circumvent this problem, we introduce the notion of imprecise cluster in this paper. The principle of our approach is to consider that objects lying in the middle of specific classes (clusters) barycenters must be committed with equal belief to each specific cluster instead of belonging to an imprecise meta-cluster as done classically in ECM algorithm. Outliers object far away of the centers of two (or more) specific clusters that are hard to be distinguished, will be committed to the imprecise cluster (a disjunctive meta-cluster) composed by these specific clusters. The new Belief C-Means (BCM) algorithm proposed in this paper follows this very simple principle. In BCM, the mass of belief of specific cluster for each object is computed according to distance between object and the center of the cluster it may belong to. The distances between object and centers of the specific clusters and the distances among these centers will be both taken into account in the determination of the mass of belief of the meta-cluster. We do not use the barycenter of the meta-cluster in BCM algorithm contrariwise to what is done with ECM. In this paper we also present several examples to illustrate the interest of BCM, and to show its main differences with respect to clustering techniques based on FCM and ECM.  相似文献   

17.
Since in practical data mining problems high-dimensional data are clustered, the resulting clusters are high-dimensional geometrical objects, which are difficult to analyze and interpret. Cluster validity measures try to solve this problem by providing a single numerical value. As a low dimensional graphical representation of the clusters could be much more informative than such a single value, this paper proposes a new tool for the visualization of fuzzy clustering results. By using the basic properties of fuzzy clustering algorithms, this new tool maps the cluster centers and the data such that the distances between the clusters and the data-points are preserved. During the iterative mapping process, the algorithm uses the membership values of the data and minimizes an objective function similar to the original clustering algorithm. Comparing to the original Sammon mapping not only reliable cluster shapes are obtained but the numerical complexity of the algorithm is also drastically reduced. The developed tool has been applied for visualization of reconstructed phase space trajectories of chaotic systems. The case study demonstrates that proposed FUZZSAMM algorithm is a useful tool in user-guided clustering.  相似文献   

18.
This paper presents partitioning dynamic clustering methods for interval-valued data based on suitable adaptive quadratic distances. These methods furnish a partition and a prototype for each cluster by optimizing an adequacy criterion that measures the fitting between the clusters and their representatives. These adaptive quadratic distances change at each algorithm iteration and can either be the same for all clusters or different from one cluster to another. Moreover, various tools for the partition and cluster interpretation of interval-valued data are also presented. Experiments with real and synthetic interval-valued data sets show the usefulness of these adaptive clustering methods and the merit of the partition and cluster interpretation tools.  相似文献   

19.
CABOSFV是一种有效的高维数据聚类算法。针对CABOSFV算法倾向于将数据对象分配到更大的类中这一问题,提出一种拓展差异度的高维数据聚类算法(CABOSFV_D)。该算法引入了调整指数[p],对原始稀疏差异度进行拓展,降低类大小对对象分配的影响;同时用位集的方式实现CABOSFV_D算法,使算法的运算效率明显提升。基于多个UCI标准数据集进行聚类实验,结果表明CABOSFV_D在聚类效果和时间效率上均优于原始CABOSFV算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号