首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
针对数据集中属性间存在依赖关系以及对象间存在相关性,定义了一种新的相似关系模型,该模型所描述的相似关系能够体现对象之间的自然相关性.在此基础上提出一种基于属性依赖关系和对象相关性的自然聚类算法,该聚类算法在不事先指定聚类数目的情况下,将所有相似性达到设定阈值的对象自然聚为一类;当调整相似性阈值时,该算法还可实现不同粒度的聚类.通过分别对数值型数据集和分类型数据集进行实验比较分析,结果表明这种自然聚类算法与其他聚类算法相比,能够真实反映数据间的相关性以及数据集的自然簇结构,同时可以发现任意形状的簇,有效地提高了聚类的精度和质量.  相似文献   

2.
为提高金融业务数据集上的聚类质量和聚类效率,提出簇的直径、簇间的相似度这2个概念。利用距离尺度降维的中心距序降维法,将多维数据降至一维,在一维上利用自适应排序聚类算法ASC聚类。该算法和传统的Cobweb算法、K-means算法做对比,实验表明该方法能提高簇间相似度,最大提高200%。  相似文献   

3.
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺陷,定义了簇间相似度度量对传统K-均值聚类进行改进.新算法可以在事先不确定K值的情况下,根据欧氏距离选取初始质心并按照K均值算法聚类,然后过滤噪声样本并确定簇半径,计算簇间相似度并合并相似簇确定数据集的类别数并得到较优的聚类结果.通过在UCI数据集的实验结果表明,新算法能准确确定类别数并有高于传统K均值算法聚类精度.  相似文献   

4.
聚类分析是数据挖掘中一种非常重要的技术.聚类算法中的关键问题是相异度或相似度的度量,聚类结果直接依赖于相异度或相似度度量,尤其对于谱聚类方法更是如此.谱聚类算法是近期兴起的一种基于相似度矩阵的聚类算法.相比于传统的划分型聚类算法,谱聚类算法不受限于球状聚类簇,能够发现不规则形状的聚类簇.在已有的谱聚类算法中,高斯核相似度是最常用的相似度度量准则.基于高斯核相似度度量及其扩展形式,提出了一种加权的自适应的相似度度量,此相似度可以用于谱聚类以及其他基于相似度矩阵的聚类算法.新的相似度度量不仅能够描述多密度聚类簇中数据点间的相似度,而且可以降低离群点(噪声点)与其他数据点间的相似度.实验结果显示新的相似度度量可以更好地描述不同类型的数据集中数据点间的相似度,进而得到更好的聚类结果.  相似文献   

5.
刘世华  黄德才 《控制与决策》2017,32(8):1421-1426
提出一种维度概率摘要模型,将聚类产生的簇摘要信息采用各维度的概率分布来表示;定义点簇相似度、簇簇相似度等相似性度量方法;提出一种基于维度概率摘要模型的凝聚层次聚类算法.实验分析发现,所提模型和算法能够产生高质量的聚类,能够避免噪声点的影响并发现离群点,能够自动发现聚类,算法稳定可靠且对高维数据集聚类效果很好.  相似文献   

6.
聚类是数据挖掘中重要的研究方向。本文针对现有的聚类算法中相似度量的缺陷,提出了一种新的相似性度量方法。在此基础上,将粗糙集理论中的区分能力引入到聚类算法中,用来度量属性的重要性,进而提出了一种能够处理符号型数据的新的加权粗糙聚类算法。通过对UCI数据的实验表明,本文算法对数据输入顺序不敏感,且不需要预先给定簇的数目,提高了聚类的质量。  相似文献   

7.
王荣  李晋宏  宋威 《计算机工程与设计》2012,33(9):3553-3557,3568
为了得到准确有效的用户聚类,提出了一种基于关键字的用户聚类算法.该算法是在传统Rock算法的基础上进行了改进,提出了相似权重和平均邻居的概念,并且将用户关键字事务集的平均邻居数定义为用户访问模式相似性的标准.在不产生离群用户点的基础上,缩小了用户聚类的范围,将一个大的用户聚类更加精确的划分为几个小的用户聚类.利用用户之间的相似度阈值对数据进行过滤,减小了用户聚类的计算量.经过实验验证该算法有效的提高了相似用户聚类的准确性和运行效率.  相似文献   

8.
论文提出一个基于语义的文本间的相似度算法,以文本的特征词相似度为基础,来计算文本间的相似度,利用聚类算法对文本簇进行聚类.实验结果证明基于知网的文本语义相似度方法在对文本相似度计算以及文本聚类方面,能有效提高聚类的效果.  相似文献   

9.
pSCAN算法的聚类结果受密度约束参数和相似度阈值参数的影响,如果用户提供的聚类参数得到的聚类结果无法满足需求,那么用户可以通过实例簇表达自己的聚类需求。针对实例簇表达聚类查询需求的问题,提出一种实例簇驱动的图结构聚类参数计算算法PART及其改进算法ImPART。首先,分析两个聚类参数对聚类结果的影响,并提取实例簇的相关子图;其次,对相关子图进行分析得到密度约束参数的可行区间,并根据当前密度约束参数和节点之间的结构相似度将实例簇内节点划分为核心节点和非核心节点;最后,依据节点划分结果计算出当前密度约束参数对应的最优相似度阈值参数,并在相关子图上对得到的参数进行验证和优化,直到得到满足实例簇需求的聚类参数。在真实数据集上的实验结果表明,所提算法能够为用户实例簇返回一组有效参数,且所提改进算法ImPART的运行时间比PART缩短了20%以上,能够快速有效地为用户返回满足实例簇要求的最优聚类参数。  相似文献   

10.
针对评论中蕴含的商品特征数目繁多且同一特征具有多种不同描述的情况,提出一种基于语义相似度的商品特征聚类算法。算法包括"分配"和"转移"两个过程。"分配"过程对特征词进行聚类得到初始簇序列;"转移"过程依次遍历初始簇序列将簇内可能存在的与其他簇语义相似度更高的特征词转移到对应的簇。实验结果表明该算法聚类质量高、时间复杂度小且对数据输入次序不敏感。  相似文献   

11.
针对传统协同过滤推荐算法没有充分考虑用户属性及项目类别划分等因素对相似度计算产生的影响,存在数据稀疏性,从而导致推荐准确度不高的问题.提出一种基于用户属性聚类与项目划分的协同过滤推荐算法,算法对推荐准确度有重要影响的相似度计算进行了充分考虑.先对用户采用聚类算法以用户身份属性聚类,进而再对项目进行类别划分,在相似度计算中增加类别相似度,考虑共同评分用户数通过加权系数进行综合相似度计算,最后结合平均相似度,采用阈值法综合得出最近邻.实验结果表明,所提算法能够有效提高推荐精度,为用户提供更准确的推荐项目.  相似文献   

12.
针对原始kmeans算法对聚类数k很敏感这一问题,设计一种改进的kmeans算法。该算法基于共现词的原理计算词向量之间的相似性,并根据相似性阈值将数据划分为k+x个簇,再将kmeans算法用于k+x个簇中。将改进后的算法应用于文本聚类中,实验结果表明,改进后的算法比原算法聚类准确性更高。  相似文献   

13.
为了解决协同过滤算法推荐精度低的问题,提出基于用户相似度和信任度的药品推荐算法。该方法通过离线使用DBSCAN算法对药品进行聚类来降低时间复杂度。引入共同评分药品阈值使用户相似度计算更准确,同时设置相似度阈值来限定相似性邻居的选取以克服KNN算法选取邻居的缺陷。根据用户的推荐可信度和评分可信度建立信任计算模型,计算基于相似邻居集的可信邻居集。通过两次邻居选择策略为目标用户产生药品推荐。仿真结果表明,该算法与其他算法相比在平均绝对误差、准确率和召回率上有更好的性能,提高了系统推荐精度。  相似文献   

14.
基于相似度传递的协同过滤算法   总被引:2,自引:1,他引:1       下载免费PDF全文
协同过滤算法是个性化推荐系统中应用较广的算法之一。随着用户数量及项目数量的增加,数据的稀疏问题成为影响个性化推荐质量的重要因素。为此,提出一种基于相似度传递的协同过滤算法。该算法能使大于阈值的用户相似度在有限路径长度上传递,增加可用于计算推荐值的用户最近邻居的数量,减少数据稀疏问题的影响,提高推荐质量。  相似文献   

15.
传统协同过滤推荐算法的相似度量方法仅考虑用户间共同评分,忽略了用户间潜在共同评分项等信息量对推荐结果的影响。针对上述问题,设计了一种正态分布函数相似度量模型,此模型考虑了用户间的共同评分、共同评分项目数、以及用户的评分值,据此提出了融合正态分布函数相似度的协同过滤算法,该算法通过综合多种评分因素利用正态分布函数和修正的余弦相似度共同度量用户间的相似关系。实验结果表明,在两种数据集上与几种不同的推荐算法相比,该算法的相似度量方法提高了目标用户查找邻近用户集合的准确率,提高了系统的推荐质量。  相似文献   

16.
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。  相似文献   

17.
基于特征映射的微博用户标签兴趣聚类方法   总被引:1,自引:1,他引:0  
针对现有的用户兴趣聚类方法没有考虑用户标签之间存在的语义相关性问题,提出了一种基于特征映射的微博用户标签兴趣聚类方法。首先,获取待分析用户及其所关注用户的用户标签,选取出现频数高于设定阈值的标签构建模糊矩阵的特征维;然后,考虑标签之间的语义相关性,利用特征映射的思想将用户标签根 据其与特征维标签之间的语义相似度映射到每个特征维下,计算每个特征维所对应的特征值;最后,利用模糊聚类得到了不同阈值下的用户兴趣聚类结果。实验结果表明,本文提出的基于特征映射的微博用户标签兴趣聚类方法有效地改善了用户兴趣聚类效果。  相似文献   

18.
于金明  孟军  吴秋峰 《计算机应用》2017,37(5):1387-1391
针对传统协同过滤推荐算法遇到冷启动情况效果不佳的问题,提出一种基于项目相似性度量方法(IPSS)的项目协同过滤推荐算法(ICF_IPSS),其核心是一种新的项目相似性度量方法,该方法由评分相似性和结构相似性两部分构成:评分相似性部分充分考虑两个项目评分之间的评分差、项目评分与评分中值之差,以及项目评分与其他评分平均值之差;结构相似性部分定义了共同评分项目占所有项目比重,并惩罚活跃用户的逆项目频率(ⅡF)系数。在Movie Lens和Jester数据集下测试算法准确率。在Movie Lens数据集下,当近邻数量为10时,ICF_IPSS的平均绝对偏差(MAE)和均方根误差(RMSE)分别比基于Jaccard系数的均方差异系数的项目协同过滤算法(ICF_JMSD)低3.06%和1.20%;当推荐项目数量为10时,ICF_IPSS的准确率和召回率分别比ICF_JMSD提升67.79%和67.86%。实验结果表明,基于IPSS的项目协同过滤算法在预测准确率和分类准确率方面均优于基于传统相似性度量的项目协同过滤算法,如ICF_JMSD等。  相似文献   

19.
程宏兵  王珂  李兵  钱漫匀 《计算机科学》2018,45(Z6):433-436, 452
当今社会,人们越来越多地通过社交网络来发言、聊天、交友。在互动过程中,除了用户主动关注感兴趣的人之外,社交网络也会为其推荐朋友。然而,所推荐的朋友大部分只是社交网络的推广,不一定符合用户的兴趣。针对社交网络推荐朋友的随机性和不可靠等问题,研究并提出了一种基于用户兴趣标签匹配的高效朋友推荐方案。首先,通过Word2Vec来训练语料库中的关键词,得到每个关键词的向量,产生一个词向量空间。其次,利用余弦相似度技术计算关键词之间的相似度并通过实验进行比较。实验中,综合选取合适的相似度值作为两个词向量是否相似的判断阈值。最后,将选取的相似度阈值应用到所提出的朋友兴趣匹配推荐算法中,并进行性能测试和各方案的仿真比较。结果表明,所提出的方案可靠且准确。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号