首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
协同过滤算法中存在着数据稀疏性和可扩展性问题,由于用户和项目数据量巨大致使数据十分稀疏,且不同数据集中数据存在差异,致使现有算法中的相似度计算不够准确和用户聚类效果不佳,对推荐算法准确率产生了显著影响。为了提高相似度计算和最近邻居搜索的准确率,提出了一种基于相似度优化和流形学习的协同过滤算法。通过加权因子优化相似度计算,结合流形学习对稀疏的用户评分数降维后进行谱聚类,通过获得的全局最优解提高聚类所得目标用户最近邻居的准确率,进而提高协同过滤推荐精度。在Epinions数据集和MovieLens数据集上进行实验,结果表明,提出的算法可以有效降低协同过滤算法的平均绝对误差和均方根误差,提高召回率,拥有更高的推荐准确率。  相似文献   

2.
针对于蚁群聚类算法在搬运数据项过程中随机选择移动位置时,由于无效移动导致的算法收敛速度缓慢等缺陷,论文提出了一种基于相似度的蚁群聚类算法.通过设计相似度矩阵,基于相似移动机制将蚂蚁随机移动方式优化为按照相似度矩阵规则实施目的性的关联.实验选取Iis、Wine、Haberman和Balance-scale四种经典数据集,相较于现有的LF算法及GACC算法,结果表明在蚂蚁空载率都为90%的条件下,论文提出的SMACC算法的迭代次数明显降低,均体现出较优的聚类速率.  相似文献   

3.
康顺  李佳田 《计算机应用》2013,33(10):2974-2976
通过对空间点群的自适应聚类方法构建层次Voronoi图,以此层次Voronoi图为切入点,计算点群的拓扑、密度和范围的相似度,结合有关标准差的数理统计方法,计算角度、距离的相似度。在各维度的相似度基础上,使用其几何平均值作为点群整体相似度的度量标准,优化点群相似度的计算方法,并通过实验证明算法的可行性  相似文献   

4.
对舰船三维模型进行视点空间均匀投影,投影图像存在信息冗余,聚类技术是消除冗余投影的方法之一.由于缺少舰船投影的聚类知识,为了避免聚类结果受限于初始类代表点选择的缺点,研究了仿射传播聚类算法,首先提取所有投影图像特征,然后将所有特征进行归一化处理并作为初始聚类中心,提出了用空间向量模型计算特征相似度的方法,合并相似特征对应的投影图像,最后用聚类中心特征表示舰船目标.为了进一步验证改进相似度聚类算法的聚类质量,进行了聚类有效性分析,实验表明改进算法聚类质量好于原算法.  相似文献   

5.
文本聚类过程中,存在着文本数据空间维数巨大,聚类的数目不能直接确定等问题。为此,有专家学者提出了次胜者受罚的竞争学习(Rival Penalized Competitive Learning)算法,简称RPCL算法。该算法在一定程度上,解决了聚类的数目的确定问题。但是,该算法只适合做低维数据的聚类,对于高维数据聚类效果极差。该文提出了一种改进的RPCL算法,该方法不再采用欧氏距离去计算相似度,而是采用模糊相似度的方法,通过实验表明,改进的RPCL算法在聚类效果上好于经典的RPCL算法。  相似文献   

6.
针对K-均值聚类算法对初始聚类中心存在依赖性的缺陷,提出一种基于数据空间分布选取初始聚类中心的改进算法.该算法首先定义样本距离、样本平均差异度和样本集总体平均差异度;然后将每个样本按平均差异度排序,选择平均差异度较大且与已选聚类中心的差异度大于样本集总体平均差异度的样本作为初始聚类中心.实验表明,改进后的算法不仅提高了聚类结果的稳定性和正确率,而且迭代次数明显减少,收敛速度快.  相似文献   

7.
为了减少协同过滤算法存在的噪音数据以及数据稀疏性问题,提高算法准确性,本文提出一种基于信息熵和改进相似度的协同过滤算法,使用用户信息熵模型来判断噪音数据,排除噪音数据对实验结果的干扰;使用面向稀疏数据的改进相似度计算方法,使用全部评分数据而不是依靠共同的评分项来计算,对缓解稀疏数据对推荐结果的精确性影响有很大帮助。实验结果表明,该算法能在一定程度上排除噪音数据对结果的影响,缓解数据稀疏对推荐结果精确性的干扰,提高该推荐算法的精确性,且缓解了传统推荐系统算法中常见的一些问题,与传统的协同过滤算法相比,该算法的精确性更高。  相似文献   

8.
通过分析现有短文本聚类算法的缺陷,提出了一种基于改进相似度与类中心向量的半监督短文本聚类算法。首先,定义强类别区分度词,利用已加标数据的类别信息提取并构造强类别区分度词集合,并对基于初始特征的余弦相似度和基于强类别区分度词项的相似度进行有效融合,得到更加合理的改进的短文本相似度计算公式。然后,通过计算样本与类中心向量的相似度实现对未分类样本的正确划分,与此同时,更新加标数据集合、类中心向量,重新抽取强类别区分度词。重复这个过程,直到实现所有数据的类别划分。实验表明:与其他同类算法相比,本文算法在聚类准确性和时间效率上有了较大的改进。  相似文献   

9.
基于相似度的词聚类算法和可变长语言模型   总被引:3,自引:0,他引:3  
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义一种词相似度,基于相似度,提出一种自下而上的分层聚类算法.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出一种新的基于类的可变长语言模型(Vari-gram)的生成方法.  相似文献   

10.
基于锚文本相似度的PageRank改进算法   总被引:3,自引:0,他引:3       下载免费PDF全文
王钟斐  王彪 《计算机工程》2010,36(24):258-260
分析搜索引擎Google的PageRank算法,给出其存在的3个问题及针对这3个问题提出的改进。结合锚文本相似度提出一种改进的PageRank算法,利用Nutch对传统PageRank算法和改进后的PageRank算法进行实验分析与比较。实验结果表明,改进的PageRank算法提高了搜索结果的查准率,有利于减少主题漂移现象。  相似文献   

11.
协同过滤算法是目前推荐系统中应用最广泛的技术,相似度的计算是该算法中关键的一步,它直接影响到后续的目标用户邻居集的选取及评分预测,最终决定着推荐的准确度。在传统的基于用户的协同过滤中,相似度的计算未考虑用户评分差异和商品的热度对相似度计算的影响。论文引入平均评分修正因子和热门商品惩罚因子,对传统的相似度计算公式加以优化。实验表明,改进后的相似度算法在电影推荐时,平均绝对误差(MAE)值较其他相似度算法更低,有着更好的推荐效果。  相似文献   

12.
提出一种优化传统协同聚类中模糊点类别归属的改进算法,该算法引入基于清晰半径的新相似性距离公式,用超球体中心区域代替传统算法中的类中心,在各子集初始聚类结果的基础上,对容易导致类别归属错误的模糊点重新计算隶属度,得到较为清晰的聚类结果。实验结果显示,改进算法能很大程度地减少边界上的模糊点个数及纠正分类错误,清晰半径的引入还能弱化各子集之间协同系数的差异,使得参数设置更为简单。  相似文献   

13.
针对如何更准确地分析校园无线网络数据中隐藏的社交关系亲密度, 本文提出了改进DBSCAN时空聚类算法. 首先, 通过采集校园无线网络数据, 在根据学生连接WiFi的地点, 时间等信息形成时空轨迹. 运用改进的算法对时空轨迹聚类. 其次, 对聚类结果进行特征轨迹提取, 运用LCSS算法进行相似性对比, 轨迹间相似度越高说明关系比较亲密; 相似度越低, 可能是较孤僻的学生, 老师需要进一步排查和引导教育. 最后, 运用FinBI对轨迹聚类结果可视化展示. 实验结果表明, 该算法提高了聚类结果的准确性和有效性, 为解决其他相似性问题提供思路.  相似文献   

14.
语义相似度计算就是把词语间语言学上的信息映射为0到1之间的数值.基于知识本体的语义相似度计算方法,利用知识本体提供的信息,建立词语关系和语义相似度之间的函数关系,该方法可解释性强、使用简单,成为语义相似度计算的一类重要方法.提出了一种基于《同义词词林》的语义相似度计算模型,该模型运用遗传算法探索了《同义词词林》语义编码...  相似文献   

15.
基于父个体相似度的自适应遗传算法   总被引:3,自引:2,他引:3  
标准遗传算法在产生后代个体时采用先交叉后变异的策略,一方面当父个体非常相似时,交叉操作很难产生新的个体,影响算法对新的解空间进行搜索,从而导致种群多样性的丧失;另一方面交叉产生的优秀个体再历经变异,极有可能遭破坏而影响算法的收敛性。该文根据染色体的相似性,给出了个体相似度的概念,并在此基础上提出了依据父个体相似度的大小自适应地选择遗传算子(交叉或变异)的遗传算法。仿真实验表明,与采用常规遗传策略的遗传算法相比,新算法能显著提高解的质量和收敛速度。  相似文献   

16.
聚类是数据挖掘中重要组成部分,为了提高聚类的处理效率,将并行处理技术运用于k-means和PAM算法中,对k-means与PAM算法进行了改进。实验结果表明:并行k-means算法相对串行k-means算法有更好的执行效率;且k-means算法有比PAM算法更好的并行性和可扩展性。最后,该文提出和介绍了将并行技术引入谱聚类算法。  相似文献   

17.
句子语义相似度的研究在自然语言处理等领域发挥着重要的作用.针对现有汉语句子相似度研究中存在的语义特征难以分析以及语序影响的问题,提出了一种基于DTW和匈牙利算法相结合的语义句子相似度处理模型.模型首先使用Word2vec深度学习模型训练百度新闻语料,得到200维的包含语义特征的词向量词典,并建立词向量空间,根据词向量组...  相似文献   

18.
介绍了聚类算法的分类,对每一类聚类方法给出了典型的聚类算法,重点对基于划分算法的PAN算法给出了详细的阐述,总结和归纳了PAM算法四种代价的计算方法,同时给出了其性能分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号