首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
姜大庆  周勇 《计算机科学》2012,39(11):142-144
针对现有个性化推荐服务系统中用户会话聚类算法存在相似性度量准确性低和需要事先确定聚类数目的问 题,对序化的用户访问页面和对应的访问时间信息进行整合,提出一种基于动态规划算法的全序列比对方法来度量用 户会话的相似性。在此基础上,运用改进的NJ W谱聚类算法对用户会话进行自动谱聚类。实验结果表明,算法充分 考虑了用户会话的整体特征和局部信息,较相关比对算法具有更高的聚类性能,可以提高网站个性化推荐服务的效 率。  相似文献   

2.
针对于蚁群聚类算法在搬运数据项过程中随机选择移动位置时,由于无效移动导致的算法收敛速度缓慢等缺陷,论文提出了一种基于相似度的蚁群聚类算法.通过设计相似度矩阵,基于相似移动机制将蚂蚁随机移动方式优化为按照相似度矩阵规则实施目的性的关联.实验选取Iis、Wine、Haberman和Balance-scale四种经典数据集,相较于现有的LF算法及GACC算法,结果表明在蚂蚁空载率都为90%的条件下,论文提出的SMACC算法的迭代次数明显降低,均体现出较优的聚类速率.  相似文献   

3.
基于动态规划的汉语句子相似度算法   总被引:2,自引:0,他引:2  
传统汉语句子相似度计算算法在处理大量专业词汇时准确率较低。为此,提出一种基于动态规划的汉语句子相似度算法。通过获取2个句子的公共子串集合,结合链表消重机制,从集合中获取2个句子的所有最长公共子串,并以此计算相似度。实验结果表明,对于含有大量专有名词的问题集合,该算法的测试正确率达93.6%,计算效率较高。  相似文献   

4.
用于Web文档聚类的基于相似度的软聚类算法   总被引:3,自引:1,他引:3  
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-mcans的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。  相似文献   

5.
文本聚类过程中,存在着文本数据空间维数巨大,聚类的数目不能直接确定等问题。为此,有专家学者提出了次胜者受罚的竞争学习(Rival Penalized Competitive Learning)算法,简称RPCL算法。该算法在一定程度上,解决了聚类的数目的确定问题。但是,该算法只适合做低维数据的聚类,对于高维数据聚类效果极差。该文提出了一种改进的RPCL算法,该方法不再采用欧氏距离去计算相似度,而是采用模糊相似度的方法,通过实验表明,改进的RPCL算法在聚类效果上好于经典的RPCL算法。  相似文献   

6.
首先提出了一种基于属性值的co-occurrence相似度概念,通过对其进一步的研究,提出了3个等价性表述;然后对属性值之间的co-occurrence相似度进行引申,给出了数据对象之间co-occurrence相似度的定义,并将其成功应用到聚类集成方法中。利用co-occurrence相似度在计算某个初始聚类结果中数据对象之间的相似度时,充分考虑了其他初始聚类结果和该初始聚类结果之间的相互影响和联系。实验表明, 基于co-occurrence相似度的聚类集成(CSCE)方法能有效识别数据之间的细微结构,有助于提高聚类集成的效果。  相似文献   

7.
张豪  陈黎飞  郭躬德 《计算机科学》2015,42(5):114-118, 141
符号序列由有限个符号按一定顺序排列而成,广泛存在于数据挖掘的许多应用领域,如基因序列、蛋白质序列和语音序列等.作为序列挖掘的一种主要方法,序列聚类分析在识别序列数据内在结构等方面具有重要的应用价值;同时,由于符号序列间相似性度量较为困难,序列聚类也是当前的一项开放性难题.首先提出一种新的符号序列相似度度量,引入长度规范因子解决现有度量对序列长度敏感的问题,从而提高了符号序列相似度度量的有效性.在此基础上,提出一种新的聚类方法,根据样本相似度构建无回路连通图,通过图划分进行符号序列的层次聚类.在多个实际数据集上的实验结果表明,采用规范化度量的新方法可以有效提高符号序列的聚类精度.  相似文献   

8.
多种字符串相似度算法的比较研究   总被引:3,自引:0,他引:3  
对计算字符串相似度的编辑距离算法、最长公共子串算法、贪心字符串匹配算法、RKR-GST等多种算法,根据匹配过程是否有序,对这些算法进行了分类。然后对每种算法的实现原理进行了描述,并给出每个算法的运行步骤,结合一个实际的例子列出了算法运行的结果,最后给出每种算法计算相似度的计算公式和算法时间复杂度及应用领域。由于字符串相似度具有广泛的应用领域,对其中经典的几种算法进行总结对比是一件十分有意义的研究工作。  相似文献   

9.
基于语义相似度与优化的构件聚类算法   总被引:1,自引:2,他引:1  
为克服刻面分类表示法的人为主观因素,采用了刻面分类与全文检索相结合的方法对构件进行了表示.同时,从语义角度出发,结合优化技术,提出了一种基于语义相似度与优化的构件聚类算法.该算法有效地减少了刻面分类的主观性因素,进一步提高了构件查询的效率和准确性,并与基于向量空间模型的构件聚类效果进行比较.实验结果表明,基于语义相似度与优化的构件聚类算法的有效性,它在一定程度上改善了构件聚类的效果,提高了聚类质量.  相似文献   

10.
基于改进编辑距离的字符串相似度求解算法   总被引:1,自引:0,他引:1  
编辑距离(LD)算法在求解两个字符串的相似问题时只考虑了编辑操作次数,未考虑字符串之间的公共子串对相似度的影响。为此,提出一种基于改进编辑距离的字符串相似度求解算法,对字符串相似度度量公式及Levenshtein矩阵计算方法进行改进。在计算编辑距离时,以原有矩阵求出两字符串的最长公共子串及所有LD回溯路径。选取一个单词作为源串,一组与源串不同程度相似的单词为目标串,将改进的相似度度量公式与现有的字符串相似度计算方法进行比较,改进公式减少了进入胜者表的目标串数,相似度的样本极差和标准差分别为0.331和0.150。实验结果表明,改进算法在不改变空间复杂度的情况下,计算字符串相似度的准确性更高,且查询方式更灵活。  相似文献   

11.
随着基因工程产生大量新序列,导致蛋白质序列数据库的迅速增长,巨量蛋白质数据的功能组和族谱分析使蛋白质序列聚类分析成为结构和功能基因组学重要的研究目标,应用数据挖掘技术对生物数据进行聚类分析成为生物信息学研究的热点。聚类分析算法中的CLARA划分算法已广泛应用于其它领域,但在大数据量蛋白质序列聚类分析中应用很少,文章应用CLARA算法对在基准数据库中选取的蛋白质序列进行聚类分析,并将结果与其它几种蛋白质聚类算法进行了比较。  相似文献   

12.
在综合分析标准的模糊C-均值聚类算法和条件模糊C-均值聚类算法基础上,对模糊划分空间进行修改,进一步弱化模糊划分矩阵的约束,给出一种扩展的条件模糊C-均值聚类算法。算法的划分矩阵和原型不依赖于背景约束及模糊划分矩阵的隶属度总和。实验结果表明:该算法可以得到不同的聚类原型,并具有很好的聚类效果。  相似文献   

13.
姜代红 《计算机应用》2011,31(12):3252-3254
针对ISODATA算法需要人为给定分类数,对初始聚类中心较为敏感,没有显示出自动聚类效果等不足,结合基因表达式编程(GEP)嵌套构成迭代自组织模糊聚类进行优化计算。该方法不仅能在不需要先验知识的条件下对数据进行自动聚类,而且充分利用了GEP算法的全局寻优能力及ISODATA算法的软性分类特性,提高了算法的收敛速度和聚类精度。通过仿真验证及对比分析,运用到地理信息系统(GIS)物流选址实际问题中,得到了理想聚类效果。  相似文献   

14.
针对无线传感器网络(WSN)的节点能量有限、生命周期短、吞吐量低等问题,提出一种基于遗传算法(GA)和模糊C均值(FCM)聚类的WSN分簇路由算法GAFCMCR,采取"集中分簇,分布簇头选举"的方式。网络初始化时基站采用由GA优化的FCM聚类算法形成网络分簇。第一轮簇头由距簇中心最近的节点担任;从第二轮开始,簇头的选举由上一轮的簇头负责,选举过程综合考虑候选节点的剩余能量、与基站的距离、与簇内其他节点的平均距离三个因子,并根据网络状态实时调整三个因子的权重。在数据传输阶段,将轮询机制引入簇内通信。仿真结果表明,相同网络环境下,与LEACH算法和基于K-Means的均匀分簇路由(KUCR)算法相比,GAFCMCR将网络生命周期延长了105%和20%。GAFCMCR成簇效果良好,具有良好的能量均衡性和更高的吞吐量。  相似文献   

15.
新的基于网格的聚类算法(CABG)利用网格处理技术对数据进行了预处理,能根据数据分布情况动态计算每个单元格的半径,并成功地将网格预处理后所得单元格数据运用于其后的聚类分析中,从而简化了算法所需的初始参数。实验表明,CABG算法不仅具有DBSCAN算法准确挖掘各种形状的聚类和很好的噪声处理能力的优点,而且具有较高聚类速度以及对初始参数较低的敏感度。  相似文献   

16.
并行处理的研究在数据挖掘中是十分必要的。在理论分析的基础上,提出在对经典串行PAM算法进行并行时应如何从局部聚类信息生成完备的全局聚类信息,据此提出了算法DPAM,在提高计算性能的同时,使聚类质量等价于相应串行PAM算法。为提高并行算法的执行效率,还介绍了如何减小计算结点间通信的代价。最后对提出的算法进行性能分析和实验,说明该算法是高效可行的。  相似文献   

17.
张妨妨  钱雪忠 《计算机应用》2012,32(9):2476-2479
针对传统GK聚类算法无法自动确定聚类数和对初始聚类中心比较敏感的缺陷,提出一种改进的GK聚类算法。该算法首先通过基于类间分离度和类内紧致性的权和的新有效性指标来确定最佳聚类数;然后,利用改进的熵聚类的思想来确定初始聚类中心;最后,根据判定出的聚类数和新的聚类中心进行聚类。实验结果表明,新指标能准确地判断出类间有交叠的数据集的最佳聚类数,且改进后的算法具有更高的聚类准确率。  相似文献   

18.
In this paper, a novel gene expression clustering method known as eXploratory K-Means (XK-Means) is proposed. The method is based on the integration of the K-Means framework, and an exploratory mechanism to prevent premature convergence of the clustering process. Experimental results reveal that the performance of XK-Means in grouping gene expressions, measured in terms of speed, error and stability, is superior to existing methods that are based on evolutionary algorithm. In addition, the complexity of the proposed method is lower and the method can be easily implemented in practice.  相似文献   

19.
针对无线传感器网络( WSNs)分簇路由算法中的能量洞、热点和抗干扰问题,设计一种抗干扰半静态分簇( AlSSC)路由算法,给无线传感器网络提供能量多、距离短、链路质量好的路径来传输数据.该算法利用节点定位获取节点地理位置,综合考虑传感器节点剩余能量和干扰信噪比,通过节点距离度量、节点聚簇、簇间融合、簇头选举和簇头轮换五个步骤进行无线传感器网络节点的分簇.仿真结果表明:这种路由算法可以提高无线传感器网络通信链路质量,均衡网络能量消耗.  相似文献   

20.
软硬结合的快速模糊C-均值聚类算法的研究   总被引:1,自引:1,他引:1  
讨论的是对模糊C-均值聚类方法的改进,在原有的模糊C-均值算法的基础上,提出一种软硬结合的快速模糊C-均值聚类算法。快速模糊C-均值聚类算法是在模糊C-均值聚类算法之前加入一层硬C-均值聚类算法。硬聚类算法能比模糊聚类算法以高得多的速度完成,将硬聚类中心作为模糊聚类中心的迭代初值,从而提高模糊C-均值聚类算法的收敛速度,这对于大量数据的聚类是很有意义的。用数据仿真验证了这种快速模糊C-均值聚类算法比模糊C-均值算法迭代调整过程短,收敛速度快,聚类效果好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号