首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
引文网络体现了文献研究内容上的相关性及知识的传递,包含了大量的研究关联性信息,被广泛地用于对文章重要性进行鉴定.但当前缺少一种在引文网络基础上识别研究群体的方法.为寻找具有相关研究的作者群体,首先研究文献之间的引用关系,建立基于引文路径的引文分析模型,最后构造相关性指标并利用DBScan算法对引文网络进行聚类.通过对文章间关联强度的定义,运用聚类方法挖掘出学术研究群体,实现了一种新颖、且复杂度较低的研究群体识别方法.  相似文献   

2.
近年来, 随着生物医学文献数量的大量增加,对生物医学文献进行搜索和挖掘,查找有用的信息成为了生物信息学的一个重要研究方向.聚类作为一种无监督的自动化程度很高的机器学习方法,在信息检索和生物信息学领域中获得了广泛的运用.针对生物医学文本的特点提出了基于距离学习的聚类算法,实验结果证明了该方法的有效性.  相似文献   

3.
传统的文献聚类算法根据分析文献关键词进行,忽视了文献之间的引用关系,导致了主题漂移和搜索精度不高的问题。针对引文网络中的聚类问题,受到优先情节和增长定律的启发,提出了一种基于角色划分的分层次的文献软聚类算法。首先根据文献之间的引用关系构造引用矩阵,进行结构挖掘;然后根据结构挖掘的结果为每一聚类构造聚类主题,进而进行关键词分析,精化聚类。实验结果表明,该算法能够有效地提高搜索精度和效率。  相似文献   

4.
《软件》2019,(8):89-94
聚类是对文本信息进行有效组织、摘要和导航的重要手段。K-means算法是非常典型的基于距离的聚类算法,将其用于中文文献聚类,按照内容相似性把一组文献分成几个类并发现其中的隐形知识。本文通过实例,总结了基于Python语言的K-means算法用于中文文献聚类过程,通过CH指标、轮廓系数指标和SSE指标这三个评价指标选取K-means算法的初始聚类簇数,即最优k值的取值范围,然后分别按照基于关键词和基于摘要对文献进行聚类,并对聚类结果进行比较分析,从而得出基于摘要对中文文献进行聚类可以得到更好结果的结论,同一类别中的文献可以进行关键词聚类,从而进一步挖掘其中的隐形知识。  相似文献   

5.
改进层次聚类算法在文献分析中的应用   总被引:1,自引:0,他引:1  
科技文献代表了科技发展的方向,对其分析有助于准确把握科技前沿.本文提出一种基于层次聚类的改进算法用于对科技文献进行聚类研究,以便识别科技文献所关注的创新设计方向.该算法通过观测不同距离条件下孤立点数目的变化情况,自动计算并判断层次聚类算法中所需的聚类终止条件.这样既避免了层次聚类算法中需要预先输入终止条件的不足,又保持了层次聚类算法聚类精度高的优点,且改进算法的复杂度和普通层次聚类算法的一致.运用上述改进算法对200篇文献进行聚类运算,与k-means算法的对比实验证明,改进层次聚类算法聚类效果良好,从而验证了该算法的可行性.  相似文献   

6.
聚类集成可以有效提高传统聚类算法的精度,其关键问题在于如何根据聚类成员提供的信息获得更加优越的聚类结果.设计一种聚类集成算法,它结合K均值算法与基于拉普拉斯矩阵的谱聚类算法,充分利用聚类成员提供的属性信息与关系信息.为了降低算法计算复杂度,通过代数变换方法有效避免了大规模矩阵的特征值分解问题.在多组真实数据集上的实验结果表明,提出的算法优于其他聚类集成算法.  相似文献   

7.
属性图各节点附有的节点属性标签,为节点提供了更加丰富的信息,在数据挖掘应用,特别是数据聚类问题中如何有效利用这些丰富的信息,已经成为开展此类研究的研究目的.不同于传统图聚类,属性图上的聚类要同时考虑图的结构信息和节点的属性信息,因此如何平衡两者之间的关系,这是属性图聚类主要关注所在.目前已提出的属性图聚类算法,部分算法的效率很高,然而聚类质量较差,同时一些算法可以得到较好的聚类结构,然而算法消耗大量的系统资源,效率也较低.这些算法均没有考虑簇之间存在重叠的情况,这导致无法得到更高精度的聚类结构.因而提出一种属性图上的重叠聚类挖掘算法,实验表明,提出的算法可以得到更高的聚类精度,特别是可以提升聚类内部节点的属性相似度.  相似文献   

8.
视频镜头聚类是基于内容的视频分析和检索领域中的一个重要问题.提出了一种对视频镜头的半监督聚类算法(SSCA),该算法首先在初始化时对已知的成对实例约束集进行聚类,利用在初始化时生成的簇来指导高维空间中其他视频镜头数据的聚类.由于高维空间中不同的维度存在着不同的相关性,所以为每一个簇引入权重向量.之后提出了一种基于最大距离的聚类中心分割策略,来解决聚类中心的选取问题.最后,考虑到对于聚类个数的选择往往对最终的结果有很大的影响,算法中采用贝叶斯信息准则来评估给定范围的聚类个数.实验结果表明,提出的算法有效地提高了聚类算法的准确性并减少了算法的响应时间.  相似文献   

9.
一种结合主动学习的半监督文档聚类算法   总被引:1,自引:0,他引:1  
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法.  相似文献   

10.
密度敏感的半监督谱聚类   总被引:27,自引:0,他引:27  
王玲  薄列峰  焦李成 《软件学报》2007,18(10):2412-2422
聚类通常被认为是一种无监督的数据分析方法,然而在实际问题中可以很容易地获得有限的样本先验信息,如样本的成对限制信息.大量研究表明,在聚类搜索过程中充分利用先验信息会显著提高聚类算法的性能.首先分析了在聚类过程中仅利用成对限制信息存在的不足,尝试探索数据集本身固有的先验信息--空间一致性先验信息,并提出利用这类先验信息的具体方法.接着,将两类先验信息同时引入经典的谱聚类算法中,提出一种密度敏感的半监督谱聚类算法(density-sensitive semi-supervised spectral clustering algorithm,简称DS-SSC).两类先验信息在指导聚类搜索的过程中能够起到相辅相成的作用,这使得DS-SSC算法相对于仅利用成对限制信息的聚类算法在聚类性能上有了显著的提高.在UCI基准数据集、USPS手写体数字集以及TREC的文本数据集上的实验结果验证了这一点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号