首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
一种基于增量式谱聚类的动态社区自适应发现算法   总被引:6,自引:0,他引:6  
蒋盛益  杨博泓  王连喜 《自动化学报》2015,41(12):2017-2025
针对当前复杂网络动态社区发现的热点问题, 提出一种面向静态网络社区发现的链接相关线性谱聚类算法, 并在此基础上提出一种基于增量式谱聚类的动态社区自适应发现算法. 动态社区发现算法引入归一化图形拉普拉斯矩阵呈现复杂网络节点之间的关 系,采用拉普拉斯本征映射将节点投影到k维欧式空间.为解决离群节点影响谱聚类的效果和启发式确定复杂网络社区数量的问题, 利用提出的链接相关线性谱聚类算法发现初始时间片的社区结构, 使发现社区的过程能够以较低的时间开销自适应地挖掘复杂网络社区结构. 此后, 对于后续相邻的时间片, 提出的增量式谱聚类算法以前一时间片聚类获得的社区特征为基础, 通过调整链接相关线性谱聚类算法实现对后一时间片的增量聚类, 以达到自适应地发现复杂网络动态社区的目的. 在多个数据集的实验表明, 提出的链接相关线性谱聚类算法能够有效地检测出复杂网络中的社区结构以及基于 增量式谱聚类的动态社区自适应发现算法能够有效地挖掘网络中动态社区的演化过程.  相似文献   

3.
为了能够更加有效地发现社会网络中具有重叠性的社区结构,提出一种基于链接密度聚类的重叠社区发现算法DBLINK.该算法首先以网络中的边集为对象,将其划分为若干个互不相连的链接社区,再将所得到的链接社区转化为最终的节点社区,隶属于不同链接社区边的交点即为网络中的重叠节点.由于DBLINK采用基于密度的算法对边集进行聚类,将不满足一定条件的边孤立出来,使其不隶属于任何链接社区,因此可以避免社区结构过度重叠的现象发生,从而提高了重叠社区发现的质量.实验结果表明,DBLINK不仅具有较好的时间效率,而且在社区发现的质量方面也优于其他几种代表性的重叠社区发现算法.  相似文献   

4.
本文引入HowNet知识库,实现中文文档的概念聚类,提高文本聚类分析的效率;应用形式概念分析的技术对概念聚类后的中文文本类簇的主题进行抽取,并对类簇间关联进行分析,提高了文本聚类结果的可读性。最后,通过两个实验,评测了该聚类分析和类簇主题抽取方法的优缺点。  相似文献   

5.
本文引入HowNet知识库,实现中文文档的概念聚类.提高文本聚类分析的效率;应用形式概念分析的技术对概念聚类后的中文文本类簇的主题进行抽取。并对类簇间关联进行分析,提高了文本聚类结果的可读性。最后,通过两个实验,评测了该聚类分析和类簇主题抽取方法的优缺点。  相似文献   

6.
一种用于Web文本聚类的特征选择方法   总被引:1,自引:0,他引:1  
特征选择已经广泛地应用在文本分类和文本聚类中,相对于无监督的特征选择方法,有监督的特征选择方法在过滤噪音等方面更为有效.但是,由于缺少类标签,它很难应用到文本聚类中.提出了一种针对Web文本聚类的新的特征选择算法--基于k-means的多特征联合选择算法(MFCC).MFCC充分利用了一个特征空间的中间聚类结果来帮助另一个特征空间进行特征选择.实验证明,MFCC有效地提高了聚类质量.  相似文献   

7.
鉴于计算代价高昂的谱聚类无法满足海量网络社区发现的需求,提出一种用于网络重叠社区发现的谱聚类集成算法(SCEA).首先,利用高效的近似谱聚类(KASP)算法生成个体聚类集合;然后,引入个体聚类选择机制对个体聚类进行优选,并对优选后的个体聚类建立簇相似图;最后,进行层次软聚类,得到网络节点的软划分.实验结果表明,与代表性算法(CPM,Link,COPRA,SSDE)相比较,SCEA能够挖掘出具有更高规范化互信息(NMI)的网络重叠社区结构,且具有相对较好的鲁棒性.  相似文献   

8.
总结了数据挖掘中聚类算法的研究现状,分析比较了它们的差异及局限性。提出了一种新的聚类方法。通过实例得出该方法为数据挖掘提供了有效的平台。  相似文献   

9.
朱二周  孙悦  张远翔  高新  马汝辉  李学俊 《软件学报》2021,32(10):3085-3103
聚类分析是统计学、模式识别和机器学习等领域的研究热点.通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来.然而,无监督学习的特性使得当前已有的聚类方法依旧面临着聚类效果不稳定、无法对多种结构的数据集进行正确聚类等问题.针对这些问题,首先将K-means算法和层次聚类算法的聚类思想相结合,提出了一种混合聚类算...  相似文献   

10.
图的聚类是数据聚类的一种很重要的变体,一方面通常可以用图来表示数据集中数据的相似度;另一方面对大型复杂网络的分析也引起人们越来越多地关注;而且对图进行聚类分析可以增强图的可视性,有助于可视化的分析、观测和导航。将最大最小方法的基本思想应用于非加权图的聚类,提出一种无向连通非加权图的快速聚类方法,该方法具有简单、聚类时间短、运行效率高、对于大型静态图的聚类具有良好的适应性等特点。  相似文献   

11.
Web社区发现技术综述   总被引:23,自引:1,他引:22  
Web是一个复杂超文本所组成的巨大的信息源,而且以很快的速度在不断的扩大.针对这样一个不断变化的信息源,如何利用和发现Web中的有用信息变得具有挑战性.Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要的信息.通过对社区信息的认识可以帮助我们总览Web的全貌.而将Web按照社区来组织有许多优点.社区可以引导用户找到感兴趣的信息;社区可以帮助Internet/Intranet服务提供者有效地组织门户;社区可以帮助制造商准确地找到消费者.社区还代表了Web的社会活动,因为Web就是一个社会性的网络.目前,许多社区的发现和维护是依靠人工来完成的,维护成本较高,修改也困难;此外,还存在着许多不为人知或者称为潜在的社区,而这些社区是无法通过人工来发现的.因此,许多研究都在致力于社区的自动或半自动发现技术.社区的发现主要采用基于Web图形的链接分析技术.在方法上大致上分为两类,一类是面向某个主题的社区发现,而另一个是无主题的社区发现技术.对于社区的发现技术做了较为全面的分析,并且总结了社区发现技术中依然存在的、挑战性的问题和未来的研究趋势.  相似文献   

12.
Search engines retrieve and rank Web pages which are not only relevant to a query but also important or popular for the users. This popularity has been studied by analysis of the links between Web resources. Link-based page ranking models such as PageRank and HITS assign a global weight to each page regardless of its location. This popularity measurement has shown successful on general search engines. However unlike general search engines, location-based search engines should retrieve and rank higher the pages which are more popular locally. The best results for a location-based query are those which are not only relevant to the topic but also popular with or cited by local users. Current ranking models are often less effective for these queries since they are unable to estimate the local popularity. We offer a model for calculating the local popularity of Web resources using back link locations. Our model automatically assigns correct locations to the links and content and uses them to calculate new geo-rank scores for each page. The experiments show more accurate geo-ranking of search engine results when this model is used for processing location-based queries.  相似文献   

13.
一种面向广域Web集群的仿真平台   总被引:1,自引:0,他引:1  
李捷  张连堂 《计算机应用》2006,26(2):451-0452
在分析最新研究成果的基础上,对广域Web服务器集群环境建立了数学模型,并据此设计并实现了仿真平台。仿真结果表明利用该软件仿真平台,可以有效地分析Web集群系统的性能,为其设计和评估提供可靠的依据。  相似文献   

14.
近年来,图嵌入已经成为图神经网络领域研究的热点。图嵌入作为图任务分析的一种重要手段,将图的高维非欧信息编码到低维向量空间中,从而提升下游任务的性能和效率。为了及时掌握当前基于随机游走的图嵌入方法的研究现状,通过归纳与整理,对现有的经典模型进行介绍与分类,主要分为基于经典随机游走的模型和基于属性游走的模型;然后对每一种模型解决的问题、算法思想、模型策略、优缺点和应用场景进行了详细的归纳与分析,并在几种常见的数据集上评估了部分模型的性能。通过研究发现,当前的基于随机游走的图嵌入亟待解决四个方面的问题:属性选择、可扩展性、嵌入维度选择和可解释性,针对这些问题,图嵌入需要建立一致的理论框架,为后面的研究提供可参考的标准。  相似文献   

15.
Web大数据环境下的不一致跨源数据发现   总被引:2,自引:0,他引:2  
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.  相似文献   

16.
肖荣 《计算机工程》2010,36(11):70-72
提出使用网表示可分配寄存器对象,通过对网的活跃性数据流分析,构造网的冲突图。与变量冲突图相比,将基于变量的节点分裂成基于网的节点,将同一变量的冲突关系分摊到多个网上,虽增加冲突图节点数量,但降低节点度数,使得用更少颜色对冲突图着色,即可减少所需寄存器的数量,生成更加高效的可执行代码,使存器分配更为灵活。  相似文献   

17.
提出一种基于图的半指导学习算法用于网页分类.采用k近邻算法构建一个带权图,图中节点为已标志或未标志的网页,连接边的权重表示类的传播概率,将网页分类问题形式化为图中类的概率传播.为有效利用图中未标志节点辅助分类,结合网页的内容信息和链接信息计算网页间的链接权重,通过已标志节点,类别信息以一定概率从已标志节点推向未标志节点.实验表明,本文提出的算法能有效改进网页分类结果.  相似文献   

18.
孔令旗  杨梦龙 《计算机应用》2011,31(5):1395-1399
针对FEC算法存在的稳定性不够、网络簇抽取质量亟待提高等问题,从以下几个方面对原算法进行了改进:在随机游走前添加了选择目标顶点功能;采用自动步数探测法取消了原算法的随机游走步数参数;在原有的簇抽取评价条件的基础上补充了簇间连接权重评价;通过引入阈值参数实现了簇抽取粒度的可控性。测试结果表明,改进后的算法在稳定性、抗干扰性和聚类分析质量等方面比原算法都有所提高。  相似文献   

19.
将互联网上的新闻事件按照时间顺序和事件依赖关系组织起来呈现给用户,可以帮助用户方便快捷地了解新闻事件演进过程.定义了Web新闻流增量演进任务(IEA)来实现这一需求.与一些类似的工作比较,IEA具有以下特点:适合Web新闻事件的流特征,以图的方式在时间线上增量更新新闻话题的事件演化过程.为了完成IEA任务,定义了一个事件进展图(EEG)数据结构,并相应地提出了EEG构造和整理算法.实验证明,该方法可以有效地实现新闻事件时间线分析的任务.  相似文献   

20.
Web社区管理研究综述   总被引:1,自引:0,他引:1       下载免费PDF全文
随着互联网不断增长,对Web社区这种新的社会交流应用形式进行研究具有重要的意义,并引起人们广泛关注,但其理论研究仍然落后于实践。通过讨论Web社区的定义,对比分析国内外的研究现状,对Web社区管理的研究主要集中在建模、社区发现、用户交互和推荐等领域,其中社区发现和推荐研究充分利用了Web社区具有关系和协同的特点。总结相关研究成果,并从服务管理、声誉管理和社会搜索三个方面对未来的研究趋势进行了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号