首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
采用谱系聚类方法对大量数据进行离散化处理,通过散点图和树状图自动寻求最优分类数目。胶合板缺陷检测样本数据离散化实验结果表明,该方法根据数据内部结构特点,进行了可变的类别划分,与可k均值聚类和模糊聚类相比,该方法使约简的条件属性进一步减少,有利于数据的后期处理,并且进一步减少了系统的运行时间。  相似文献   

2.
随着人们在互联网上的行为日益丰富,互联网上的社交行为和关系逐渐接近传统的客观世界的社交网络,并能够真实反映出人与人之间在客观世界的真实关系。可以从互联网中通过搜索的方式来构建一个真实客观世界的社会网络。社会网络搜索技术及其方法逐渐成为目前的研究热点,如何对每个Web进行人名同一性判断是社会网络搜索的关键技术。为了从文本中抽取准确的特征并降低向量维度,本文给出了一个基于C-value和逆文档频率IDF的特征向量权值计算方法;实现了基于余弦夹角的相似度计算的算法;通过对文本聚类算法中层次聚类算法和划分聚类算法的研究,给出一种改进的层次聚类算法来实现人名同一性判断。以搜索引擎的人名检索结果进行测试,说明了基于改进的层次聚类算法能有效地提高人名同一性判断的性能。  相似文献   

3.
近几年,网络被在线数据库迅速深化。在深网中,大量的资料提供了丰富的数据模式。这些模式详细说明了它们的目标领域和查询性能。因此对大规模数据的整合是当前面临的挑战。在数据挖掘中聚类分析是一个重要方法,为了发现通过这种统计分布管理的聚类,提出了一个新的目标函数:模型-区别(model-differentiation)。实验显示对于聚类Web查询模式,凝聚的层次聚类能正确地组织资料,区别模型函数胜过现有的凝聚的层次聚类。  相似文献   

4.
陈娟  王贤  黄青松 《微机发展》2007,17(11):107-109
近几年,网络被在线数据库迅速深化。在深网中,大量的资料提供了丰富的数据模式。这些模式详细说明了它们的目标领域和查询性能。因此对大规模数据的整合是当前面临的挑战。在数据挖掘中聚类分析是一个重要方法,为了发现通过这种统计分布管理的聚类,提出了一个新的目标函数:模型-区别(model-differentiation)。实验显示对于聚类Web查询模式,凝聚的层次聚类能正确地组织资料,区别模型函数胜过现有的凝聚的层次聚类。  相似文献   

5.
逄琳  刘方爱 《计算机应用》2016,36(6):1634-1638
针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。  相似文献   

6.
基于数据对象间的关联限制定义了类间关联系数,本文提出了两阶段的限制层次聚类算法TCCL.算法分为两个阶段,第一阶段主要依据数据对象的自然分布,基于数据对象间的距离把它们合并入一个个小类;在第二阶段,依据背景知识,基于类间关联系数来实现小类的进一步合并.一些实际数据集的实验结果表明,TCCL可以比较有效地利用所给关联限制来改善聚类效果.  相似文献   

7.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

8.
快速模糊C均值聚类彩色图像分割方法   总被引:33,自引:3,他引:33       下载免费PDF全文
模糊C均值(FCM)聚类用于彩色图像分割具有简单直观、易于实现的特点,但存在聚类性能受中心点初始化影响且计算量大等问题,为此,提出了一种快速模糊聚类方法(FFCM)。这种方法利用分层减法聚类把图像数据分成一定数量的色彩相近的子集,一方面,子集中心用于初始化聚类中心点;另一方面,利用子集中心点和分布密度进行模糊聚类,由于聚类样本数量显著减少以及分层减法聚类计算量小,故可以大幅提高模糊C均值算法的计算速度,进而可以利用聚类有效性分析指标快速确定聚类数目。实验表明,这种方法不需事先确定聚类数目并且在优化聚类性能不变的前提下,可以使模糊聚类的速度得到明显提高,实现彩色图像的快速分割。  相似文献   

9.
Clustering Web data is one important technique for extracting knowledge from the Web. In this paper, a novel method is presented to facilitate the clustering. The method determines the appropriate number of clusters and provides suitable representatives for each cluster by inference from a Bayesian network. Furthermore, by means of the Bayesian network, the contents of the Web pages are converted into vectors of lower dimensions. The method is also extended for hierarchical clustering, and a useful heuristic is developed to select a good hierarchy. The experimental results show that the clusters produced benefit from high quality.  相似文献   

10.
针对现有Web社会关系评估方法准确率较低的问题,提出一种结合网页与语句共现的Web社会关系评估方法。根据人名对在Web中的网页共现和页面内语句共现情况,综合评估2个人之间社会关系的强弱,设计相应的关系评估函数。实验结果表明,该评估方法能准确地度量Web社会关系的强弱,并且在度量关系权重时,语句共现比网页共现对评估结果的准确性起到更重要的决定作用。  相似文献   

11.
熊智  郭成城 《计算机工程》2008,34(5):110-112
HTTP/1.1的持续连接特性会给基于内容请求分发的Web集群服务器带来额外的开销。为减少这种开销,可将用户经常一起访问的网页组成簇并以簇为单位来分布文档。如何衡量网页间的距离是网页组簇的关键问题。该文提出一种基于马尔可夫链的衡量网页间距离的方法,该方法同时考虑了用户访问的时间相关性和用户的访问路径。实例表明,与基于时间相关性的衡量网页间距离的方法相比,采用该衡量方法能更有效地减少网页组簇后HTTP/1.1持续连接所带来的额外开销。  相似文献   

12.
康顺  李佳田 《计算机应用》2013,33(10):2974-2976
通过对空间点群的自适应聚类方法构建层次Voronoi图,以此层次Voronoi图为切入点,计算点群的拓扑、密度和范围的相似度,结合有关标准差的数理统计方法,计算角度、距离的相似度。在各维度的相似度基础上,使用其几何平均值作为点群整体相似度的度量标准,优化点群相似度的计算方法,并通过实验证明算法的可行性  相似文献   

13.
基于最近社交圈的社交时延容忍网络路由策略   总被引:2,自引:0,他引:2       下载免费PDF全文
无稳定拓扑使时延容忍网络(delay tolerant networks, DTN)路由协议主要通过增加冗余数据包副本提高路由性能.社交网络是DTN的一种典型应用场景,但由于其网络规模相对较大,当网络负载高时,通常的DTN路由不能有效控制数据包副本的数量,从而产生大量丢包导致性能下降.借鉴MANET网络中利用分簇结构控制网络冗余路由数据包的思想,通过分析社交网络中节点的移动模型,定义了在社交关系的约束下,聚合移动规律相近的节点构成最近社交圈的节点簇组成策略.提出了一种基于该分簇结构的分为簇外喷射、簇间转发和簇内传染3个阶段的社交时延网络路由协议.实验证明,这种基于最近社交圈分簇结构的路由能有效地控制冗余数据包副本的产生,并在高网络负载的情况下仍然能够达到较好的性能.  相似文献   

14.
分层网络数据分布优化策略   总被引:1,自引:0,他引:1  
提出了采用簇的技术来处理分层网络数据分布优化问题,并给出了其数学模型、优化算法及可行性分析。对于一般的网络,给出了把它完全映射到一个分层网络上的方法,以至于完全可以利用分层网络的数据分布优化算法来处理一般网络的数据分布优化问题。  相似文献   

15.
The rapid development of the World Wide Web as a medium of commerce and information dissemination has generated a growing interest of web portal managers in systems able to identify user profiles from the web access logs. The interpretation of these profiles can help re-organize the web portal, e.g., by restructuring the site’s content more efficiently, or even to build adaptive web portals, i.e., portals whose organization and presentation change depending on the specific visitor’s needs. In this paper, we assume that the pages of the web portal have been prearranged in a number of different categories. We introduce a systematic approach to determine a hierarchy of user profiles from the history of users’ accesses to the categories. First, we filter the access log by removing both occasional users and categories of poor interest. Then, we apply an Unsupervised Fuzzy Divisive Hierarchical Clustering (UFDHC) algorithm to cluster the users of the web portal into a hierarchy of fuzzy groups characterized by a set of common interests and each represented by a prototype, which defines the profile of the group typical member. To identify the profile a specific user belongs to, we propose a novel classification method which completely exploits the information contained in the hierarchy. To prove the effectiveness of our approach, we apply the UFDHC algorithm to access log data collected over a period of 15 days and use the classification method to associate a profile with the users defined by access log data collected during subsequent 60 days. Finally, we highlight the good characteristics of our system by comparing our results with the ones obtained by applying a profiling system based on a modified version of the fuzzy C-means.  相似文献   

16.
一种新的复杂网络聚类算法   总被引:4,自引:2,他引:2  
揭示网络簇结构的复杂网络聚类方法研究具有重要的理论意义和应用价值。应用两种谱方法将复杂网络簇结构发现问题转换为空间数据聚类问题,并将粒子群聚类算法应用到对复杂网络簇结构的探测,提出了两种新的结合粒子群聚类的复杂网络簇结构探测算法。最后在两类复杂网络上进行实验并对实验结果进行了比较分析,提出的新算法在聚类准确性方面效果更好。  相似文献   

17.
为了降低干扰对齐所需的处理开销,将链路划分为多个簇分别进行处理成为可行的办法之一。针对现有簇划分算法中运算复杂度较高的问题,本文提出了一种基于最小信干比的簇划分算法。在此基础上,针对所有簇同时通信造成部分簇内链路接收端信干噪比(Signal to interference plus noise ratio,SINR)较低的问题,本文将以链路为单位的调度问题等效为以簇为单位的调度问题,提出了一种基于层次聚类的簇调度算法。理论与仿真实验结果表明,本文所提出的簇划分算法的运算复杂度明显低于现有算法,且相同条件下的系统平均吞吐量更高。同时,本文提出的基于簇层次聚类的调度算法不同程度地提升了各簇内链路接收端的SINR,系统可根据不同的性能需求进行调度策略选择。  相似文献   

18.
应用层协议识别是指从承载应用层协议数据的网络流量中提取出可以标识应用层协议的关键特征,并以这些关键特征为基础,将同种类型的应用层协议数据划分在一起.针对现有网络流量识别方法对未知应用层协议识别率低的问题,提出了一种自适应聚类的未知应用层协议识别方法.该方法以传统的AGNES层次聚类算法为基础,依据网络流应用层协议数据的...  相似文献   

19.
基于高斯分布的簇间距离计算方法   总被引:2,自引:0,他引:2  
凝聚的层次聚类算法是一种性能优越的聚类算法,该算法通过不断合并距离相近的簇最终将数据集合划分为用户指定的若干个类别。在聚类的过程中簇间距离计算的准确性是影响算法性能的重要因素。本文提出一种新的基于高斯分布的簇间距离的计算方法,该方法通过簇自身的大小、密度分布等因素改进算法的计算准确性,在不同文本集合上与现有的簇间距离计算方法进行了对比实验,实验结果表明该方法有效地改进了层次聚类算法的性能。  相似文献   

20.
    
Background and objective: Medical social networking platforms provide virtual spaces ensuring the interaction between different healthcare participants. As a part of the exchange, these spaces allow subscribers to upload medical images, describing different medical cases for an analysis or an interpretation proposal. Facing this expected huge amount of uploaded images generated daily, it is needed to engage new mechanisms to effectively deal with this circumstance, for enhancing the search function process of medical images, based on what is uploaded. To overcome this issue, setting up of images visual searching based on a content-based medical image retrieval scheme is the solution. More clearly, such mechanism will help and motivate medical social networking subscribers to find visually similar stored images. Methods: To ensure this task, the development of this mechanism, technically, is based mainly on a fusion of three visual features, which offers a flexible and more precision. It is reinforced by a weighted distance approach through attributing weights for feature vectors to scale up the performance. Indeed, the displayed results of this system can be updated based on user's intention by a user interactive feedback mechanism to indicate the truly relevant images. Results: We provide the theoretical performance of our scheme. Extensive experiments were conducted on a categorically classified collection containing 500 images. We conduct a practical evaluation on this dataset classes, putting returned results in a comparative study with other models results, existing in the literature. Conclusions: The proposed scheme preserves the efficiency of the search task. As theoretically and experimentally established, our scheme offers an effective image retrieval model that can support different subscribers' expectations. The relevance feedback mechanism can keep the dynamism of the system, thus offering a continuous searching result evolution. Experimentation outcomes indicate better findings compared with the other models.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号