首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
许多实际问题的解决不仅需要聚类算法给出类标,更依赖于类间远近关系的辨别.对于类数较多且高维数据的困难情况,基于降维的聚类结果可视化方法通常会出现聚类的重叠、交织或强行拉远现象,使得一些类间的远近关系无法分辨或被错误显示;而现有的类间距离方法则不能揭示两个聚类是远离还是靠近.本文提出了双几何体模型方法来描述两个聚类的类间关系,并设计了相对边界距离、绝对边界距离和区域疏密程度等测量类间远近程度的方法.本文方法既考虑了两个聚类的最近样本集之间的绝对距离,也考虑了聚类边界区域的疏密程度,其优点是在上述困难情况下也能准确揭示高维空间中的类间关系.对真实数据集的实验结果表明,双几何体模型方法能有效地识别现有聚类可视化方法无法辨别的类间远近关系.  相似文献   

2.
基于流面的流场可视化方法是科学数据可视化的重要分支,在航空航天等领域有着重要的应用。但现有的可视化方法需要人工在流场中布置种子线,往往难以布置在有代表性区域,不能生成表现力丰富的流面。提出一种基于聚类的种子线自动布线及流面生成法,通过对流场中速度场的曲率、梯度以及坐标位置间的比较,量化两点间相似度,随后进行聚类实现流场分区。然后在每个分区中心布置种子线。最后积分生成流面。实验显示,该方法生成的流面能表达流场的主要流动结构,其布线结果可以直接使用,也可以作为进一步精细分析时人工布线位置的参考。  相似文献   

3.
王健  谢冬  杨志豪  林鸿飞 《计算机科学》2011,38(12):232-235
蛋白质关系网络的研究在生物医学领域中已成为一个热点。研究者通过对蛋白质关系网络进行分析和聚类,能够发现其中的复合体,进一步理解细胞组织原理。在对关系网络进行分析的过程中,将网络拓扑显示为图形,以直观地表示出关系网络的结构,便于对比聚类方法,辅助关系网络的研究。利用网络建模与可视化工具包JUNG设计并实现了一个蛋白质关系网络可视化系统,它能够解析多种格式的蛋白质关系网络数据,集成了几种有效的图聚类算法,并实现了一种基于蛋白质功能标注的发现复合体的聚类算法。用户能够通过二维网络视图方便地观察原始网络和聚类后的结果。  相似文献   

4.
针对各种扩散模式数据点分布的聚类问题,提出了一种基于密度变化的聚类算法(CDD)。CDD采用基于密度的典型聚类算法(DBSCAN)寻找核心点,通过分析数据样本及其周围点密度的扩散规律,计算密度扩散的方向、速度和加速度,对数据样本进行聚类。实验结果表明:与DBSCAN相比,能准确对扩散模式数据进行聚类,对非扩散模式数据具有抗噪声干扰能力强,参数较易确定的优点。  相似文献   

5.
颜文胜 《计算机工程》2011,37(5):202-203,206
依据基因表达数据的特点,提出一种基于弹簧模型的基因表达数据可视化聚类方法,将多维空间的基因表达数据映射到二维空间中,较好地保持了原始多维数据间的时空相似性。实验结果表明,该方法能发现基因表达数据集中隐含的类簇结构以及共表达基因模式。  相似文献   

6.
现有的径向布局可视化方法无法有效捕获高维数据的非线性结构.因此,文中提出基于维度扩展和重排的类圆映射可视化聚类方法.利用近邻传播聚类算法和多目标聚类可视化评价指标对高维数据进行维度扩展,然后对扩展后的高维数据进行维度相关性重排,最后利用类圆映射机制降维至二维可视化空间,实现高维数据有效可视化聚类.实验表明,文中提出的维度扩展和重排策略能有效提高类圆映射可视化方法聚类效果,其中的维度扩展策略也能显著提高其它径向布局可视化方法聚类效果,泛化性能较好.此外,相比同类方法,文中方法在可视化聚类准确度、拓扑保持、Dunn指数及效果上优势明显  相似文献   

7.
提出使用仿射传播聚类方法对图像特征数据进行聚类,通过多维缩放MDS算法从高维特征空间据映射到二雏空间的方法将聚类结果可视化.实验证明,该方法简单高效,可视化结果有利于全面地了解图像数据之间的关系,为图像数据的预测和决策起到重要的作用.  相似文献   

8.
樊仲欣 《计算机应用》2020,40(8):2248-2254
聚类趋势分析算法基于抽样原理导致聚类趋势指标不稳定和片面,而且不适应数据流的批量增量特性,因而需要重复进行聚类趋势指数计算。为此,基于全体数据进行整体分析,提出一种基于最小距离连通图(MDCG)的聚类趋势分析算法MDCG-CTI。首先,利用栈的深度优先遍历法更新增量数据的最邻近路径从而降低MDCG的建立复杂度;然后,计算聚类趋势指数并确定可聚类性的判定阈值;最后,将所提算法和批量增量的具有噪声的基于密度的聚类方法(DBSCAN)相结合。在自定义数据集上的实验表明,该算法比现有算法对单簇和含大量噪点的数据的可聚类性判断更为精确;而在大数据集pendigits和avila上,所提算法比基于谱方法的聚类趋势可视化分析(SpecVAT)累计耗时降低了38%和42%,且相较SpecVAT结合批量增量DBSCAN,该算法结合批量增量DBSCAN的聚类平均准确率分别提高了6%和11%,聚类累计耗时则分别降低了7%和8%。实验结果表明该算法可以准确无参地判断聚类趋势,并明显提高增量聚类的有效性和运行效率。  相似文献   

9.
一种多维数据的聚类算法及其可视化研究   总被引:8,自引:0,他引:8  
任永功  于戈 《计算机学报》2005,28(11):1861-1865
提出了一种基于主次属性划分的聚类方法和一种新的数据可视化方法.首先,利用数据的主属性和次属性的特征值对数据集进行聚类;然后,采用彩色刺激光谱投影到RGB颜色空间的原理,通过色度学中麦克斯韦的三角平面坐标色度图对各聚类结果进行可视化显示.实验证明了文中方法算法简单、容易实现,可视化结果有利于用户全面地理解数据,为数据的预测、决策起到重要作用.  相似文献   

10.
一种不需经验参数的视频镜头自校正聚类方法   总被引:5,自引:0,他引:5       下载免费PDF全文
镜头聚类是视频内容分析的重要途径。为能够自动、准确地实现镜头聚类,设计和实现了一种新的镜头聚类方法,这种方法从一个初始分割开始,经多次聚类分裂与合并的迭代,即能自动地进行误差校正,而且这种方法既不需要通过人工交互来解决试探聚类方法的误差调节问题,也不需要在迭代聚类算法中进行难以确定的经验参数和经验阈值的设定。实验证明,该方法能较好地解决镜头的自动、准确聚类问题。  相似文献   

11.
基于商品分类信息的关联规则聚类   总被引:11,自引:0,他引:11  
关联规则挖掘经常产生大量的规则,为了帮助用户做探索式分析,需要对规则进行有效的组织。聚类是一种有效的组织方法,已有的规则聚类方法在计算规则间距离时都需要扫描原始数据集,效率很低,而且聚类结果是固定数目的簇,不利于探索式分析.针对这些问题,提出了一种新的方法,它基于商品分类信息度量规则间的距离,避免了耗时的原始数据集扫描;然后用OPTICS聚类算法产生便于探索式分析的聚类结构。最后用某个零售业公司的实际交易数据做了实验,并通过可视化工具演示了聚类效果,实验结果表明此方法是实用有效的。  相似文献   

12.
为解决命名实体之间的复杂嵌套以及语料库中标注误差导致的相邻命名实体边界重叠问题,提出一种中文重叠命名实体识别方法。利用基于随机合并与拆分的层次化聚类算法将重叠命名实体标签划分到不同的聚类簇中,建立文字到实体标签之间的一对一关联关系,解决了实体标签聚类陷入局部最优的问题,并在每个标签聚类簇中采用融合中文部首的BiLSTM-CRF模型提高重叠命名实体的识别稳定性。实验结果表明,该方法通过标签聚类的方式有效避免标注误差对识别过程的干扰,F1值相比现有识别方法平均提高了0.05。  相似文献   

13.
K-means算法是一种常用的聚类算法,已应用于交通热点提取中.但是,由于聚类数目和初始聚类中心的主观设置,已有的聚类方法提取的交通热点往往难以满足要求.利用互信息和相对熵,提出SK-means算法,并应用于交通热点提取中.在所提方法中,基于不同点之间的互信息寻找初始聚类中心;此外,基于互信息和散度的比值,确定聚类数目.将所提方法应用于成都某段时间交通热点提取中,并与传统的K-means比较,实验结果表明,所提方法具有更高的聚类精度,提取的热点更符合实际.  相似文献   

14.
聚类分析在数据挖掘研究中占有重要的位置。聚类结果的可视化则是用图形的方式直观地表现聚类质量的优劣。目前采用的聚类结果可视化方法多为统计学方法,如饼图、柱状图等。但是这些统计学方法只能反映簇与簇之间的数量关系、簇内成分的比例关系,没有具体到每一个对象,没有利用到每个对象所包含的信息。针对上述问题,本文提出三种聚类结果的可视化方法:随机点图、顺序点图、电子云图。其中,随机点图的优点是简单、易于实现;顺序点图的优点是可以反映具体哪一个对象被错分,并且适合动态显示聚类过程;电子云图的优点是可以反映每个对象与相应聚类中心的距离。  相似文献   

15.
一种基于主题的文本聚类方法   总被引:3,自引:0,他引:3  
现有的文本聚类方法难以正确识别和描述文本的主题,从而难以实现按照主题对文本进行聚类。本文提出了一种新的基于主题的文本聚类方法: LFIC。该方法能够准确识别文本主题并根据文本的主题对其进行聚类。本方法定义和抽取了“主题元素”,并利用其进行基本类索引。同时还整合利用了语言学特征。实验表明,LFIC的聚类准确率达到94.66%,优于几种传统聚类方法。  相似文献   

16.
王靖 《计算机应用研究》2020,37(10):2951-2955,2960
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman Softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。  相似文献   

17.
本文构造了一种能准确描述文本之间相似性(亲和力)的新方法,并在此基础上提出了一种基于人工免疫网络的文本聚类算法。仿真结果表明,与传统的文本聚类算法相比,新算法不仅能自动发现新类,而且具有聚类精度更高、数据压缩比更大、与输入初始配置无关、可增量处理的优势。  相似文献   

18.
This paper develops theory and algorithms concerning a new metric for clustering data. The metric minimizes the total volume of clusters, where the volume of a cluster is defined as the volume of the minimum volume ellipsoid (MVE) enclosing all data points in the cluster. This metric is scale-invariant, that is, the optimal clusters are invariant under an affine transformation of the data space. We introduce the concept of outliers in the new metric and show that the proposed method of treating outliers asymptotically recovers the data distribution when the data comes from a single multivariate Gaussian distribution. Two heuristic algorithms are presented that attempt to optimize the new metric. On a series of empirical studies with Gaussian distributed simulated data, we show that volume-based clustering outperforms well-known clustering methods such as k-means, Ward's method, SOM, and model-based clustering.  相似文献   

19.
一种协同的可能性模糊聚类算法   总被引:1,自引:0,他引:1  
模糊C-均值聚类(FCM)对噪声数据敏感和可能性C-均值聚类(PCM)对初始中心非常敏感易导致一致性聚类。协同聚类算法利用不同特征子集之间的协同关系并与其他算法相结合,可提高原有的聚类性能。对此,在可能性C-均值聚类算法(PCM)基础上将其与协同聚类算法相结合,提出一种协同的可能性C-均值模糊聚类算法(C-FCM)。该算法在改进的PCM的基础上,提高了对数据集的聚类效果。在对数据集Wine和Iris进行测试的结果表明,该方法优于PCM算法,说明该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号