首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
文本聚类是聚类的一个重要的研究方向,是聚类在文本处理领域的重要应用.但是,传统的聚类算法在文本聚类应用中的表现并不能让人满意.文中将一种新的聚类算法--Chameleon算法引入中文文本聚类领域中.在构建中文文本聚类模型的基础上结合了分词、文本向量化等技术进行了相关实验.实验的结果表明Chameleon算法可以应用在中文文本聚类领域中,同时也解决了传统算法在聚类形状发现方面的不足.相关实验说明了这种算法在中文文本聚类领域应用中的有效性和实用性.  相似文献   

2.
模糊聚类算法在汉语文本聚类中的应用   总被引:8,自引:2,他引:8  
应用一种新的分词算法对汉语文本进行分词,该算法具备不使用词典和语法知识、不使用汉语词法规则、无监督等特点。采用模糊聚类算法对汉语文本进行聚类,该模糊聚类算法优于普通的聚类算法,聚类结果能充分体现汉语文本的多样性和大量性的特点。  相似文献   

3.
在大数据环境下,从海量的互联网数据中获取热点话题是研究当前互联网中民意民情的基础,其中文本聚类是得到热点话题最常用的方法之一,可以分为文本向量化表示和聚类2个步骤。然而在文本向量化表示任务中,传统的文本表示模型无法准确表示新闻、帖文等文本的上下文语境信息。在聚类任务中,最常使用的是K-Means算法和DBSCAN算法,但是它们对数据的聚类方式与实际中话题数据的分布不符,这使得现有的文本聚类算法在实际的互联网环境中应用效果很差。本文根据互联网中话题的数据分布情况,提出一种基于RoBERTa-WWM和HDBSCAN的文本聚类算法。首先利用预训练语言模型RoBERTa-WWM得到每一篇文本的文本向量,其次利用t-SNE算法对高维文本向量进行降维,最后利用基于层次的密度聚类算法的HDBSCAN算法对低维的文本向量进行聚类。实验结果表明提出的算法相较于现有的文本聚类算法,在含有噪声数据且分布不均衡的数据集上,聚类效果有很大的提升。  相似文献   

4.
解决文本聚类集成问题的两个谱算法   总被引:8,自引:0,他引:8  
徐森  卢志茂  顾国昌 《自动化学报》2009,35(7):997-1002
聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果. 本文引入谱聚类思想解决文本聚类集成问题, 然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入, 并用于后续聚类. 本文首先提出了一个集成算法, 该算法使用代数变换将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题, 并继续转化为规模更小的特征值分解问题; 然后进一步研究了谱聚类算法的特性, 提出了另一个集成算法, 该算法通过求解超边的低维嵌入, 间接得到文本的低维嵌入. 在TREC和Reuters文本数据集上的实验结果表明, 本文提出的两个谱聚类算法比其他基于图划分的集成算法鲁棒, 是解决文本聚类集成问题行之有效的方法.  相似文献   

5.
文本聚类算法的设计与实现   总被引:1,自引:1,他引:0  
为了有效地提高丈本聚类的质量和效率,在对已有的层次聚类和K-means算法分析和研究的基础上,针对互联网信息处理量大、实时性高的特点,设计并实现了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和K-means聚类的思想,根据一个阈值来控制聚类算法的选取和新簇的建立,并通过文本特征提取和文档相似度矩阵计算实现文本聚类.实验结果表明,该算法的召回率和正确率更高.  相似文献   

6.
用于文本聚类的模糊谱聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
谱聚类方法的应用已经开始从图像分割领域扩展到文本挖掘领域中,并取得了一定的成果。在自动确定聚类数目的基础上,结合模糊理论与谱聚类算法,提出了一种应用在多文本聚类中的模糊聚类算法,该算法主要描述了如何实现单个文本同时属于多个文本类的模糊谱聚类方法。实验仿真结果表明该算法具有很好的聚类效果。  相似文献   

7.
词共现文本主题聚类算法   总被引:1,自引:0,他引:1  
文本主题是文本聚类的关键,而文档中共现词对对文档主题的表现力非常强.因此,在对现有文本主题挖掘和共现词对抽取算法深入研究的基础上,提出了一种基于关联规则词共现的文本主题聚类算法(TCABARWC),即首先采用关联规则挖掘算法抽取文档共现词对,利用词共现提取文本主题信息,然后根据共现词对建模并实现共现词对相似度量,最后结合层次聚类算法实现文本聚类.实验结果表明,相比其他聚类算法,基于关联规则共现词对的层次聚类算法,大大降低了文本向量的维度以及算法复杂度,在聚类效率和准确性上都有显著提高,并获得了较好的聚类效果.  相似文献   

8.
基于蚁群算法的文本聚类算法   总被引:3,自引:2,他引:1       下载免费PDF全文
针对目前文本检索后的相关反馈信息较少用于文本聚类中的问题,根据蚂蚁觅食聚类算法的思想,将文本检索后的相关反馈信息应用到文本聚类过程中,提出一种基于蚁群算法的文本聚类算法。分析簇的结构及其生成过程,论述聚类中簇合并的规则及算法。实验结果表明,该算法具有良好的聚类效果,能有效提高查询的文本召回率。  相似文献   

9.
Web文本聚类算法的分析比较   总被引:2,自引:0,他引:2  
随着计算机网络的发展,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。而快速高质量的Web文本聚类技术可以满足用户方便快捷地从互联网获得所需要的信息资源。文章对Web文本聚类如网页采集、去噪、分词、特征表示等关键技术进行研究,对常用的Web文本聚类算法进行了分析比较,所给出的分析比较结果对文本聚类算法的应用有现实意义。  相似文献   

10.
研究文本聚类问题.传统的文本聚类算法存在着假设各特征词对聚类结果影响相同,聚类准确率较低的缺陷.还有一些算法通过加权的方法,能赋予重要特征词较大的权重,却造成了算法时间复杂度的增加.为解决上述问题,提出了一种新的属性加权模糊C均值文本聚类算法.算法能在迭代过程中标注出每一特征词的权重,却不影响算法的执行效率.使得类内距离之和较小的属性,权值较大;反之则权值较小.经多次仿真证明,提出的文本聚类算法在运算速度、准确率和标注不同属性的重要程度方面都有一定的优势.为文档自动文摘、数字图书馆服务和文档集合自动整理等系统的设计提供了可靠的依据.  相似文献   

11.
目的 传统模糊C-均值聚类应用于图像分割仅考虑像素本身的聚类问题,无法克服噪声干扰对图像分割结果的影响,不利于受到噪声干扰的工业图像、医学影像和高分遥感影像等进行目标提取、识别和解译。嵌入像素空间邻域信息或局部信息的鲁棒模糊C-均值聚类分割算法是近年来图像分割理论研究中的热点课题。为此,针对现有的鲁棒核空间模糊聚类算法非常耗时且抑制噪声能力弱、不适合强噪声干扰下大幅面图像快速分割等问题,提出一种快速鲁棒核空间模糊聚类分割算法。方法 利用待分割图像中像素邻域的灰度信息和空间位置等信息构建线性加权滤波图像,对其进行鲁棒核空间模糊聚类。为了进一步提高算法实时性,引入当前聚类像素与其邻域像素均值所对应的2维直方图信息,构造一种基于2维直方图的鲁棒核空间模糊聚类快速分割最优化数学模型,采用拉格朗日乘子法获得图像分割的像素聚类迭代表达式。结果 对大幅面图像添加一定强度的高斯、椒盐以及混合噪声,以及未加噪标准图像的分割测试结果表明,本文算法比基于邻域空间约束的核模糊C-均值聚类等算法的峰值信噪比至少提高1.5 dB,误分率降低约5%,聚类性能评价的划分系数提高约10%,运行速度比核模糊C-均值聚类和基于邻域空间约束的鲁棒核模糊C-均值聚类算法至少提高30%,与1维直方图核空间模糊C-均值聚类算法具有相当的时间开销,所得分割结果具有较好的主观视觉效果。结论 通过理论分析和实验验证,本文算法相比现有空间邻域信息约束的鲁棒核空间模糊聚类等算法具有更强的抗噪鲁棒性、更优的分割性能和实时性,对大幅面遥感、医学等影像快速解译具有积极的促进作用,能更好地满足实时性要求较高场合的图像分割需要。  相似文献   

12.
针对现有鲁棒图形模糊聚类算法难以满足强噪声干扰下大幅面图像快速分割的需要,提出一种快速鲁棒核空间图形模糊聚类分割算法。该算法将欧氏空间样本通过核函数映射至高维空间;采用待分割图像中像素邻域的灰度和空间等信息构建线性加权滤波图像,对其进行鲁棒核空间图形模糊聚类;并引入当前聚类像素与其邻域像素均值所对应的二维直方图信息,获得鲁棒核空间图形模糊聚类快速迭代表达式。对大幅面图像添加高斯和椒盐噪声进行分割测试,实验结果表明:本文算法相比基于图形模糊聚类等分割算法的分割性能、抗噪鲁棒性和实时性有了显著提高。  相似文献   

13.
一种基于加权复杂网络特征的K-means聚类算法   总被引:1,自引:0,他引:1  
在分析了传统的基于划分的K—means聚类算法的优越性和存在不足的基础上,根据近两年复杂网络研究中部分新的理论成果,提出了复杂网络加权度、加权聚集度与加权聚集系数的定义,并将数据聚类转换为复杂网络上的节点聚类,提出基于加权复杂网络特征的K—means聚类算法(简称WCNFC算法)。实验结果表明,该算法根据节点加权复杂网络特征值,能够较好地找到聚类中心,有效地避免了对初始化选值敏感性的问题,从而使得聚类质量大大提高。  相似文献   

14.
在分析了传统的基于划分的K-means聚类算法的优越性和存在不足的基础上,根据近两年复杂网络研究中部分新的理论成果,提出了复杂网络加权度、加权聚集度与加权聚集系数的定义,并将数据聚类转换为复杂网络上的节点聚类,提出基于加权复杂网络特征的K-means聚类算法(简称WCNFC算法)。实验结果表明,该算法根据节点加权复杂网络特征值,能够较好地找到聚类中心,有效地避免了对初始化选值敏感性的问题,从而使得聚类质量大大提高。  相似文献   

15.
针对Krinidis和公茂果等提出的系列鲁棒模糊局部C-均值聚类算法存在聚类中心迭代公式缺乏严格数学理论基础的不足,于是将其聚类目标函数及其约束条件采用拉格朗日乘子法进行严格数学推导,从而获得最优解逼近的隶属度和聚类中心迭代表达式,并通过多次循环迭代实现图像聚类分割。实验结果表明,本文所建议的鲁棒模糊局部C-均值聚类分割算法是有效的,相比现有鲁棒模糊局部C-均值聚类分割算法更适合复杂遥感等图像的分割需要。  相似文献   

16.
软硬结合的快速模糊C-均值聚类算法的研究   总被引:2,自引:1,他引:1  
讨论的是对模糊C-均值聚类方法的改进,在原有的模糊C-均值算法的基础上,提出一种软硬结合的快速模糊C-均值聚类算法。快速模糊C-均值聚类算法是在模糊C-均值聚类算法之前加入一层硬C-均值聚类算法。硬聚类算法能比模糊聚类算法以高得多的速度完成,将硬聚类中心作为模糊聚类中心的迭代初值,从而提高模糊C-均值聚类算法的收敛速度,这对于大量数据的聚类是很有意义的。用数据仿真验证了这种快速模糊C-均值聚类算法比模糊C-均值算法迭代调整过程短,收敛速度快,聚类效果好。  相似文献   

17.
一种基于核的快速可能性聚类算法   总被引:1,自引:1,他引:0       下载免费PDF全文
传统的快速聚类算法大多基于模糊C均值算法(Fuzzy C-means,FCM),而FCM对初始聚类中心敏感,对噪音数据敏感并且容易收敛到局部极小值,因而聚类准确率不高。可能性C-均值聚类较好地解决了FCM对噪声敏感的问题,但容易产生一致性聚类。将FCM和可能性C-均值聚类结合的聚类算法较好地解决了一致性聚类问题。为进一步提高算法收敛速度和鲁棒性,提出一种基于核的快速可能性聚类算法。该方法引入核聚类的思想,同时使用样本方差对目标函数中参数η进行优化。标准数据集和人造数据集的实验结果表明这种基于核的快速可能性聚类算法提高了算法的聚类准确率,加快了收敛速度。  相似文献   

18.
Robust projected clustering   总被引:4,自引:2,他引:2  
Projected clustering partitions a data set into several disjoint clusters, plus outliers, so that each cluster exists in a subspace. Subspace clustering enumerates clusters of objects in all subspaces of a data set, and it tends to produce many overlapping clusters. Such algorithms have been extensively studied for numerical data, but only a few have been proposed for categorical data. Typical drawbacks of existing projected and subspace clustering algorithms for numerical or categorical data are that they rely on parameters whose appropriate values are difficult to set appropriately or that they are unable to identify projected clusters with few relevant attributes. We present P3C, a robust algorithm for projected clustering that can effectively discover projected clusters in the data while minimizing the number of required parameters. P3C does not need the number of projected clusters as input, and can discover, under very general conditions, the true number of projected clusters. P3C is effective in detecting very low-dimensional projected clusters embedded in high dimensional spaces. P3C positions itself between projected and subspace clustering in that it can compute both disjoint or overlapping clusters. P3C is the first projected clustering algorithm for both numerical and categorical data.  相似文献   

19.
本论文在对各种算法深入分析的基础上,尤其在对基于密度的聚类算法he基于层次的聚类算法深入研究的基础上,提出了一种全新的基于密度和层次的快速聚类算法。该算法保持了基于密度聚类算法发现任意形状簇的优点,而且具有近似线性的时间复杂性,因此该算法适合对大规模数据的挖掘。理论分析和实验结果也证明了基于密度和层次的聚类算法具有处理任意形状簇的聚类、对噪音数据不敏感的特点,并且其执行效率明显高于传统的DBSCAN算法。  相似文献   

20.
A novel robust validity index is proposed for subtractive clustering (SC) algorithm. Although the SC algorithm is a simple and fast data clustering method with robust properties against outliers and noise; it has two limitations. First, the cluster number generated by the SC algorithm is influenced by a given threshold. Second, the cluster centers obtained by SC are based on data that have the highest potential values but may not be the actual cluster centers. The validity index is a function as a measure of the fitness of a partition for a given data set. To solve the first problem, this study proposes a novel robust validity index that evaluates the fitness of a partition generated by SC algorithm in terms of three properties: compactness, separation and partition index. To solve the second problem, a modified algorithm based on distance relations between data and cluster centers is designed to ascertain the actual centers generated by the SC algorithm. Experiments confirm that the preferences of the proposed index outperform all others.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号