首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
贺超波  汤庸  张琼  刘双印  刘海 《电子学报》2019,47(5):1086-1093
对社会化媒体产生的大量短文本进行聚类分析具有重要的应用价值,但短文本往往具有噪音数据多、增长迅速且数据量大的特点,导致现有相关算法难于有效处理.提出一种基于增量式鲁棒非负矩阵分解的短文本在线聚类算法STOCIRNMF.STOCIRNMF基于非负矩阵分解构建短文本聚类模型,通过l2,1范数设计模型的优化求解目标函数提高鲁棒性,同时应用增量式迭代更新规则实现短文本的在线聚类.在搜狐新闻标题和微博短文本数据集上进行相关实验,结果表明STOCIRNMF不仅比现有代表性算法具有更好的聚类性能,而且能够有效对微博话题进行在线检测.  相似文献   

2.
使用谱聚类算法解决文本聚类集成问题   总被引:1,自引:0,他引:1  
采用2个不同的谱聚类算法解决文本聚类集成问题.为使算法可扩展到大规模应用,基于代数变换,通过求解小规模矩阵的特征值分解问题避免了大规模矩阵的特征值分解问题,有效降低了2个谱聚类算法的计算复杂度.分别从矩阵扰动理论和图上的随机游走的角度解释了2个算法的有效性.在真实文本集上的实验结果表明:提出的代数变换方法是有效的,该方法可以有效提高谱聚类算法的运行效率;该聚类集成谱算法比其他常见的聚类集成算法更优越、更高效,可以有效解决文本聚类集成问题.  相似文献   

3.
脱婷  马慧芳  李志欣  赵卫中 《电子学报》2000,48(11):2131-2137
针对短文本特征稀疏性问题,提出一种熵权约束稀疏表示的短文本分类方法.考虑到初始字典维数较高,首先,利用Word2vec工具将字典中的词表示成词向量形式,然后根据加权向量平均值对原始字典进行降维.其次,利用一种快速特征子集选择算法去除字典中不相关和冗余短文本,得到过滤后的字典.再次,基于稀疏表示理论在过滤后的字典上,为目标函数设计一种熵权约束的稀疏表示方法,引入拉格朗日乘数法求得目标函数的最优值,从而得到每个类的子空间.最后,在学习到的子空间下通过计算待分类短文本与每个类中短文本的距离,并根据三种分类规则对短文本进行分类.在真实数据集上的大量实验结果表明,本文提出的方法能够有效缓解短文本特征稀疏问题且优于现有短文本分类方法.  相似文献   

4.
谱聚类算法是近年来国际上机器学习领域的一个新的研究热点,但其在文本聚类上的应用还较少。设计了一种文本聚类谱算法,首先构建文本相似度矩阵并进而得到拉普拉斯矩阵,随后对其进行特征值分解获得前k个最小特征向量,最后使用K均值算法(K-means)获得k个文本簇。在真实文本数据集上进行了实验,与超球K均值算法相比,本文算法获得了更好的聚类结果。  相似文献   

5.
针对传统谱聚类算法初始化敏感引起的聚类效率与正确率不稳定问题,给出一种改进的谱聚类算法.该算法首先构造Laplacian矩阵并得到其特征谱空间,然后引入粒子群优化的FCM算法在该空间中寻找最优粒子作为初始类簇中心用以解决敏感问题.实验表明,与传统谱聚类算法比较,该算法的聚类结果更稳定,在较高维数据集上聚类效率与正确率有明显提高.  相似文献   

6.
张仰森  段宇翔  王建  吴云芳 《电子学报》2019,47(9):1919-1928
近年来,各领域内频频发生各类突发事件,对社会稳定发展产生了一定程度的影响.本文提出了一种基于多种词特征的微博突发事件检测模型,可以在海量微博数据中对突发事件进行检测,便于相关决策者进行微博监控和舆论引导,尽可能减少突发事件给社会带来的危害.首先根据时间信息对微博数据进行时间切片,对每一个时间窗口内的数据分别计算各个词语的词频特征、话题标签特征和词频增长率特征;然后基于D-S证据理论和层次分析法,确定词的各个特征权重,并进行加权融合得到词的突发特征值,将突发特征值大的词挑选出来构成突发特征词集,构建基于共现度和结合紧密度的突发事件特征词集的耦合度矩阵;最后将该耦合度矩阵作为凝聚式层次聚类算法的输入,生成一棵由突发词为叶子节点的二叉树,并采用内部相似度的二叉树剪枝算法对聚类结果进行划分,即可实现对相应时间窗口突发事件的检测.实验结果表明,基于突发词的事件检测模型在簇内部相似度阈值等于1.1时效果最好,正确率达到0.8462、召回率达到0.8684、F值为0.8571,表明了本文所提方法的有效性.  相似文献   

7.
郑忠龙  杨杰 《电子学报》2010,38(4):860-0865
 提出了一种新的有监督降维方法:拉普拉斯最大最小判别分析(Laplacian MinMax Discriminant Analysis, LMMDA)。LMMDA通过样本空间中成对点之间的距离定义类内和类间散度矩阵,并通过最小化类内散度、最大化类间散度以求得最优投影矩阵。在LMMDA最优子空间中,类内样本更为紧致,类间样本更为松弛。样本集的结构信息包含在类内、类间的Laplacian矩阵,并可以对最优投影子空间加以控制。在多个数据集上的实验证明了该算法的有效性。  相似文献   

8.
卢晶  段勇  刘海波 《电子学报》2018,46(3):730-738
密度峰值聚类算法由于在发现任意形状簇且不需指定聚类个数等方面具有一定的优势而被广泛关注.但是该算法需要计算数据集中所有点的密度和点对之间的距离,因此不适合处理大规模高维数据集.为此,本文提出了一种基于z值的分布式密度峰值聚类算法,DP-z.本方法利用空间z填充曲线将高维数据集映射到一维空间上,根据数据点的z值信息对数据集分组.为了能够得到正确的结果,需要对分组间数据进行交互,然后并行计算每个点密度和斥群值.DP-z算法在分组间数据交互时采用过滤策略,减少大量无效距离计算和数据传输开销,有效提高算法的执行效率.最后,本文在云计算平台上对DP-z算法进行了验证,实验表明在保证DP-z算法与原始密度峰值聚类算法聚类结果相同的情况下有效的提高了算法执行效率.  相似文献   

9.
基于层次的K-均值聚类   总被引:2,自引:1,他引:1  
介绍一种基于层次的K-均值聚类算法(HKMA)。在统计力学的基础上,对传统K-均值聚类划分矩阵里的元素("隶属"概率)做了形式上的改变,并引入一个调控实际聚类数目的因子。这样,在对同一组数据集进行聚类时,调控因子值不同,结果得到的类数目就不同。用一组二维正态分布的数据集和一组用来测试聚类算法的标准数据集(Iris数)进行测试,结果表明该算法具有层次聚类的性质和较满意的聚类精度。  相似文献   

10.
基于本征间隙与正交特征向量的自动谱聚类   总被引:3,自引:0,他引:3       下载免费PDF全文
 针对经典谱聚类算法无法自动确定数据类个数的问题,本文提出了一种基于本征间隙与正交特征向量的自动谱聚类算法.该方法利用样本数据构建亲和度矩阵,然后进行谱分解得到相应的特征值和特征向量,对特征值从大至小依次排序,用本征间隙来刻画相邻特征值之间的差,通过第一个极大本征间隙出现的位置来自动确定类个数,最后以特征向量之间的夹角作为相似度和已获得的类个数相结合来实现数据分类.本文算法的正确性在人造数据库上得到了验证,并在UCI数据库上与k-means、FCM、 Jordan算法进行了分类准确性比较实验,结果表明本文方法比其他三种方法的分类准确率更高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号