首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
针对文本聚类时文本特征维度高,忽略文档词排列顺序和语义等问题,提出了一种基于句向量(Doc2vec)和卷积神经网络(convolutional neural networks,CNN)的文本特征提取方法用于文本聚类。首先利用Doc2vec模型把训练数据集中的文本转换成句向量,充分考虑文档词排列顺序和语义;然后利用CNN提取文本的深层语义特征,解决特征维度高的问题,得到能够用于聚类的文本特征向量;最后使用k-means算法进行聚类。实验结果表明,在爬取的搜狗新闻数据上,该文本聚类模型的准确率达到了0.776,F值指标达到了0.780,相比其他文本聚类模型均有所提高。  相似文献   

2.
随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话题发现方法。引入话题热度的概念来选取具有一定关注度的微博文本,用隐含语义分析(LSA)对数据集进行建模;用层次聚类的CURE算法确定初始类中心;用K-means聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。  相似文献   

3.
基于潜在语义分析和自组织特征映射神经网络(LSA—SOM),本文提出一种文本聚类方法。采用潜在语义分析的理论表示文本特征向量,以体现特征词的语义关系并实现特征向量的降维。利用SOM网络算法进行无监督自组织学习,并通过不断调节网络节点间的权向量来实现文本聚类。该方法不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,克服传统方法中文本种类需要预先给定的缺点。  相似文献   

4.
提出一种新的动态模糊聚类的方法,针对传统的模糊聚类需要预先确定聚类数的问题,提出采用动态自组织映射神经网络来确定聚类数,并通过文本向量空间模型和TF-IDF方法来确定文本的特征向量,再将动态自组织映射神经网络得到的聚类数,用模糊C均值算法(FCM)函数处理,得到聚类的结果。该算法同仅用动态自组织映射神经网络算法的运行结果相比,具有运行聚类结果精度高的优点,模糊聚类更适合处理语义的多样性和文本归属的模糊性,实验验证了算法的有效性。  相似文献   

5.
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。  相似文献   

6.
基于ART2神经网络与动态聚类的分类器   总被引:4,自引:0,他引:4  
针对ART2神经网络用于模式分类时具有很好的聚类特性,但只用到相位信息而丢失了幅度信息,以及动态聚类用距离作为样本问的相似性测量,没有充分利用相位信息的问题,提出了一种结合ART2神经网络和动态聚类的方法。该方法利用了ART2神经网络和动态聚类的优点,克服了它们各自的缺点,使输入向量的信息得到充分的利用。时随机数和临床数据进行了分类仿真,结果表明该方法分类结果更准确,适应范围更广。  相似文献   

7.
针对大多数现有的深度文本聚类方法在特征映射过程中过于依赖原始数据质量以及关键语义信息丢失的问题,提出了一种基于关键语义信息补足的深度文本聚类算法(DCKSC)。该算法首先通过提取关键词数据对原始文本数据进行数据增强;其次,设计了一个关键语义信息补足模块对传统的自动编码器进行改进,补足映射过程中丢失的关键语义信息;最后,通过综合聚类损失与关键词语义自动编码器的重构损失学习适合于聚类的表示特征。实验证明,提出算法在五个现实数据集上的聚类效果均优于当前先进的聚类方法。聚类结果证明了关键语义信息补足方法和文本数据增强方法对深度文本聚类的重要性。  相似文献   

8.
传统文本聚类方法只适合处理静态样本,且时间复杂度较高。针对该问题,提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型,利用词项之间的语义信息,通过计算新增文本与已有簇之间的相合性实现对文本的增量聚类。增量处理完部分文本后,对其中错分可能性较大的文本重新指派类别,以进一步提高聚类性能。该算法可在对象数据不断增长或更新的情况下,避免大量重复计算,提高聚类性能。在20 Newsgroups数据集上进行实验,结果表明,与k-means算法和SHC算法相比,该算法可减少聚类时间,提高聚类性能。  相似文献   

9.
传统文本聚类方法只适合处理静态样本,且时间复杂度较高。针对该问题,提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型,利用词项之间的语义信息,通过计算新增文本与已有簇之间的相合性实现对文本的增量聚类。增量处理完部分文本后,对其中错分可能性较大的文本重新指派类别,以进一步提高聚类性能。该算法可在对象数据不断增长或更新的情况下,避免大量重复计算,提高聚类性能。在20 Newsgroups数据集上进行实验,结果表明,与k-means算法和SHC算法相比,该算法可减少聚类时间,提高聚类性能。  相似文献   

10.
基于单词相似度的文本聚类   总被引:4,自引:1,他引:3  
研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点.针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然后利用产生的单词类作为向量空间的项表示文本降低了向量空间的维度,最后采用基于划分聚类方法对文本聚类.实验结果表明,相对于传统基于向量空间模型的聚类算法,该算法具有较好的聚类效果.  相似文献   

11.
微学习资源爆炸式的增长带来了大量未经组织处理的文本资源,大量以碎片化形式呈现的微学习资源为学习者的使用带来极大的不便。为让学习者能在碎片化的资源中找到适合于个性化学习的内容,对以文本形式的微学习资源进行聚类是很有必要的。为此,尝试将经过改进的密度峰值算法应用于微学习单元文本聚类。针对密度峰值算法在该领域聚类时存在向量空间高维稀疏、全局一致性不足、截断距离敏感、选择密度峰值中心需要人工监督等问题,使用潜在语义分析模型(LSA)建模,并提出2点改进:其一,针对聚类要求重新定义局部密度,并引入密度敏感距离作为聚类的判据,通过解决截断距离敏感性问题来解决聚类分配时全局一致性问题;其二,用线性拟合寻找野值点来自动寻找密度峰值中心,以实现非人工监督的峰值中心选取问题。微学习单元真实数据集上的实验验证结果表明,本文所提算法比原密度峰值算法以及其他经典聚类算法更适合于微学习单元文本聚类。  相似文献   

12.
一种改进的ART2网络学习算法   总被引:12,自引:1,他引:11  
分析了现有ART2网络存在的问题,提出了一种改进的ART2算法。该算法首先利用样本数据自身来初始化权值,然后按照同一类中的数据点到其聚类中心的距离之和越小(即类内偏差越小),聚类效果越好的原则来设计特征表示场和类别表示场之间的权值修正公式,最后通过比较输入样本和聚类中心的模来有效地利用模式的幅度信息。分析证明了该算法不仅能有效解决模式漂移问题、充分利用幅度信息,而且能提高聚类速度。  相似文献   

13.
耿新青  王正欧 《计算机工程》2006,32(20):22-24,4
提出了一种新的动态模糊自组织神经网络模型(DFKCN),并将其用于文本聚类中。将DFKCN模型应用到中文文本聚类中,该文的特征向量的表示采用隐含语义分析理论,以体现特征词的语义关系并实现特征词的降维。仿真表明本聚类法的精度高于TGSOM算法的精度,算法的执行效率高于TGSOM,取得了良好的效果。  相似文献   

14.
基于改进ART2算法的数据聚类方法   总被引:1,自引:0,他引:1  
通过分析经典自适应谐振(adaptive resonance theory,ART)神经网络聚类过程中向量规格化、警戒参数全局化等特点,指出其无法应用于向量的模是与类别特征相关的情况、不能根据空间密度变化以不同粒度划分空间、输出无层次结构等不足,提出一种改进ART2神经网络算法.该算法提出警戒参数局部化和以模为标准的神经元预选,通过循环形成与模相关的多层次动态聚类结构(粗粒度的聚类不需重新训练神经网络),除此还降低对警戒参数主观设置的要求;这些优点能够适应模是重要特征的空间中子空间分别聚类的情况.  相似文献   

15.
杨迪  徐文瑜  王鹏 《计算机应用研究》2023,40(12):3578-3583
城市路网的合理划分对于优化区域交通控制以及协调策略的实施具有重要意义。为提高道路通行效率,提出基于密度峰值聚类算法的城市路网划分方法,首先,综合考虑交叉口静态和动态因素的影响,构建相邻交叉口的关联度模型,为合理量化交叉口之间的关联程度提供定量描述。其次,提出改进的密度峰值聚类算法,结合相邻交叉口之间的关联度对路网区域进行划分。针对密度峰值聚类算法中局部密度在不同规模数据集上差异较大的问题,引入KNN的思想,重新对局部密度进行描述,其次为避免算法聚类中心人工选取的主观性导致的误差问题,采用肘部法则实现聚类中心的自动选取。实验结果表明,与改进的Newman算法及Ncut算法相比,提出的改进算法在优化子区平均匀质度上可分别降低12.5%和22.8%,提高了控制子区的划分效果,使区域划分效果更合理。  相似文献   

16.
为了提升文本聚类效果,改善传统聚类算法在参数设定,稳定性等方面存在的不足,提出新的文本聚类算法TCBIBK(a Text Clustering algorithm Based on Improved BIRCH and K-nearest neighbor)。该算法以BIRCH聚类算法为原型,聚类过程中除判断文本对象与簇的距离外,增加判断簇与簇之间的距离,采取主动的簇合并或分裂,设置动态的阈值。同时结合KNN分类算法,在保证良好聚类效率前提下提升聚类稳定性,将TCBIBK算法应用于文本聚类,能够提高文本聚类效果。对比实验结果表明,该算法聚类有效性与稳定性都得到较大提高。  相似文献   

17.
传统A RT 2神经网络在聚类过程中模式的匹配度量仅仅与模式的相位信息相关,这种匹配度量忽略了模式的幅度信息的作用,在对相位信息相同而幅度信息不同的两个簇进行聚类时,效果很差;同时,它还存在输入域限制的问题。针对这些不足之处,提出了一种改进的A RT 2神经网络,在输入模式进入网络学习过程中,保存其幅值信息,放宽对负实数的非线性转换,并考虑输入模式到各个簇的中心点的最短距离,同时增加一个阈值对离群点进行判定,消除了离群点对聚类结果的影响。实验验证,改进的A RT 2网络在对相同相位的两个簇聚类时,性能明显优于传统的A RT 2网络。  相似文献   

18.
孙昭颖  刘功申 《计算机科学》2018,45(Z6):392-395
词汇个数少、描述信息弱的缺陷,导致短文本具有维度高、特征稀疏和噪声干扰等特点。现有的众多聚类算法在对大规模短文本进行聚类时,存在精度较低和效率低下的问题。针对该问题,提出一种基于深度学习卷积神经网络的短文本聚类算法。所提算法以大规模语料为基础,利用word2vec 模型学习短文本中词语之间潜在的语义关联,用多维向量表示单个词语,进而将短文本也表示成多维的原始向量形式;结合深度学习卷积神经网络,对稀疏高维的原始向量进行特征提取,以此得到特征更为集中、有效的低维文本向量;最后,利用传统的聚类算法对短文本进行聚类。实验结果表明,所提聚类方法对文本向量的降维是可行、有效的,并且取得了F值达到75%以上的文本聚类效果。  相似文献   

19.
模糊聚类在中文文本分类中的应用研究   总被引:4,自引:0,他引:4  
将基于等价关系的模糊聚类技术应用于中文文本分类,提出了基于模糊聚类的中文文本分类算法ATCFC。该算法利用基于二级字索引的正向最大匹配算法对文本分词,建立模糊特征向量空间模型,使用贴近度法刻划文本间的相似度。利用算法ATCFC对文本集合进行动态聚类实验,实验结果表明算法ATCFC对于中文文本分类是可行、有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号