首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
一种基于向量空间模型的文本聚类方法   总被引:1,自引:0,他引:1  
研究了一种基于向量空间模型的文档聚类方法.提出了一个新的聚类模型,即在传统聚类模型的基础上增加一个文档特征向量调整模块;给出了一个特征评价函数用以进行特征提取;对一种基于相似度的平面划分聚类算法做了一些改进.实验结果表明本文提出的聚类模型是可行的.  相似文献   

2.
VSM在中文文本聚类中的应用及实证分析   总被引:7,自引:0,他引:7  
文本聚类Web文本挖掘的一个重要分支,而文本表示方法是文本聚类的基础。重点讨论了文本表示方法中最常用到的向量空间模型,分析了其优势和不足,并基于一个文本处理实验,对VSM模型从可实现角度给出改进建议。  相似文献   

3.
为了提高文本聚类的有效性,提出一种基于网络社团结构的文本聚类算法。基于语义知识库理论,利用文本集与词语间的关系,引入文本相似度概念,再结合Newman社团聚类算法特性,将文本集作为独立社团,用文本相似度表示社团联系的紧密程度,对网络文本进行聚类。实验结果表明,该方法有效可行。  相似文献   

4.
针对模糊聚类算法中的噪声敏感性以及点对类的隶属度缺乏典型性的问题,提出一个自适应模糊聚类方法.该方法可以自动地标识那些有影响力的或者说重要的原型样本,反映出这些原型样本对其他样本的影响.又可以自动地标识那些有影响力的或者说重要的类,反映出那些重要的类对其他类的影响.该方法能够有效地降低噪声对有用信息的干扰,为传统的聚类方法提供了一个具有可操作性又有效率的替代方案.该方法的收敛性被理论证明,两个试验检验了它的计算花费和准确性.  相似文献   

5.
为了简单有效地对数据集进行结构分析,提出了一种基于最小树进行聚类的算法(MSTCA).其基本思想是在最小树中切割所有大于一定阈值的边,对数据集进行子类划分,同时对较小的子类进行合并.MSTCA产生的聚类结果在不考虑子类次序时是唯一的。对它的递归调用还可在若干不同粒度层次上形成数据集的聚类结构.计算实验表明,MSTCA不仅能为具有各种不同聚类形状的数据集自适应地选择较好的聚类个数,而且只需简单的参数选择就能准确地分析出数据中存在的合理聚类和例外样本.  相似文献   

6.
语义相似度是研究语义交互的一个重要基础,语义交互的结果就是对实例进行语义描述的模型和方法.对网络中的活动节点在局部进行聚类.基于语义相似度聚类成为语义Web发展并被广泛使用必须解决的关键问题,同时也是语义Web智能化的重要研究手段.本文介绍了通过计算语义相似度,到达网络节点聚类的目的.  相似文献   

7.
工业过程中多数系统呈现出非线性、时变性和多模态性等特征,往往难于用机理建模的方法建立它的模型,因此利用系统的输入和输出数据进行非机理建模是非常有意义的。对C-R模糊模型进行了改进,应用关系度聚类算法在线辨识出系统的模态,即系统C-R模型的模糊子空间的数目,提出了C-R模糊模型的聚类建模方法,仿真结果表明了该算法的有效性,节省了运算时间,简化了运算过程。  相似文献   

8.
针对隐含狄利克雷分布(LDA)模型特征提取时忽略语义信息的问题,提出一种融合LDA和全局文本表示(GloVe)模型的病症文本聚类算法LG&K-Medoide.首先,利用LDA对病症文本数据建模,采用JS(Jensen-Shannon)距离计算文本相似度;其次,利用GloVe对病症文本数据建模获取词向量,根据病症词性贡献...  相似文献   

9.
一种聚类质量的评价方法及其应用   总被引:1,自引:0,他引:1  
提出一种聚类质量的评价方法,它依据以类内相似度和类外相似度描述的相关数据集的自然结构来计算给定聚类结果的分类质量.初步的实验和分析表明,该方法基本符合人类的分类直觉,可以单独用来对聚类结果进行评价,用作对其它评价方法的补充,也可以用来调整人工聚类标准.  相似文献   

10.
11.
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。  相似文献   

12.
一种基于文本分类的特征选择方法   总被引:1,自引:0,他引:1  
文本分类中通常采用向量空间模型(VSM)来表示文本特征,如何选择最能够表达文本主题的特征词,从而减少特征空间维数,降低时空复杂度,是一个十分重要的问题。针对此问题本文提出了采用截集模糊C-均值(S2FCM)聚类进行类间特征降维,该方法以最大隶属度原则为指导,在保持模糊聚类的同时,提高收敛速度,并且能够提高特征选择的正确性。同时在算法中使用改进的隶属度、聚类中心计算方法并使用非随机方法确定初始聚类中心。最后实验表明采用该方法选择的文本特征项进行文本分类能够收到比较好的分类结果。  相似文献   

13.
相对于传统的纸媒体,网络媒体中的数据具有更新速度快、用户参与度高、覆盖面广等特点。如何协助用户在较短时间了解网络媒体中的主题信息,是一个亟待研究的领域。目前,文本主题聚类的研究技术还不够成熟,且在国内处于不断研究的阶段,尤其是在中文文本领域。对国内外主题检测研究现状、主题挖掘基本步骤、聚类算法的优缺点等方面进行了系统的概述,指出了当前研究方法的不足以及未来可研究的方向。  相似文献   

14.
用于不同密度聚类的多阶段等密度线算法   总被引:9,自引:1,他引:9  
多阶段等密度线算法是在基于网格的等密度线聚类算法的基础之上 ,采用多阶段的聚类方式来解决分布密度变化较大的数据集的聚类分析问题. 该算法能够找出分布密度不同的各种类别 ,并能很快地处理高维数据集. 此外 ,还能有效地对时间序列数据集进行聚类.  相似文献   

15.
针对存在更复杂运动模式的无序运动人群密集场景,提出了一种基于多层自适应聚类模型的分群检测算法.以基于高斯混合模型的背景去除算法和自适应初始化聚类算法为核心,通过建立多层自适应聚类模型实现密集人群的分群检测.实验数据库选用了大量真实室内外密集人群运动场景视频,并通过大量对比实验验证了算法的有效性、可靠性和优越性.  相似文献   

16.
基于遗传算法的动态模糊聚类基于遗传算法的动态模糊聚类   总被引:13,自引:0,他引:13  
提出了一种基于遗传算法的动态模糊聚类方法。通过计算样本之间的模糊相似性,不失真地反映它们之间的内在关联。同时将样本之间的模糊相似性映射到样本之间的欧氏距离,即将高维样本映射到二维平面。利用遗传算法不断优化两者之间的映射,使样本之间的欧氏距离逐步趋近于其模糊相似性,实现动态模糊聚类。克服了聚类有效性对样本分布的依赖性;同时,增加了聚类的灵活性和可视化。该方法在性能上较经典的模糊聚类算法有一定改进,具有较好的聚类效果和较快的收敛速度。仿真实验结果证明了该方法的可行性和有效性。  相似文献   

17.
基于数据划分最大信息的聚类有效性函数   总被引:7,自引:0,他引:7  
基于样本最大分类信息的改进划分系数仅仅利用了数据的模糊分类信息,为了将数据分类的几何结构信息考虑进去,结合数据分类的最大内变差,提出一个聚类有效性标准。实验结果表明,该方法具有良好的分类性能。  相似文献   

18.
分簇是一种能将节点分成逻辑上独立的组的机制,在MANET中应用分簇算法得到的分级式结构能提高网络的总体性能.介绍了分簇算法的构成和度量分簇算法性能优劣的标准,并对几类典型的分簇算法进行了分析和比较,最后指出了其中存在的问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号