首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
研究了一种基于自组织神经网络的中文文档聚类方法,按照提出的中文聚类模型,该方法首先对文档进行SOM训练产生初步的聚类结果,然后对第一次聚类结果进行基于参考点和密度的快速聚类,理论分析和实验结果也证明了该方法适合高维中文文档的聚类,与直接聚类方法相比,该方法提高了聚类的效果,减少了计算时间。  相似文献   

2.
应用模糊C均值算法对文档进行分类,具有不使用语法知识、不使用词法规则、无监督等特点.采用模糊c均值算法对文档进行聚类,实验结果表明:该方法优于普通的聚类算法,聚类结果能充分体现文本的多样性.  相似文献   

3.
一种基于向量空间模型的文本聚类方法   总被引:1,自引:0,他引:1  
研究了一种基于向量空间模型的文档聚类方法.提出了一个新的聚类模型,即在传统聚类模型的基础上增加一个文档特征向量调整模块;给出了一个特征评价函数用以进行特征提取;对一种基于相似度的平面划分聚类算法做了一些改进.实验结果表明本文提出的聚类模型是可行的.  相似文献   

4.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

5.
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。  相似文献   

6.
考虑网络事件的时间距离,基于半结构化网页中不同位置特征项重要程度的不同,提出改进的single-pass文本聚类算法single-pass*,优势在于对Web文本不同位置特征项的加权处理,仅需计算新文档与同类别种子文档间的相似度。实验结果表明,相比single-pass,改进算法极大减少了漏检率和错检率,降低了由于新文本流内文档进行相似度计算导致系统性能的下降,平均提高Web文本聚类效率40%。将聚类后的Web文本应用于网络舆情分析,进行主题关注度分析和话题热度特性分析。  相似文献   

7.
提出一种基于LDA模型的K-means聚类的话题发现,并在网络食品安全问题中进行效果验证.该算法中使用LDA模型对文档空间建模,并选取文档对主题的概率分布作为每篇文档的向量,利用K-means算法对这些向量进行聚类处理,最终得到话题发现的结果.为了验证试验的效果,还进行了1组使用传统的VSM模型下的Kmeans算法的实验作为对照组.通过在涵盖43个食品安全分类的1 920条新闻报道和腾讯微博的数据上的实验,记录了6个不同迭代次数下的结果并得到平均值,实验结果表明该方法在3个评估指标P、R、F上都比传统方法提高了20%.  相似文献   

8.
提出了一种GML文档结构聚类新算法MCF_CLU.与其它相关算法不同,该算法基于闭合频繁Induced子树进行聚类,聚类过程中不需树之间的两两相似度比较,而是挖掘GML文档数据库的闭合频繁Induced子树,为每个文档求一个闭合频繁Induced子树作为该文档的代表树,将具有相同代表树的文档聚为一类.聚类过程中自动生成簇的个数,为每个簇形成聚类描述,而且能够发现孤立点.实验结果表明算法MCF_CLU是有效的,且性能优于其它同类算法.  相似文献   

9.
针对有监督特征选择方法因为需要类信息而无法应用于文本聚类的问题,提出了一种新的无监督特征选择方法: 结合文档频和K-Means的特征选择方法。该方法首先使用文档频进行无监督特征初选,然后再通过在不同K-Means聚类结果上 使用有监督特征选择方法来实现无监督特征选择。实验表明该方法不仅能够成功地选择出最为重要的—小部分特征,而且还 能提高聚类质量。  相似文献   

10.
中文文摘是自然语言处理领域的重要研究之一,尤其是基于理解的文摘中对时间特征的研究,更是引起了广泛的关注。本文抽取中文文本摘要的动态特征,进行文本挖掘和建模分析来体现时间特性。通过对中文动态多文档文摘系统框架和句子加权、特征抽取及句子选择等关键步骤的算法设计,实现动态文摘模型,并提出基于动态性能的中文文摘评测方法。实验证明该中文动态文摘技术及其评测算法在实际的文本挖掘过程中,能较好地获得可理解性的、具有时间延展性的摘要,具有一定的可行性和较高的研究价值。  相似文献   

11.
In order to construct Chinese ontology easily, an automated ontology learning technology forChinese documents based on singular value decomposition(SVD) and conceptual clustering is proposed. Firstthe system extracts concepts from a set of domain-specific documents by using SVD technology,and thenacquires subsumption relationships between the concepts by means of hierarchical conceptual clusteringmethod. The system thus yields domain-related concept hierarchy.  相似文献   

12.
提出了一种基于自组织特征映射( SOM)神经网络和模糊c-均值( FCM)的双层聚类方法,对Web日志中的日志数据集进行聚类。第一层是无监督SOM神经网络聚类方法,它所产生的类的个数大大减少了原始数据集的个数,降低了FCM对类初始中心点的依赖;然后利用FCM聚类算法的优势对第一层中产生的类的中心点进行聚类,从而大大减少了聚类的时间复杂度;最后通过平行坐标技术可视化展示聚类前后的日志数据集,方便对日志数据进行分析。  相似文献   

13.
自动生成术语的软构件刻面分类法   总被引:1,自引:1,他引:0  
提出基于关系的软构件分类方法,据软构件刻面分类法的特点改进了自组织特征映射神经网络聚类算法,以克服原有的聚类结果与输入样本次序有关和网络结构需要预先确定的缺点。将改进后的聚类算法与刻面分类法相结合,在同一刻面下利用改进的SOM聚类算法对构件的描述信息进行分类,以聚类的中心作为刻面的术语,从而实现术语空间的自动建立和优化。在软构件的描述信息中加入构件之间相互关系的描述,以便聚类算法在处理聚类边界时将连接关系较紧密的构件归为一类。  相似文献   

14.
In the study, chemical compositions of 48 fragments of ancient ceramics excavated in 4 archaeological kiln sites which were located in 3 cities (Hangzhou, Cixi and Longquan in Zhejiang Province, China) have been examined by energy-dispersive X-ray fluorescence (EDXRF) technique. Then the method of SOM was introduced into the clustering analysis based on the major and minor element compositions of the bodies, the results manifested that 48 samples could be perfectly distributed into 3 locations, Hangzhou, Cixi and Longquan. Because the major and minor element compositions of two Royal Kilns were similar to each other, the classification accuracy over them was merely 76.92%. In view of this, the authors have made a SOM clustering analysis again based on the trace element compositions of the bodies, the classification accuracy rose to 84.61%. These results indicated that discrepancies in the trace element compositions of the bodies of the ancient ceramics excavated in two Royal Kiln sites were more distinct than those in the major and minor element compositions, which was in accordance with the fact. We argued that SOM could be employed in the clustering analysis of ancient ceramics. Supported by the Research Foundation of City University of Hong Kong (Grant No. 7001104)  相似文献   

15.
提出了基于自组织特征映射网络(SOM)的纹理分类方法。采用了适合纹理分析的纹理谱(TS)的概念,并在分类过程中引入了纹理谱特征向量,纹理谱向量是TS经过降维处理得到的.该特征向量反映了空间模式的纹理特征.在学习(训练)与分类识别中,采用了神经元网络模型.与TS相对应的特征向量重复地送入SOM网络的输入端,网络的权向量则逐渐地将样本值聚类到各自的样本中心.计算机模拟实验表明,作者提出的纹理分类方案十分有效而且实用.本方案计算量小,学习周斯短,识别率高.本文最后给出了实验结果及分析.  相似文献   

16.
为了将高维输入空间的数据映射到低维空间,利用可视化技术探测数据的固有特性,提出了用非线性主成分分析(NLPCA:NonLinear Principal Component Analysis)和自组织映射网络相结合的方法对生物信息学中基因表达数据进行聚类可视化分析。实验结果表明,该方法有较高的分类正确率,用于基因表达数据的聚类分析是行之有效的。  相似文献   

17.
根据文献计量学中的引文分析方法,对中、美两国制浆造纸专题文献进行分析研究,得出了该技术领域引文类型、引文语种、引文年代的分布规律,由引文数据计算出了制浆造纸技术领域专题文献的半衰期,确定了该技术领域的中、外文核心期刊。研究结果为制浆造纸技术领域文献的收集、利用、管理、传递提供了科学的依据。  相似文献   

18.
设计并实现了一套基于TRIP数据库的公文电子化管理系统.本系统对提高公文查询效率和进行公文保存具有较高的理论意义和实用价值.  相似文献   

19.
为了提高大规模半结构化文档集的聚类质量,提出了一种新的XML文档聚类方法.从XML文档中提取层次路径序列,以此为依据将XML文档表示为VSM中的向量,将欧氏空间对应于粒子群模型的问题空间,采用粒子群聚类方法进行文档聚类.为了加速算法的收敛性,在算法的后续部分采用C-means进行快速局部调优,提出两阶段混合聚类方法,优点是能够跳出局部极值,搜寻整个问题空间的同时又保证了合理的时间.实验结果表明提出的方法具有较高的聚类准确性和较好的收敛程度.  相似文献   

20.
在分析新闻文档的特殊结构、内容特点以及常用聚类算法优缺点的基础上,提出了一种基于改进的最小最大聚类方法的主题来龙去脉生成方法.实验结果证明,该方法生成的摘要能有效地覆盖主题的内容,较为准确地体现主题的演变过程.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号