首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。  相似文献   

2.
一种Web用户行为聚类算法   总被引:13,自引:0,他引:13  
提出了一种新的路径相似度系数计算方法,并使之与雅可比相似系数结合,用于计算用户访问行为的相似度,在此基础之上又提出了一种分析web用户行为的聚类算法(FCC)。通过挖掘Web日志,找出具有相似行为的web用户,由于FCC聚类算法过滤了小于指定阚值的相似度系数,大大缩小了数据规模,很好地解决了其他聚类算法(如层次聚类)在高堆空间聚类时的“堆数灾难”问题,最后的实验结果很好。  相似文献   

3.
一种基于词共现的文档聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
常鹏  冯楠  马辉 《计算机工程》2012,38(2):213-214
为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法。  相似文献   

4.
雷景生  伍庆清  王平 《计算机工程》2005,31(1):12-13,16
针对Web文档的特点,提出了一种多层向量空间模型,用来确定Web文档特征词的权重,然后给出了一种基于混合神经网络的文档聚类算法。实验结果表明,所提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全和准确地聚成一类。  相似文献   

5.
用于Web文档聚类的基于相似度的软聚类算法   总被引:3,自引:1,他引:3  
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-mcans的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。  相似文献   

6.
随着信息的爆炸式增长,现有的搜索引擎在很多方面不能满足人们的需要。Web文档聚类可以减小搜索空间,加快检索速度,提高查询精度。提出了一种融合SOM(Self-Organizing Maps)粗聚类和改进PSO(Particle Swarm Optimization)细聚类的Web文档集成聚类算法。首先根据向量空间模型表示法,用特征词条及其权值表示Web文档信息,其次用SOM算法对文档特征集进行粗聚类,得到一组输出权值,然后用这组权值初始化改进的PSO算法,用改进PSO算法对此聚类结果进行细化,最终实现Web文档聚类。仿真结果表明,该算法能有效提高文档查询的查准率和查全率,具有一定的实用价值。  相似文献   

7.
一种利用信息熵的群体智能聚类算法   总被引:10,自引:0,他引:10  
论文采用群体智能(Swarm Intelligence)思想研究聚类问题。在Lumer和Faieta基于蚁群的聚类算法中,通过信息熵的计算与比较,改变了拾起和放下对象的规则,增加了两区域对象的合并操作,从而加快了聚类速度并减少了参数设置数目。该方法能够有效地聚集数据库的记录对象,具有一定的实际应用价值。  相似文献   

8.
一种基于SOM和K-means的文档聚类算法   总被引:9,自引:0,他引:9  
提出了一种把自组织特征映射SOM和K-means算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化K-means的聚类中心,再用K—means算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。  相似文献   

9.
基于群体智能理论的聚类模型及优化算法   总被引:8,自引:0,他引:8  
聚类是一种把整个数据库分成不同的群组,使群与群之间差别很明显,而同一个群之间的数据尽量相似的算法。该文通过对现有群体智能理论和聚类算法的研究,提出了一种基于群体智能理论的聚类模型,并在此基础上给出了一种优化蚁群聚类算法。实验证明,该优化蚁群算法具有良好的聚类效果,可应用于经济分析、模式识别、文档归类等多个领域。  相似文献   

10.
文档聚类中k-means算法的一种改进算法   总被引:14,自引:0,他引:14  
万小军  杨建武  陈晓鸥 《计算机工程》2003,29(2):102-103,157
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感,为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法,实验表明,该改进算法比原k-means算法具有更高的准确性和稳定性。  相似文献   

11.
PCCS部分聚类分类:一种快速的Web文档聚类方法   总被引:15,自引:1,他引:15  
PCCS是为了帮助Web用户从搜索引擎所返回的大量文档片中筛选出自已所需要的文档,而使用的一种对Web文档进行快速聚类的部分聚类分法,首先对一部分文档进行聚类,然后根据聚类结果形成类模型对其余的文档进行分类,采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集,将其余的文档使用Naive-Bayes分类器进行划分,为了提高聚类与分类的效率,提出了一种混合特征选取方法以减少文档表示的维数,重新计算文档中各特征的熵,从中选取具有最大熵值的前若干个特征,或者基于持久分类模型中的特征集来进行特征选取,实验证明,部分聚类方法能够快速,准确地根据文档主题内容组织Web文档,使用户在更高的术题层次上来查看搜索引擎返回的结果,从以主题相似的文档所形成的集簇中选取相关文档。  相似文献   

12.
Multi‐document summarization is a process of automatic creation of a compressed version of a given collection of documents that provides useful information to users. In this article we propose a generic multi‐document summarization method based on sentence clustering. We introduce five clustering methods, which optimize various aspects of intra‐cluster similarity, inter‐cluster dissimilarity and their combinations. To solve the clustering problem a modification of discrete particle swarm optimization algorithm has been proposed. The experimental results on open benchmark data sets from DUC2005 and DUC2007 show that our method significantly outperforms the baseline methods for multi‐document summarization.  相似文献   

13.
在传统群智能算法框架的基础上,提出基于语义关系算子的群智能算法。与传统的群智能算法不同,该算法采用了一个语义关系算子进行关键参数的更新操作,并基于群体的历史状态对语义关系可进行更新。在语义关系库更新过程中,通过分析群体之前的历史状态信息,进行基于本体的语义关系挖掘,从而找到全局语义关系。以粒子群算法解组合优化问题为例,提出了基于语义关系算子的蚁群算法和粒子群算法。实验表明,基于该算子的群智能算法寻优能力有了一定程度的改进。  相似文献   

14.
Web用户聚类是通过分析用户会话,将具有相同或相似访问特征的用户聚为一类。在会话相似性度量方面综合考虑了网页浏览时间和访问频次两个因素,并考虑到用户个人习惯、能力等因素对浏览时间的影响,将浏览时间处理为RDP(Reduce the Differences in Personality)浏览时间,以降低其个性特征。为此,提出一种基于用户特性的RDPk-means聚类算法。实验表明,该算法可以有效实现用户会话的聚类,聚类结果客观合理。  相似文献   

15.
由于信息化的不断拓展,一方面数据广泛分布于不同的部门,各部门需求在不泄漏自身数据的情况下进行充分合作;另一方面由于数据量的巨大,集中式的运算已经很难满足各种应用的需求。在这一个背景下,分布式数据挖掘已经成一个研究的热点,通过将系统划分为中心节点和边缘节点,分层管理并减少数据交流给系统带来的负担;文章还将给出微簇的定义,并在边缘节点中进行算法的描述。实验说明在保证各部门的数据不泄漏的情况下,分布式算法具有跟集中式的K-means算法相近的准确率,说明算法具有可行性和有效性。  相似文献   

16.
一种基于聚类技术的数字图书馆个性化推荐算法   总被引:3,自引:0,他引:3  
针对传统协作过滤算法存在的评价矩阵稀疏性问题,提出了一种基于聚类技术的推荐算法.该算法将k-means技术和分层技术相结合对图书资源进行聚类,缩小了近邻搜索的范围和需要预测的图书资源数目,很好地解决了因用户专业背景差异而导致的评价矩阵稀疏性问题,提高了推荐的准确度.  相似文献   

17.
一种改进的动量粒子群算法及实验分析   总被引:1,自引:0,他引:1  
为了克服粒子群算法存在的收敛缓慢、后期振荡等缺陷,在基本粒子群算法的基础上,引入动量项,提出一种新的改进型粒子群算法.新算法中动量项与微粒的历史修正量线性相关,典型复杂优化函数的实验结果表明:该算法不但保持了基本粒子群算法的简单、易实现等优点,而且提高了算法的收敛速度及部分地避免了算法的后期振荡.  相似文献   

18.
近年来,各种突发事件频繁发生,借助个性化推荐技术准确及时地了解突发事件,可提高突发事件应对能力.传统的基于内容过滤的推荐方法均依赖于相似度计算, 用于突发事件新闻推荐时出现大量重复推荐.在分析突发事件新闻传播特点的基础上,提出了一种基于文档差异度的推荐算法.实验表明,该算法可降低重复推荐,提高推荐质量.  相似文献   

19.
主题划分是多主题文档自动摘要中的一个重要问题,提出了一种以网页结构为指导,利用页面对应DOM树中节点的自然分割功能以及相邻边界节点语义相似度的比较进行网页主题划分的方法.实验结果表明该方法具有较高的划分准确率,在此基础上抽取的网页摘要可显著增加文摘内容对原文的覆盖率、有效解决Web文档摘要分布不平衡问题.  相似文献   

20.
提出了一种基于品类聚类的关联规则优化算法.该算法首先根据文中定义的品类特征向量,用结构化的数据来表示事务;然后根据一种基于密度的聚类算法,对结构化的数据进行聚类,同时将对应的原始事务进行聚类;最后根据聚类后得到的类的长度以及用户指定的最小支持度,确定类内的最小支持度,在类内挖掘关联规则.实验结果表明,与传统算法相比,该算法效率较高,具有一定的实用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号