首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于最长频繁闭项集的聚类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
张泽洪  张伟 《计算机工程》2007,33(1):187-189
针对许多算法不适合对分类数据进行聚类的特点,提出了一种基于最长频繁闭项集(LFCI)的聚类算法。使用改造后的频繁模式树,得到每个事务的LFCI,由于LFCI的两个重要属性,因此可以将LFCI作为该事务的描述,从而直接得到聚类结果。实验证明了该算法的有效性。  相似文献   

2.
短文本聚类一直是信息提取领域的热门话题,大规模的短文本数据中存在“长尾现象”,传统算法对其聚类时会面临特征纬度高,小类别信息丢失的问题,针对对上述问题的研究,本文提出一种频繁项协同剪枝迭代聚类算法(Frequent Itemsets collaborative Pruning iteration Clustering framework,FIPC).该算法将迭代聚类框架与K中心点算法相结合,运用协同剪枝策略,实现对小类别文本聚类,实验结果证明该聚类算法能够有效的提高小类别短文本信息聚类的精确度,并能避免聚类中类簇重叠的问题.  相似文献   

3.
为了克服KM-AOI算法聚类效率较低的缺点,提出了基于频繁模式树的AOI聚类算法,即在聚类过程中借助频繁模式树,采取分而治之的策略处理警报集以得到规则。然后举例说明了利用该算法进行聚类的过程。实例表明,该算法能够明显提高聚类的效率。  相似文献   

4.
目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用WordNet结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。  相似文献   

5.
梁俊杰  刘琼妮  余敦辉 《计算机应用》2014,34(11):3135-3139
为提高Web资源推荐的准确度,提出基于本体的Web资源个性化推荐算法(BO-RM)。设计Web资源主题抽取算法和相似性度量方法,利用本体语义推理机制实现资源聚类,在推荐过程中通过实时分析用户浏览行为捕获用户个性化偏好的变化,动态实时推荐内容。与基于情境的协同过滤算法(CFR-RM)和基于模型的个性化预测算法(BM-RM)进行对比,结果显示BO-RM的时间开销相对稳定,在平均排序倒数(MRR)和平均准确率(MAP)上均取得了较好的效果。实验结果表明:BO-RM离线完成海量Web资源的分析聚类,有效提高了运行效率,实用性比较强;BO-RM实时捕捉用户兴趣变化,动态更新推荐列表,更加贴近用户的真实需求。  相似文献   

6.
通用的频繁模式挖掘算法通常产生庞大的频繁模式集,其中很多是用户不感兴趣的非目标模式。要排除这些非目标模式,用户必须进行"二次挖掘"。TFP-growth虽然生成所有最大目标频繁模式,但要从中获得目标频繁模式,还需经过"二次挖掘"。若在挖掘的早期就对非目标频繁模式的产生加以限制,则有望提高算法的效率。本文在TFP-growth和SFP-growth的基础上,提出一种目标频繁模式挖掘算法STFP-growth,通过对TFP-树的排序、根据树根结点的不同情形采用不同的建子树方法和目标频繁模式筛选方法等来提高算法的效率。STFP-growth挖掘的结果是所有满足用户需求的目标频繁模式,不需"二次挖掘"。实验表明,STFP-growth的效率高于TFP-growth,也明显优于Apriori和Eclat。  相似文献   

7.
用户在访问Web站点时会碰到很多问题,主要原因是Web站点对用户需求缺乏适应性。为了提高Web用户的服务质量和用户的满意度,在用户访问网站点击流形成频繁序列模式的基础上,提出基于距离函数的聚类分析以及基于时间相似度函数的二次聚类分析算法。该算法可以求取频繁序列的相关性和反映用户对网页的兴趣的相似度,对下一步改善Web站点的结构及存在形式使站点达到更好的效果起先导作用。  相似文献   

8.
程舒通 《微机发展》2007,17(9):18-20
用户在访问Web站点时会碰到很多问题,主要原因是Web站点对用户需求缺乏适应性。为了提高Web用户的服务质量和用户的满意度,在用户访问网站点击流形成频繁序列模式的基础上,提出基于距离函数的聚类分析以及基于时间相似度函数的二次聚类分析算法。该算法可以求取频繁序列的相关性和反映用户对网页的兴趣的相似度,对下一步改善Web站点的结构及存在形式使站点达到更好的效果起先导作用。  相似文献   

9.
从模式的相似度信息和支持度大小两方面分析了前人聚类算法中采用的距离函数的缺陷,提出了改进距离函数的新算法—Mix算法。实验研究证明,算法在实现过程中可以相应减少时间消耗和聚类结果的错误程度,提高聚类质量,从而得到比较好的聚类效果。  相似文献   

10.
数据流具有数据量无限且流速快的特点.针对上述问题,本文讨论了基于频繁模式的数据流聚类算法.本算法应用改造后的FP-Tree,更新树时增加一个数组减少了遍历树的时间,使算法的效率得到了很大的提高.  相似文献   

11.
结合XML文档的特点,采用XML数据模型XOEM和压缩结构树的存储结构,提出了一种高效的XML数据的频繁模式挖掘算法──AFPMX算法,并从理论和实验两方面证明了该算法是可行和有效的。  相似文献   

12.
基于频繁模式树的约束最大频繁项集挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
多数最大频繁项集挖掘算法产生候选项目集的代价很高,而实际应用中用户只关心部分关联规则。针对该问题,提出一种基于频繁模式树的约束最大频繁项集快速挖掘算法。该算法能随时删除不满足约束条件的项集,无需生成候选项目集,由此提高挖掘效率。实验结果证明,该算法的效率优于同类算法。  相似文献   

13.
在分析现有的频繁模式树挖掘的经典算法FREQT和FreqtTree基础上,提出一种新的基于递推式右路径扩展的XML频繁模式树挖掘算法。该算法采用最右路径扩展的思想,利用递推式的候选节点集更新技术来压缩候选节点集,产生数量较少的候选模式,并且在计算候选模式树的支持数时,采用增量式技术,提高算法效率。从理论上证明该算法的正确性,并对通过具体实验验证算法的高效性。  相似文献   

14.
基于频繁模式挖掘的Internet骨干网攻击发现方法研究   总被引:1,自引:0,他引:1  
DDOS、蠕虫和病毒邮件已经成为影响骨干网络安全的3大主要因素,近几年来不断爆发的安全事件已经造成了巨额的经济损失。这些攻击具有贪婪性以及模式频繁重复的特点。本文对这3种方式分别进行了建模,提出了一种新的基于攻击行为模式分析的TIR模型,并提供了相应的快速挖掘算法。基于本文的方法在应用中能以较低的资源代价检测到未知的攻击并定位受害源。为提高算法的效率,本文提出了基于双页表结构的TIR攻击树构建方法,实验证明它能有效地提升信息采集速度。  相似文献   

15.
Efficient algorithms to mine frequent patterns are crucial to many tasks in data mining. Since the Apriori algorithm was proposed in 1994, there have been several methods proposed to improve its performance. However, most still adopt its candidate set generation-and-test approach. In addition, many methods do not generate all frequent patterns, making them inadequate to derive association rules. We propose a pattern decomposition (PD) algorithm that can significantly reduce the size of the dataset on each pass, making it more efficient to mine all frequent patterns in a large dataset. The proposed algorithm avoids the costly process of candidate set generation and saves time by reducing the size of the dataset. Our empirical evaluation shows that the algorithm outperforms Apriori by one order of magnitude and is faster than FP-tree algorithm. Received 14 May 2001 / Revised 5 September 2001 / Accepted in revised form 26 October 2001 Correspondence and offprint requests to: Qinghua Zou, Department of Computer Science, California University–Los Angeles, CA 90095, USA. Email: zou@cs.ucla.eduau  相似文献   

16.
宋恒  张杨 《计算机仿真》2004,21(7):142-145
研究从统计模式识别的角度出发,智能的利用技术指标作股市技术分析。利用处理后的一些技术指标形成特征空间,在特征空间上用聚类技术寻找股市规律。所用聚类算法是根据股市特点设计的一种较适宜的模糊主轴核聚类算法。通过大盘和个股实例分析,该方法能降低传统技术分析的难度和潜在主观性,并能较充分利用历史数据包含的信息,对市场趋势作出客观分析。  相似文献   

17.
目前提出的频繁项目集挖掘算法大多基于Apriori算法思想,但这类算法会产生巨大的候选集并且重复扫描数据库.本文针对这一问题,给出了一种基于FC-tree的频繁闭项目集挖掘算法Max-FCIA,该算法将频繁项目集存储在哈希表中,节省了程序的搜索时间.此外,利用广度优先搜索和有效的剪枝策略,大大限制了候选项目集的生成,缩小了搜索空间从而提高了程序的性能.实验结果表明该算法是快速有效的.  相似文献   

18.
沈浅 《微型电脑应用》2011,27(12):33-35,70
目前,协同过滤技术是个性化推荐系统中广泛使用的一种技术,该技术最大的优点是对推荐对象没有特殊的要求,能够处理非结构化的复杂对象,然而算法中普遍存在的数据稀疏性、可扩展性问题影响了算法的推荐效果。本文在分析了原有算法的基础上,提出了一个改进了的算法基于平均差分的组合推荐算法,这个组合算法在一定程度上缓解了原有算法的问题,提高了推荐系统的质量。  相似文献   

19.
从生物序列中发现有意义的频繁模式已经成为生物信息领域研究的重要任务.文中提出基于打分矩阵的生物序列频繁模式挖掘算法.首先构造近似匹配得分矩阵,用于处理带通配符间隔约束的模式匹配问题中插入、替换、删除操作.然后设计基于打分矩阵的近似模匹配方法获取模式在序列中的近似出现次数.最后采用数据驱动模式生成方法和Apriori-like剪枝策略避免产生过多不必要的候选模式.在蛋白质和DNA序列上的实验表明文中算法性能更优,可用于挖掘不同序列的共同频繁模式.  相似文献   

20.
新书推荐是数字图书馆推广个性化服务的重要内容。为设计开发高效、准确的推荐系统。研究人员采用多种智能算法实现图书推荐。基于遗传算法的新书推荐方法(GANBook)利用遗传算法搜索效率高、自适应性强等优点对新书书目进行自动搜索.从而实现个性化图书推荐。仿真实验表明GANBook算法能够快速、准确地在数量庞大的书目中找出适合特定读者的最佳图书推荐组合,从而实现快速、个性化的新书推荐服务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号