首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
完全加权正负关联模式在文本挖掘、信息检索等方面具有重要的理论和应用价值.针对现有挖掘算法的不足,构建完全加权正负关联模式评价框架SPRMII(support-probability ratio-mutual information-interest),提出完全加权项集双兴趣度阈值剪枝策略,然后基于该剪枝策略提出一种新的基于SPRMII框架的完全加权正负关联模式挖掘算法AWAPM_SPRMII(all-weighted association patterns mining based on SPRMII).该算法克服了传统挖掘算法缺陷并采用新剪枝方法从完全加权数据库中挖掘有趣的频繁项集和负项集,通过项集权重维数比的简单计算和SPRMII评价框架,从这些项集中挖掘有效的完全加权正负关联规则.理论分析和实验表明,该算法有效,具有良好的扩展性,与现有经典挖掘算法比较,获得了良好的挖掘性能.  相似文献   

2.

给出项权值变化的数据模型形式化表示, 构建新的加权项集剪枝策略及其模式评价框架SCCI (supportconfidence-correlation-interest), 提出基于项权值变化和SCCI 评价框架的加权正负关联规则挖掘算法. 该算法考虑了项权值变化的数据特点, 采用新的剪枝方法和评价框架, 通过项集权值简单计算和比较, 挖掘有效的加权正负关联规则. 实验结果表明, 该算法能够有效地减少候选项集数量和挖掘时间, 挖掘出有趣的关联模式, 避免无效模式出现, 挖掘效率高于相比较的现有算法, 解决了项权值变化的加权负模式挖掘问题.

  相似文献   

3.
本文将互信息模型引入教育数据关联模式挖掘,提出一种基于互信息的教育数据矩阵加权正负关联模式挖掘算法,给出与其相关的定理及其证明。本文算法克服了现有挖掘算法的缺陷,考虑了教育数据项集在学生信息数据库中具有的权值,采用新的正负关联模式评价标准,挖掘出更接近实际情况的正负关联模式。通过关联模式分析,发现教育数据中潜在有用的教育、教学规律和教育发展趋势,为教育管理、教育决策和教学改革提供科学的依据。以真实的教育数据作为实验数据测试集,实验结果表明,本文算法有效,在教育信息化数据处理与分析中具有重要的应用价值。  相似文献   

4.
对海量教育信息化数据关联模式的挖掘与分析,有利于发现教育信息化数据中事先不知道的、但又是潜在有用的教育模式和知识,为教育管理、教育决策和教学改革提供科学的依据。研究面向教育信息化数据的完全加权负关联模式挖掘技术,提出一种新的教育信息化数据完全加权正负关联模式挖掘算法。该算法考虑了项目在事务数据库中的权值,从教育数据中挖掘完全加权频繁项集和负项集,在支持度-置信度-相关性架构下从频繁项集和负项集挖掘有趣的教育数据完全加权正负关联模式。通过模式分析,发现教育领域潜在的教育、教学规律和教育发展趋势,提高教育信息化数据分析和处理水平。以真实的教育信息化数据作为实验数据测试集,实验结果表明,与现有的正负模式挖掘算法比较,所提出的算法更有效、更合理,其挖掘出的正负关联模式更加接近现实。  相似文献   

5.
基于矩阵加权关联规则挖掘的伪相关反馈查询扩展   总被引:13,自引:0,他引:13  
黄名选  严小卫  张师超 《软件学报》2009,20(7):1854-1865
提出一种面向查询扩展的矩阵加权关联规则挖掘算法,给出与其相关的定理及其证明过程.该算法采用4种剪枝策略,挖掘效率得到极大提高.实验结果表明,其挖掘时间比原来的平均时间减少87.84%.针对现有查询扩展的缺陷,将矩阵加权关联规则挖掘技术应用于查询扩展,提出新的查询扩展模型和更合理的扩展词权重计算方法.在此基础上提出一种伪相关反馈查询扩展算法——基于矩阵加权关联规则挖掘的伪相关反馈查询扩展算法,该算法能够自动地从前列n 篇初检文档中挖掘与原查询相关的矩阵加权关联规则,构建规则库,从中提取与原查询相关的扩展词,实现查询扩展.实验结果表明,该算法的检索性能确实得到了很好的改善.与现有查询扩展算法相比,在相同的查全率水平级下,其平均查准率有了明显的提高.  相似文献   

6.
查询扩展是改善和提高信息检索性能的核心技术之一,其关键问题是如何获取与原查询相关的扩展词。通过关联规则挖掘技术获取扩展词是一种有效的扩展词来源方法。为了获取高质量的扩展词,提出了一种面向查询扩展的基于文本数据库的词间正负关联规则挖掘算法。该算法采用支持度-置信度-相关度框架衡量关联规则,避免产生自相矛盾的正、负关联规则,并结合查询项,给出新的剪枝策略,挖掘出只含有查询词项的正负规则,提高了挖掘效率。实验结果表明,与传统的挖掘算法比较,提出的算法更有效、合理,能检测和删除相互矛盾的规则。  相似文献   

7.
完全加权数据模型的特点是其项目权值分布在各个事务记录中,随着事务记录的不同而变化。现有的加权负关联规则挖掘算法不能适用于完全加权数据模型。该文提出一种新颖的基于概率比和兴趣度的完全加权正负关联规则的挖掘算法,探讨了算法在教育信息化数据中的应用。算法以概率比代替传统的置信度,采用支持度-概率比-兴趣度架构衡量完全加权正负关联规则,获得很好的挖掘效果。以真实的教育数据和文本数据为实验测试集,与现有正负关联规则挖掘算法比较,该文提出的算法更有效、更合理,具有较高的理论价值和应用前景。  相似文献   

8.
关联规则挖掘是数据挖掘领域中最活跃的一个分支。目前提出的许多关联规则挖掘算法需要多次扫描数据库并产生大量候选项集,影响了挖掘效率。针对加权关联规则挖掘算法中多次扫描数据库影响算法性能的问题,对其进行了优化,采取了以空间换时间的思路,提出一种基于向量的概率加权关联规则挖掘算法。以求概率的方式设置项目属性的权值,通过矩阵向量存储结构保存事务记录,只需扫描一次数据库,并且采用不同的剪枝策略及加权支持度和置信度的计算方式。使用数据实例进行模拟实验,结果表明此算法明显提高了挖掘效率。  相似文献   

9.
首先提出矩阵加权项集支持度计算方法,给出面向跨语言查询扩展的矩阵加权关联模式挖掘算法.然后提出基于矩阵加权关联规则挖掘的跨语言查询译后扩展算法.借助机器翻译进行首次跨语言检索,得到前列初检文档,并经用户相关性判断后得到相关反馈文档.通过计算支持度从相关反馈文档中挖掘含有原查询词的矩阵加权频繁项集,通过置信度-兴趣度评价框架从频繁项集中提取含有原查询词的关联规则,将规则的后件或前件作为扩展词,利用规则的置信度和兴趣度衡量扩展词的重要性,完成跨语言查询译后扩展.在NTCIR-5 CLIR标准测试集上的实验表明,文中算法可以有效提升跨语言查询扩展性能,有利于长查询的跨语言检索,译后后件扩展性能优于前件.  相似文献   

10.
数据挖掘中的关联规则挖掘能够发现大量数据中项集之间有趣的关联或相关联系,特别是随着大量数据不停地收集和存储,从数据库中挖掘关联规则就越来越有其必要性。通过对关联规则挖掘技术及其相关算法Apriori进行分析,发现该技术存在的问题。Apriori算法是关联规则挖掘中的经典算法。对Apriori算法做了改进。借助0—1矩阵给出了计算项集的支持度计数的更快方法,同时还简化了Apriori算法中的连接和剪枝操作,从而在时间和空间上提高了Apriori算法的效率。  相似文献   

11.
针对从本文数据集中的正负关联规则挖掘问题,提出一种基于双阈值Apriori算法和非频繁项集的挖掘方法。首先,对通过逆文档频率(IDF)对语料库中的项(项集)进行加权,筛选出前N%的项集。然后,通过提出的双支持度阈值Apriori算法来提取频繁项集和非频繁项集,以此降低非频繁项集的数量。最后,通过置信度和升降度阈值的判断,分别从频繁项集和非频繁项集中挖掘正负关联规则。其中,创新性的利用了非频繁项集来挖掘正负关联规则。在一个医学文本数据集上的实验结果表明,提出的方法能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。  相似文献   

12.
最大频繁项目集挖掘技术研究与展望   总被引:1,自引:1,他引:1  
钱进 《微计算机应用》2005,26(6):652-654
提高最大频繁项目集挖掘算法的效率是关联规则挖掘研究一个重点领域.本文主要对影响最大频繁项目集挖掘效率的数据分布、搜索策略、支持度计算及剪枝策略等技术进行了研究,并对已提出的最大频繁项目集挖掘算法进行了分析.  相似文献   

13.
一种基于FP-tree的最大频繁项目集挖掘算法   总被引:7,自引:0,他引:7  
刘乃丽  李玉忱  马磊 《计算机应用》2005,25(5):998-1000
挖掘关联规则是数据挖掘领域中的重要研究内容,其中挖掘最大频繁项目集是挖掘关联规则中的关键问题之一,以前的许多挖掘最大频繁项目集算法是先生成候选,再进行检验,然而候选项目集产生的代价是很高的,尤其是存在大量长模式的时候。文中改进了FP 树结构,提出了一种基于FP tree的快速挖掘最大频繁项目集的算法DMFIA 1,该算法不需要生成最大频繁候选项目集,比DMFIA算法挖掘最大频繁项目集的效率更高。改进的FP 树是单向的,每个结点只保留指向父结点的指针,这大约节省了三分之一的树空间。  相似文献   

14.
陈文 《计算机工程》2010,36(13):59-61
针对交易数据库中数据项重要性不同的现象,引入加权支持度和最小支持期望的概念,提出一种基于关联图的加权关联规则模型,并在该模型基础上,设计了改进的加权关联规则挖掘算法。该算法扫描数据库仅一次,采用关联图存储频繁2项集信息,通过构建基于图的剪枝策略,减少验证频繁项集的计算量,有效提高加权频繁项集的生成效率。  相似文献   

15.
Apriori算法中频繁项集挖掘实现研究   总被引:3,自引:0,他引:3  
在数据挖掘中,关联规则是发现知识的一种有效方法,而频繁项集的挖掘是关联规则中发现强规则的基础,其中连接与剪枝是逐层迭代求解k-项频繁集的核心算法。因此,文中主要介绍了基于连接与剪枝挖掘频繁项集的实现过程,并通过挖掘对传统购物篮数据中的频繁项集进行了验证,结果是一致的。算法的有效性也为进一步挖掘关联规则中的强规则提供了基础。  相似文献   

16.
在对Web应用挖掘的基本步骤作系统性研究的基础上,设计了一个基于Web日志文件的关联规则挖掘模块。该系统应能够对用户访问Web时服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣。为了识别用户浏览模式,实现了利用关联规则挖掘算法Apriori对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行挖掘的模块,该模块针对用户选定的若干页面产生满足最小支持度和最小置信度的页面之间的强关联规则,并以文本的形式显示挖掘的结果。  相似文献   

17.
挖掘关联规则是目前数据挖掘领域热点研究话题之一。它的目的在于在数据库中挖掘有趣的关联规则。在关联规则分析及Apriori算法分析上,针对Apriori算法的瓶颈问题,许多有效的改进算法被提出。文中提出了QPCA算法。该算法利用矩阵分析的方法,仅需要扫描数据库一次,同时此算法优化了连接和剪枝操作,通过快速的剪枝和连接可以很快地获取最少的候选项集,避免了频繁项集之间的重复判断连接,因此大大提高了算法的效率。实验结果表明,该算法在挖掘时间上有很大提高。  相似文献   

18.
钱雪忠  惠亮 《计算机应用》2011,31(5):1339-1343
基于FP-tree的最大频繁模式挖掘算法是目前较为高效的频繁模式挖掘算法,针对这些算法需要递归生成条件FP-tree、产生大量候选最大频繁项集等问题,在分析FPMax、DMFIA算法的基础上,提出基于降维的最大频繁模式挖掘算法(BDRFI)。该算法改传统的FP-tree为数字频繁模式树DFP-tree,提高了超集检验的效率;采用的预测剪枝策略减少了挖掘的次数;基于降低项集维度的挖掘方式,减少了候选项的数目,避免了递归地产生条件频繁模式树,提高了算法的效率。实验结果表明,BDRFI的效率是同类算法的2~8倍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号