首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 671 毫秒
1.
一种新的关联规则挖掘算法研究 *   总被引:1,自引:0,他引:1  
:通过分析数据关联的特点和已有的关联规则挖掘算法 ,在定量描述的准确性和算法高效性方面作了进一步研究 ,提出了更准确的支持度和置信度定量描述方法和关联关系强弱的定量描述方法。同时 ,改进了 FP-growth挖掘算法 ,并应用于中医舌诊临床病例数据库挖掘实验中 ,可成功准确地提取中医舌诊诊断规则。测试结果表明该算法速度快、准确度高。  相似文献   

2.
作为当前数据流挖掘研究的热点之一,多数据流聚类要求在跟踪多个数据流随时间演化的同时按其相似程度进行划分。文中提出一种基于灰关联分析并结合近邻传播聚类的多数据流聚类方法。该方法基于一种灰关联度,将多个数据流的原始数据压缩成可增量更新的灰关联概要信息,并根据该信息计算多个数据流之间的灰关联度作为其相似性测度,最后应用近邻传播聚类算法生成聚类结果。在真实数据集上的对比实验证明该方法的有效性。  相似文献   

3.
关联规则挖掘作为一种大数据挖掘方法,被用于确定不同项目间存在的内在联系,并以大于某一阈值作为评判不同项间存在关联的依据。传统关联规则挖掘方法仅能建立不同项间的布尔型关联规则,存在硬化数据"尖锐边界"问题导致关联规则挖掘性能下降的缺点。为克服经典数据挖掘算法的这一缺陷,提出一种新型中智关联规则挖掘算法。基于专家知识对语言学术语进行量化预处理,得到不同指标的量化数据资料库;基于关联规则支持度定义计算不同指标项集合的支持度;通过考虑不同项间的隶属度、不确定度和非隶属度函数生成关联规则。将该中智挖掘算法与模糊挖掘算法进行对比,结果表明,该算法能够增加生成关联规则数量,有助于提高数据挖掘的准确性。  相似文献   

4.
挖掘数据流滑动时间窗口内Top-K频繁模式   总被引:1,自引:0,他引:1  
由于数据流滑动时间窗口中流数据包含模式的支持度是动态变化的,很难给出一个合适的支持度门限来挖掘数据流滑动时间窗口内的频繁模式.在研究数据流滑动时间窗口内流数据变化特点的基础上,论文提出了一种挖掘数据流滑动时间窗口内Top-k频繁模式的方法,该方法能够在保证模式挖掘误差基础上快速删除窗口内不频繁模式信息,保留重要的模式信息,并能按照支持度降序输出Top-k频繁模式.仿真实验结果表明,该算法具有较好的效率和正确性,并优于其它同类算法.  相似文献   

5.
挖掘数据流界标窗口Top-K频繁项集   总被引:3,自引:0,他引:3  
数据流频繁项集挖掘是目前数据挖掘与知识发现领域的热点研究课题,在许多领域有重要应用.然而支持度阈值的设定需要一定的领域知识,设置不当会给后续的分析处理带来很多困难和不必要的负担,因此挖掘数据流top-K频繁项集有重要意义.提出一个挖掘数据流界标窗口top-K频繁项集的动态增量近似算法TOPSIL-Miner,为此设计了存储流数据摘要信息的概要结构TOPSIL-Tree以及动态记录挖掘相关信息的树层最大支持度表MaxSL、项目序表OIL,TOPSET和最小支持度表MinSL等,并分析了与这些概要结构相关的挖掘特性.在此基础上研究算法的3种优化措施:1)剪枝当前数据流的平凡项集;2)挖掘过程中启发式自适应提升挖掘阈值;3)动态提升剪枝阈值.对算法的误差上界进行了分析研究.最后通过实验验证了算法的可行性、精确性和时空高效性.  相似文献   

6.
王培培  孟芸 《计算机仿真》2021,38(5):282-286
针对传统数据关联挖掘过程只适用于单段数据集,导致内存负担重、挖掘频繁项集效率不高等问题,提出一种多段支持度数据频繁模式关联规则挖掘方法.运用多支持度算法对数据集逐步搜索,数据集按照数据项的MIS大小有序排列,采用最小值作为最小支持度,确保该算法的地推性.构建FP_ tree树,利用FP_tree算法对待选项实施剪枝,从而准确挖掘出频繁模式的关联规则.仿真结果证明,多段支持度数据频繁模式关联规则挖掘具有较好的性能,有效提高了关联规则的挖掘效率.  相似文献   

7.
为减少多段支持度数据集成耗时,提高多段支持度数据集成效率,本文提出了一种全新的多段支持度数据集成系统。综合考虑多段支持度数据的特征,搭建了与数据集成需求契合度较高的硬件运行环境。在此基础上,基于最大频繁模式挖掘算法,设计数据流处理模块,输出挖掘的数据流频繁项集。设计多段支持度数据实时加载模块,抽取点对点同步数据,再引入5G专网数字孪生模型理念,构建多段支持度数据库,分析、集成与存储数据。根据系统测试结果可知,设计系统应用后,集成数据平均时耗最多不超过1.5 s,集成效率得到了提高。  相似文献   

8.
在数据库中增加数据且调整最小支持度时,数据库中关联规则会发生变化,为从数据量和最小支持度同时发生变化的数据库中快速获取频繁项集,发现变化后的关联规则,通过对FIM和AIUA算法进行分析,提出一种结合两种算法优点的增量数据关联规则挖掘My_FIM_AIUA算法,该算法能减少数据库扫描次数,减少候选项集数量。通过实验表明My_FIM_AIUA算法能在数据量和最小支持度同时变化时快速找到频繁项集,提高挖掘增量数据关联规则的速度。  相似文献   

9.
徐慧慧  晏华 《计算机科学》2021,48(6):210-214
对疾病相关风险项的分析是数据挖掘理论在医疗领域应用的一个重要内容,可以帮助医生分析疾病成因,从而有效地开展防治工作.医学领域的疾病数据有其自身的特征,例如其高度不平衡性的特点往往使得大量珍贵的信息蕴藏于支持度小的属性项中,直接采用经典的基于支持度的关联规则挖掘算法易造成重要信息的丢失.因此,文中结合医疗领域的知识,基于医学领域常用的统计标准——相对危险度,提出了一种挖掘疾病高风险项集的算法(Mining Algorithm for high Relative Risk Itemsets,MARRI),以及与之相匹配的两种规则剪枝方法,即作用叠加剪枝和样本数剪枝,并在儿童先心病数据集上对算法进行验证.实验结果表明,该算法具有挖掘低支持度项集信息的能力,挖掘出的疾病关联因素更有价值.  相似文献   

10.
邓广彪 《数字社区&智能家居》2014,(31):7237-7240,7243
在数据库中增加数据且调整最小支持度时,数据库中关联规则会发生变化,为从数据量和最小支持度同时发生变化的数据库中快速获取频繁项集,发现变化后的关联规则,通过对FIM和AIUA算法进行分析,提出一种结合两种算法优点的增量数据关联规则挖掘My_FIM_AIUA算法,该算法能减少数据库扫描次数,减少候选项集数量。通过实验表明My_FIM_AIUA算法能在数据量和最小支持度同时变化时快速找到频繁项集,提高挖掘增量数据关联规则的速度。  相似文献   

11.
挖掘数据流中的频繁模式   总被引:18,自引:1,他引:17  
发现数据流中的频繁项是数据流挖掘中最基本的问题之一.数据流的无限性和流动性使得传统的频繁模式挖掘算法难以适用.针对数据流的特点,在借鉴FP-growth算法的基础上.提出了一种数据流频繁模式挖掘的新方法:FP—DS算法.算法采用数据分段的思想,逐段挖掘频繁项集,用户可以连续在线获得当前的频繁项集,可以有效地挖掘所有的频繁项集,算法尤其适合长频繁项集的挖掘.通过引入误差ε,裁减了大量的非频繁项集,减少了数据的存储量,也能保证整个数据集中项目集支持度误差不超过ε.分析和实验表明算法有较好的性能.  相似文献   

12.
对于生物化工产品的工业生产而言,更要有合适的生产环境条件,然而由于生产过程的复杂性,确定适宜的生产环境较为困难。就生化企业生产的数据特征,提出了生产数据的指标分割预处理及针对稀有数据的关联规则挖掘方法,对数据指标分割的过程进行了详细的阐述,并针对稀有数据挖掘,提出了关联规则挖掘中相对支持度的概念,在此基础上设计并开发生化企业关联规则挖掘数据分析系统,给出了系统的结构和功能,并对系统应用进行了试验和分析,取得了较好的效果。  相似文献   

13.
布尔时间序列中的关联规则挖掘较难处理,因为多数关联规则仅挖掘不同事务共同出现的规则,难以体现同一事件在不同时间内动态变化间的关联性.鉴于此,提出一种新的关联规则挖掘框架,利用常量化表示布尔数据的时间属性,结合聚类算法和关联分析,提高规则的支持度,从而解决布尔时间序列数据在关联规则挖掘中的时间值表示问题,并使用多种指标评价规则与传统算法比较.在真实的中风病预后好转数据预测中验证了所提出算法的有效性.  相似文献   

14.
随着仿真系统复杂程度的增加和规模的增大,仿真时间越来越长,仿真所产生的数据量越来越大,使得仿真数据具有数据流的特性,因此可以采用数据流挖掘技术处理仿真数据.综述了数据流和数据流挖掘技术的主要特点;提出了基于数据流挖掘技术的仿真应用框架;设计了通用数据流挖掘成员,以便能够快速将数据流挖掘算法集成到基于HLA体系结构的仿真系统中,并以导弹突防仿真系统为例介绍了所设计的通用数据流关联规则挖掘成员.  相似文献   

15.
基于灰色系统理论的商业银行竞争力评价模型   总被引:11,自引:0,他引:11  
建立了市场占有能力、盈利性等4方面的竞争力评价指标体系,引入灰色系统理论,建立了基于灰色系统理论的商业银行竞争力评价模型,该模型具有如下主要特点:一是构建理想银行。计算被评价银行与理想银行之间的关联度,其关联度大小的排序即银行竞争力强弱的顺序,二是选取典型银行,进行了主成分分析和灰色关联优势分析,通过综合关联度的计算得到各指标对综合得分的影响程度,解决了现有研究中对指标权重确定主观性太强的缺点。  相似文献   

16.
数据流中的关联规则在预测和在线分析系统中有重要应用.现有的研究大多集中在事务数据模型上,鲜有对数据项之间的关联规则挖掘.由于数据的实时性特点,用户又往往对新产生的数据所包含的信息更感兴趣.为了实时而准确地挖掘最近一段时间内数据项间的关联规则,提出了MARSW(mining association rules on sliding window)算法,利用滑动窗口模型对数据流进行关联规则挖掘.MARSW算法在给定的误差范围内,能够有效去除历史数据的影响,并以有限的空间代价快速挖掘大量数据间存在的关联规则.大量仿真实验结果表明,MARSW算法具有较高的效率和优良的可扩展性.  相似文献   

17.
支持度和置信度是关联规则挖掘中的重要指标,其选取对关联规则的挖掘过程和挖掘结果都有很大影响.本文介绍了回归分析方法及其在关联规则挖掘中的应用,建立了规则条数与支持度、置信度的关系模型,并验证了该方法的正确性与有效性.  相似文献   

18.
CBC-DS:基于频繁闭模式的数据流分类算法   总被引:2,自引:0,他引:2  
基于关联规则的分类算法通常根据频繁模式生成类关联规则,但频繁模式挖掘易遭受组合爆炸问题,影响算法效率.并且数据流的出现也对分类算法提出了新的挑战.相对于频繁模式,频繁闭模式的数目较少,挖掘频繁闭模式的算法通常具有较高的效率.为此,提出了一种高效的基于频繁闭模式的数据流分类算法-CBC-DS.主要贡献在于:1)提出了一种基于逆文法顺序FP-Tree的频繁闭项集单遍挖掘过程,用于挖掘类关联规则,该过程采用了一种混合项顺序搜索策略以满足数据流挖掘的单遍性需求,并采用位图技术提高效率;2)提出了"自支持度"概念,用于筛选规则以提高算法分类精度.实验表明,位图技术能够提高算法速度2倍以上,利用自支持度能够提高算法平均精度0.5%左右;最终CBC-DS算法的平均分类精度比经典算法CMAR高1%左右,并且CBC-DS算法的规则挖掘速度远快于CMAR算法.  相似文献   

19.
陈智  梁娟 《微计算机信息》2012,(4):175-176,110
关联规则挖掘主要用于发现事务数据集中项与项之间的关系,由于事务数据通常具有时间特性,同一规则在不同的时间段,其支持度和置信度值也不尽相同。为关联规则建立元规则,对其支持度和置信度变化趋势进行分析和预测,有利于进一步指导挖掘和决策。本文通过一个例子,分析了使用GM(1,1)模型进行元规则挖掘的一般过程,评价了GM(1,1)模型在元规则挖掘中的优缺点。  相似文献   

20.
数据流频繁项集挖掘是指在数据流中找出出现频数大于给定的最小支持度的项集过程。随着一些新兴应用如传感器网络、网络监控等的出现,数据流中频繁项集挖掘引起了很大的重视。提出了一种新颖的数据流频繁项集挖掘算法RFIF。不同于现有算法,RFIF算法针对现实中的一些实际应用,更多的考虑最近时间发生的事件,但也不完全抛弃历史数据,通过引入GIMT函数,逐渐加大项集支持度的阈值,减少对历史数据中频繁项集的维护。实验验证了算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号