首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
传统关联分类算法使用单一最小项目支持度挖掘关联规则,导致稀有项关联规则无法被发现,从而影响分类的准确性和实用性。提出一种多支持度关联规则分类算法MS-CBAR(Multiple Supports-Classification Based on Association Rules),将多最小项目支持度模型应用于关联分类,以有效挖掘稀有项。该算法为数据库中的规则项提供了用户可定义的最小项目支持度。MS-CBAR算法使用项的最小项支持度阈值、类的最小类支持度值和规则项的最小支持度值决定分类规则是否频繁。生成分类规则集后,使用最高优先度规则覆盖法基于规则集建立分类器。实验表明,所提算法在包含稀有项目及稀有类的数据集中准确率高于传统关联分类算法及其相关算法,表现更稳定。  相似文献   

2.
Apriori算法是数据挖掘领域挖掘关联规则频繁项目集的经典算法,但该算法存在产生大量的候选项目集及需要多次扫描数据库的缺陷。为此提出一种新的挖掘关联规则频繁项目集算法( CApriori算法):利用分解事务矩阵来压缩存放数据库的相关信息,进而对分解事务矩阵进行关联规则挖掘;优化了由频繁k -1项目集生成频繁k项目集的连接过程;提出了一种不需要扫描数据库,利用行集“与运算”快速计算支持数的方法,改进算法挖掘所有的频繁项目集只需扫描数据库两次。实验结果表明,改进算法在最小支持度较小时效率高于Apriori算法。  相似文献   

3.
计算支持度和置信度的上下界   总被引:2,自引:0,他引:2  
在对海量数据库进行关联规则开采时,项目集支持度和规则置度度的计算是一件十分耗时的工作,本文提出一种利用已知项目集的支持度信息来计算未知项目集支持度和规则置信度上下界的算法,可减少生成不必要的项目集,从而大大缩短数据开采的时间。  相似文献   

4.
模糊Horn子句规则挖掘算法研究   总被引:1,自引:0,他引:1  
模糊关联规则可以用自然语言来表达人类知识,受到数据挖掘与知识发现研究人员的广泛关注。但是,目前大多数模糊关联规则挖掘方法仍然基于经典关联规则的支持度和可信度测度。从模糊蕴涵的观点出发,定义了模糊Horn子句规则、支持度、蕴涵强度以及相关概念,提出了模糊Horn子句规则挖掘算法。该算法可以分解为3个步骤。首先,将定量数据库转换为模糊数据库。其次,挖掘模糊数据库中所有支持度不小于指定最小支持度阂值的频繁项目集。一旦得到了所有频繁项目集,就可以用一种直接的方法生成所有蕴涵强度不小于指定最小蕴涵强度阂值的模糊Horn子句规则。  相似文献   

5.
在数据库中增加数据且调整最小支持度时,数据库中关联规则会发生变化,为从数据量和最小支持度同时发生变化的数据库中快速获取频繁项集,发现变化后的关联规则,通过对FIM和AIUA算法进行分析,提出一种结合两种算法优点的增量数据关联规则挖掘My_FIM_AIUA算法,该算法能减少数据库扫描次数,减少候选项集数量。通过实验表明My_FIM_AIUA算法能在数据量和最小支持度同时变化时快速找到频繁项集,提高挖掘增量数据关联规则的速度。  相似文献   

6.
邓广彪 《数字社区&智能家居》2014,(31):7237-7240,7243
在数据库中增加数据且调整最小支持度时,数据库中关联规则会发生变化,为从数据量和最小支持度同时发生变化的数据库中快速获取频繁项集,发现变化后的关联规则,通过对FIM和AIUA算法进行分析,提出一种结合两种算法优点的增量数据关联规则挖掘My_FIM_AIUA算法,该算法能减少数据库扫描次数,减少候选项集数量。通过实验表明My_FIM_AIUA算法能在数据量和最小支持度同时变化时快速找到频繁项集,提高挖掘增量数据关联规则的速度。  相似文献   

7.
基于项目集知识库的关联规则挖掘与更新的高效算法   总被引:2,自引:2,他引:2  
通过对已有的诸关联规则挖掘与更新算法进行深入的分析和研究,指出了其共同存在的问题与不足,提出了一种基于项目集知识库的关联规则挖掘与更新方法。该方法既适应当数据库D中数据不变而用户指定的最小支持度和最小置信度这两个阈值变化的情况,也适合事务数据库D中数据发生变化的情况。当事务数据库D中数据不变时,仅需扫描数据库一次,便可建立项目集知识库KBD,然后可反复调整最小支持度和最小置信度进行关联规则挖掘与更新。而当事务数据库D中数据发生变化时,仅需扫描数据集d 和d-各一次;通过对项目集知识库KBD的更新来达到对频繁项目集和关联规则的更新。  相似文献   

8.
关联规则的更新是数据挖掘研究的一个重要内容,能否有效地挖掘出动态事务数据库中的最大频繁项目集是衡量一个关联规则更新算法好坏的关键因素。提出基于FP_tree的最大频繁项目集增量式更新(MFIUP)算法,以处理最小支持度和事务数据库同时发生变化之后相应频繁项目集的更新问题,其中事务数据库的变化同时包括增加和减少两种情况,并对其优越性进行了分析和测试。  相似文献   

9.
针对数据集中交易记录和数据项的重要性不同问题,提出了一种多最小支持度的加权关联规则挖掘算法,允许用户设定多个最小支持度,给出交易记录不同的权重,从而发现有价值的关联规则。该算法按项目的最小支持度升序对交易记录进行分类,按类别依次求出每一类别内的加权频繁集。在挖掘过程中由于剔除了冗余项目并对相同项集累加计数,且不需多次重复扫描数据库,从而提高了挖掘效率。实验结果表明,新算法能有效地从数据集中挖掘出加权关联规则。  相似文献   

10.
为了在事务数据库中发现关联规则,在现实挖掘应用中,经常采用不同的标准去判断不同项目的重要性,管理项目之间的分类关系和处理定量数据集这3个方法去处理问题,因此提出一个在定量事务数据库中采用多最小支持度,在项目集中获取隐含知识的多层模糊关联规则挖掘算法。该挖掘算法使用两种支持度约束和至上而下逐步细化的方法推导出频繁项集,同时可以发现交叉层次的模糊关联规则。通过实例证明了该挖掘算法在多最小支持度约束下推导出的多层模糊关联规则是易于理解和有意义的,具有很好的效率和伸缩性。  相似文献   

11.
实时数据库在工业控制领域得到广泛应用,其保存的历史数据占用大量的存储空间。为了在保持高实时性等特点的同时,尽可能地提高数据库的容量,数据压缩技术被引入实时数据库。本文设计一种针对实时数据库历史数据的无损压缩算法,该算法改进自LZ算法。通过试验比较发现这种算法运算量小、压缩率高、压缩速度快,是一种高效的无损压缩算法。  相似文献   

12.
张立芳 《计算机工程》2008,34(21):76-77,8
关系数据库中的索引技术可以快速判断记录重复,但对于频繁更新的海量数据库,维护索引的时间与资源开销较大。针对交通量数据包及其海量数据库的特点,提出一个交通量实时包的时序区间模型,给出并证明了一个基于区间记录的快速判重算法,分析了算法的复杂度,探讨了改进算法的方法。该算法具有复杂度与数据库大小无关、高效、易于实现等特点。  相似文献   

13.
匡春光  陈华  张鲁峰 《计算机工程》2008,34(21):124-125,
关系数据库中的索引技术可以快速判断记录重复,但对于频繁更新的海量数据库,维护索引的时间与资源开销较大.针对交通量数据包及其海量数据库的特点,提出一个交通量实时包的时序区间模型,给出并证明了一个基于区间记录的快速判重算法,分析了算法的复杂度,探讨了改进算法的方法.该算法具有复杂度与数据库大小无关、高效、易于实现等特点.  相似文献   

14.
针对现有恶意程序行为特征检测存在的不足,采用多轨迹检测方法,用文件操作、网络访问、内存资源访问的行为特征构建出三维恶意行为特征库。在构造投影数据库的过程中,结合AC自动机优化频繁序列查询,舍去不满足最小长度的频繁序列,得到改进的数据挖掘算法——Prefixspan-x,并将其应用于动态提取恶意软件行为特征库和阈值匹配,以克服静态反汇编方式获取软件行为轨迹时软件加壳、混淆带来的检测困难。实验结果表明,基于数据挖掘的多轨迹特征检测技术具有较高的准确率和较低的漏报率。  相似文献   

15.
对于轨道数据库在线更新这种大规模数据的短时间加载,安全计算机无法对其进行直接表决。为此,提出一种基于状态表决的安全计算机数据库更新表决算法,不直接对数据库表决,而是对数据库状态表决,解决表决数据量过大的问题,同时可对多系之间的数据库版本进行实时比对。使用马尔科夫模型分析该算法的安全性和可靠性,结果表明,该算法可确保安全计算机数据库的在线更新。  相似文献   

16.
航天测控信息数据库实时优化管理策略研究与应用   总被引:1,自引:0,他引:1  
为提高和优化测控信息数据库实时性能,设计了一种基于内存数据库与关系数据库的两级实时存储模型,文章详细阐述了两级数据库的存储机制及其生命周期,分析归纳了实时测控信息的特征及存储策略,提出了内存数据库基于“T树”+“哈希”索引相结合的白适应索引算法和两级数据库实时数据同步机制等关键技术,从而提升和优化了数据库的实时性、可靠性和安全性,为今后实时的扩展应用提供了可靠数据保证.  相似文献   

17.
空间数据库中连接运算的处理与优化   总被引:7,自引:0,他引:7       下载免费PDF全文
空间数据库的性能问题严重制约了它的应用与发展 .由于空间连接运算是空间数据库中最复杂、最耗时的基本操作 ,因此其处理效率在很大程度上决定了空间数据库的整体性能 .尽管目前已经有许多空间连接算法 ,但空间连接运算的代价估计和查询优化仍然有待进一步研究 .众所周知 ,大部分空间连接算法都是基于 R树索引实现的 ,如果参与空间连接运算的关系上没有索引或只有部分索引 ,那么就需要使用特殊的算法来处理 .另外 ,各种算法的代价评估模型需要一个相对统一的计算方法 ,实践证明 ,根据空间数据库的实际情况 ,使用 I/ O代价来估计算法的复杂性较为合理 .在此基础上 ,针对复杂的空间查询中可能出现多个关系参与空间连接运算的情况 ,故还需要合理地应用动态编程算法来找出代价最优的连接顺序 ,以便最终形成一个通用的算法框架 .通过对该算法框架的复杂性分析可以看出 ,在此基础上实现的空间数据库查询优化系统将具有较高的时空效率 ,并且能够处理非常复杂的空间查询  相似文献   

18.
基于半连接的并行查询处理算法的研究   总被引:8,自引:0,他引:8  
多元连接查询的并行执行是并行数据库的研究重点,传统的并行查询处理算法没有利用面向对象数据库及其查询的特点,算法效率较低.借鉴分布式数据库查询处理中基于半连接的优化思想,提出了基于半连接的并行查询处理算法.性能评价表明了其实用性和有效性.  相似文献   

19.
根据粗关系数据库中数据的特性,借助邻接表、十字链表存储不确定性数据,其中邻接表用于等价类的存储,十字链表用于数据库中基本表的存储。与传统的关系数据库更新不同,在粗关系数据库中更新基本表时,相应地等价类也要随之更新,该存储结构加快了对数据库中的数据更新速度。将算法与实例相结合,根据用户条件详细地讨论对等价类和RRDB中基本表的数据更新。  相似文献   

20.
1 引言 WWW搜索引擎(Search Engine)利用网络蜘蛛收集WWW上的相关文档信息,通过分析、处理后,将相应的文档信息加入本地信息库,在用户给定其所关心的查询条件后,利用WWW搜索引擎所提供的检索查询系统从信息库中检索出符合用户要求的信息列表,并计算每条信息与用户要求的查询条件的相关程度,按照倒排序的方式返回给用户,使用户能够快速定位到他所关心的信息。由于搜索引擎提供了这样一种工具,使得用户可以在众多的网页信息中能够快速定  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号