首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
传统关联规则挖掘在面临分类决策问题时,易出现非频繁规则遗漏、预测精度不高的问题。为得到正确合理且更为完整的规则,提出了一种改进方法 DT-AR(decision tree-association rule algorithm),利用决策树剪枝策略对关联规则集进行补充。该方法利用FP-Growth(frequent pattern growth)算法得到关联规则集,利用C4.5算法构建后剪枝决策树并提取分类规则,在进行置信度迭代筛选后与关联规则集取并集修正,利用置信度作为权重系数采取投票法进行分类。实验结果表明,与传统关联规则挖掘和决策树剪枝方法相比,该方法得到的规则在数据集分类结果上更准确。  相似文献   

2.
针对在生物信息网络中对复杂和大规模的数据集进行挖掘时所出现的算法挖掘精度低、运行速度慢、内存占用大等问题,提出一种基于关联规则映射的生物信息网络多维数据挖掘算法.该算法结合网络数据集之间的关联映射关系,从而确定网络数据集的关联规则,并引入挖掘因子和相对误差来提高算法的挖掘精度;根据多维子空间中数据集之间的关联程度进行子空间区分以及子空间内数据集区分,从而实现对不同数据集的有效挖掘.在实验中,对不同数据集数量下的算法内存占用情况、算法挖掘精度、算法运行时间进行仿真,从实验结果可以看出基于关联规则映射的挖掘算法可以有效地提高挖掘精度,在减少内存占用和提升计算速度上也具有一定的优势.  相似文献   

3.
高置信度关联规则的挖掘   总被引:3,自引:1,他引:2       下载免费PDF全文
传统的关联规则和基于效用的关联规则,会忽略一些支持度或效用值不高、置信度(又称可信度)却非常高的规则,这些置信度很高的规则能帮助人们满足规避风险、提高成功率的期望。为挖掘这些低支持度(或效用值)、高置信度的规则,提出了HCARM算法。HCARM采用了划分的方法来处理大数据集,利用新的剪枝策略压缩搜索空间。同时,通过设定长度阈值minlen,使HCARM适合长模式挖掘。实验结果表明,该方法对高置信度长模式有效。  相似文献   

4.
针对从本文数据集中的正负关联规则挖掘问题,提出一种基于双阈值Apriori算法和非频繁项集的挖掘方法。首先,对通过逆文档频率(IDF)对语料库中的项(项集)进行加权,筛选出前N%的项集。然后,通过提出的双支持度阈值Apriori算法来提取频繁项集和非频繁项集,以此降低非频繁项集的数量。最后,通过置信度和升降度阈值的判断,分别从频繁项集和非频繁项集中挖掘正负关联规则。其中,创新性的利用了非频繁项集来挖掘正负关联规则。在一个医学文本数据集上的实验结果表明,提出的方法能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。  相似文献   

5.
基于云南气象数据的空间关联规则挖掘   总被引:5,自引:0,他引:5  
空间关联规则挖掘可以深入发现现实世界大量空间谓词和非空间谓词之间的特定空间关系。论文结合气象数据的特点和已有传统关联规则挖掘算法的优点,针对云南气象数据提出了一种基于项目序列集的空间关联规则挖掘算法。通过严格的算法分析和具体实验表明,该算法是有效、可行的。  相似文献   

6.
石丽娟  孙钦明 《计算机仿真》2021,38(2):287-290,325
针对传统的网络可靠度挖掘精确度较低,且过程较为复杂的问题,提出一种灰色系统理论下复杂网络可靠性度量挖掘方法,首先利用优化、动态优化、量化、因素分析以及思想开发构建灰色系统理论模型,并计算复杂网络的广播与单播模式的连通可靠度,再通过周期数据延时所确定的可靠度、周期数据的正确可靠度、非周期数据的延时确认可靠度、非周期数据的确认可靠度、数据延时的确认可靠性、数据延时的确认可靠性和流数据信息的完整可靠度,利用7个可靠性参数,对复杂网络的可靠性度量挖掘.仿真结果表明,所提方法挖掘的准确度较高、过程简单,具有较好鲁棒性,可为网络安全防护工作提供有效参考.  相似文献   

7.
马慧  汤庸  潘炎 《计算机工程》2006,32(17):132-134
随着各种形式的数据的迅速增长,业务数据中的时态信息挖掘问题受到人们普遍关注。该文提出了一种带有效时间区间的时态关联规则,给出了一种基于FP-树的挖掘方法。该方法利用分区挖掘的思想,以分区为单位表示项集的有效时间区间,并为每个分区构建FP-树,大大简化了对某个项集在其有效时间区间中的出现次数的计算,从而更有效地计算时态置信度。最后用一个例子对该方法的执行过程进行了阐述。  相似文献   

8.
基于项目集知识库的关联规则挖掘与更新的高效算法   总被引:2,自引:2,他引:2  
通过对已有的诸关联规则挖掘与更新算法进行深入的分析和研究,指出了其共同存在的问题与不足,提出了一种基于项目集知识库的关联规则挖掘与更新方法。该方法既适应当数据库D中数据不变而用户指定的最小支持度和最小置信度这两个阈值变化的情况,也适合事务数据库D中数据发生变化的情况。当事务数据库D中数据不变时,仅需扫描数据库一次,便可建立项目集知识库KBD,然后可反复调整最小支持度和最小置信度进行关联规则挖掘与更新。而当事务数据库D中数据发生变化时,仅需扫描数据集d 和d-各一次;通过对项目集知识库KBD的更新来达到对频繁项目集和关联规则的更新。  相似文献   

9.
空间关联规则的双向挖掘   总被引:9,自引:0,他引:9  
空间数据库中关联规则挖掘不仅需要考虑关系元组属性之间的关系——纵向关系,更需要挖掘元组之间的关系——横向关系,如相邻、相交、重叠等。本文通过分析空间数据库的存储模式,借鉴事务数据库关联规则的挖掘方法,对空间关联规则进行完整定义,并对规则的兴趣度度量进行探讨。根据挖掘的方向将空间数据挖掘归纳为纵向挖掘、横向挖掘、双向挖掘。在双向挖掘中,提出一种新算法,该算法根据挖掘任务进行约束,缩小挖掘空间,然后通过空间计算将空间关系转化为非空间关系,经过多次循环,获取非空间项集,进而挖掘出空间关联规则。据此提出空间数据双向挖掘工作流程,并通过实例进行了验证。  相似文献   

10.
可信关联规则及其基于极大团的挖掘算法   总被引:3,自引:1,他引:3  
肖波  徐前方  蔺志青  郭军  李春光 《软件学报》2008,19(10):2597-2610
目前的关联规则挖掘算法主要依靠基于支持度的剪切策略来减小组合搜索空间.如果挖掘潜在的令人感兴趣的低支持度模式,这种策略并非有效.为此,提出一种新的关联模式—可信关联规则(credible association rule,简称CAR),规则中每个项目的支持度处于同一数量级,规则的置信度直接反映其可信程度,从而可以不必再考虑传统的支持度.同时,提出MaxcliqueMining算法,该算法采用邻接矩阵产生2-项可信集,进而利用极大团思想产生所有可信关联规则提出并证明了几个相关命题以说明这种规则的特点及算法的可行性和有效性.在告警数据集及Pumsb数据集上的实验表明,该算法挖掘CAR具有较高的效率和准确性.  相似文献   

11.
采用当前方法挖掘异构容错数据中存在的同构漏洞时,不能有效的去除网络数据中存在的噪声,挖掘同构漏洞所用的时间较长,存在去噪效果差和挖掘效率低的问题。提出在线网络异构容错数据的同构漏洞挖掘方法,在经验模态分解方法的基础上采用集成经验模式分解方法对在线网络数据做去噪处理,利用差分法抑制在线网络数据中存在的粗差干扰,抑制并分解网络中存在的脉冲干扰,分层去除数据中存在的噪声。提取去噪处理后的数据集中的元组,并对元组作概化处理,获得高层属性,根据高层属性划分网络数据,将同构数据划分到一起,实现在线网络异构容错数据中同构漏洞的挖掘。仿真结果表明,所提方法的去噪效果好,挖掘效率高。  相似文献   

12.
为了更好地实现多光谱图像特征数据处理效果,将数据挖掘引入到多光谱图像特征数据处理中。但当前多光谱图像纹理特征数据挖掘过程中,普遍存在着特征数据挖掘时间过长、成本消耗过大、数据挖掘精确度较低等问题。提出基于Contourlet变换的图像纹理特征挖掘方法。对多光谱图像纹理特征数据进行模糊预处理,采用邻近范围相关性等知识去除多光谱图像包络线,在此基础上对多光谱图像纹理特征进行分析,利用形态学滤波算子去除多光谱图像中的噪声点。引用Contourlet变换方法将多光谱图像从空间域变换到频率域,提取了变换分解后的多光谱图像低频子带和高频子带的特征向量,完成多光谱图像纹理特征数据挖掘。实验结果表明,所提方法挖掘得到的数据均匀度较好、深浅度适中,挖掘精度高,且所提方法挖掘时间较短、成本消耗较低。  相似文献   

13.
Traditional researches on user preferences mining mainly explore the user's overall preferences on the pro ject, but ignore that the fundamental motivation of user preferences comes from their attitudes on some attributes of the pro ject. In addition, traditional researches seldom consider the typical preferences combination of group users, which may have influence on the personalized service for group users. To solve this problem, a method with noise reduction for group user preferences mining is proposed, which focuses on mining the multi-attribute preference tendency of group users. Firstly, both the availability of data and the noise interference on preferences mining are considered in the algorithm design. In the process of generating group user preferences, a new path is used to generate preference keywords so as to reduce the noise interference. Secondly, the Gibbs sampling algorithm is used to estimate the parameters of the model. Finally, using the user comment data of several online shopping websites as experimental objects, the method is used to mine the multi-attribute preferences of different groups. The proposed method is compared with other methods from three aspects of predictive ability, preference mining ability and preference topic similarity. Experimental results show that the method is significantly better than other existing methods.  相似文献   

14.
针对基于隐马尔科夫(HMM,Hidden Markov Model)的MAP和MMSE两种语音增强算法计算量大且前者不能处理非平稳噪声的问题,借鉴语音分离方法,提出了一种语音分离与HMM相结合的语音增强算法。该算法采用适合处理非平稳噪声的多状态多混合单元HMM,对带噪语音在语音模型和噪声模型下的混合状态进行解码,结合语音分离方法中的最大模型理论进行语音估计,避免了迭代过程和计算量特别大的公式计算,减少了计算复杂度。实验表明,该算法能够有效地去除平稳噪声和非平稳噪声,且感知评价指标PESQ 的得分有明显提高,算法时间也得到有效控制。  相似文献   

15.
针对传统基于链表结构的Top-K高效用挖掘算法在大数据环境下不能满足挖掘需求的问题,提出一种基于Spark的并行化高效用项集挖掘算法(STKO)。首先从阈值提升、搜索空间缩小等方面对TKO算法进行改进;然后选择Spark平台,改变原有数据存储结构,利用广播变量优化迭代过程,在避免大量重新计算的同时使用负载均衡思想实现Top-K高效用项集的并行挖掘。实验结果表明,该并行算法能有效地挖掘出大数据集中的高效用项集。  相似文献   

16.
在地震勘探中,随机噪声是一种频带较宽、严重影响有效波的干扰波,因此随机噪声的有效去除在地震信号处理中显得尤为重要。傅里叶变换是信号处理传统的随机噪声去除方法。它能够反映信号在整个时间域的频谱特征,但不能对非平稳信号进行分析处理。而小波分析技术可以根据局部图像的差异来调整参数,对保留图像的边缘部分和其它高频部分很有用。本文利用小波分析技术对地震信号进行去噪声处理,结果表明小波分析对噪声有较为彻底的压制,地震信号估计精度得到很大改善。  相似文献   

17.
Recent research shows that rule based models perform well while classifying large data sets such as data streams with concept drifts. A genetic algorithm is a strong rule based classification algorithm which is used only for mining static small data sets. If the genetic algorithm can be made scalable and adaptable by reducing its I/O intensity, it will become an efficient and effective tool for mining large data sets like data streams. In this paper a scalable and adaptable online genetic algorithm is proposed to mine classification rules for the data streams with concept drifts. Since the data streams are generated continuously in a rapid rate, the proposed method does not use a fixed static data set for fitness calculation. Instead, it extracts a small snapshot of the training example from the current part of data stream whenever data is required for the fitness calculation. The proposed method also builds rules for all the classes separately in a parallel independent iterative manner. This makes the proposed method scalable to the data streams and also adaptable to the concept drifts that occur in the data stream in a fast and more natural way without storing the whole stream or a part of the stream in a compressed form as done by the other rule based algorithms. The results of the proposed method are comparable with the other standard methods which are used for mining the data streams.  相似文献   

18.
Most algorithms for mining sequential rules focus on generating all sequential rules. These algorithms produce an enormous number of redundant rules, making mining inefficient in intelligent systems. In order to solve this problem, the mining of non-redundant sequential rules was recently introduced. Most algorithms for mining such rules depend on patterns obtained from existing frequent sequence mining algorithms. Several steps are required to organize the data structure of these sequences before rules can be generated. This process requires a great deal of time and memory. The present study proposes a technique for mining non-redundant sequential rules directly from sequence databases. The proposed method uses a dynamic bit vector data structure and adopts a prefix tree in the mining process. In addition, some pruning techniques are used to remove unpromising candidates early in the mining process. Experimental results show the efficiency of the algorithm in terms of runtime and memory usage.  相似文献   

19.
In this paper we show that frequent closed itemset mining and biclustering, the two most prominent application fields in pattern discovery, can be reduced to the same problem when dealing with binary (0–1) data. FCPMiner, a new powerful pattern mining method, is then introduced to mine such data efficiently. The uniqueness of the proposed method is its extendibility to non-binary data. The mining method is coupled with a novel visualization technique and a pattern aggregation method to detect the most meaningful, non-overlapping patterns. The proposed methods are rigorously tested on both synthetic and real data sets.  相似文献   

20.
王晓鹏 《计算机仿真》2020,37(1):234-238
对区间值属性数据集进行挖掘,可以有效分析出数据之间的关系。针对现有数据挖掘方法未对大规模数据进行聚类,导致挖掘过程占据内存大,挖掘精度低的问题,提出了一种新的区间值属性数据集挖掘算法。对问题定义、数据准备、数据提取、模式预测和数据聚类等模块进行详细分析,完成区间值属性数据聚类。根据聚类结果,将区间值属性数据分成多个数据集,挑选出能够支持最小支持度的项目集,将这些项目集作为频繁项集,进而提取出数据集之间的关联规则,将关联规则融入数据计算步骤,完成数据挖掘。为验证算法效果,进行仿真,结果表明,相较于传统挖掘算法,所提挖掘算法占用容量更小,挖掘精度更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号