共查询到18条相似文献,搜索用时 125 毫秒
1.
2.
3.
一种有效的关联规则的挖掘方法 总被引:13,自引:1,他引:13
提出简单关联规则的定义,并证明传统算法挖出的规则集中的任何规则均可以由简单关联规则生成,而简单关联规则的数量远远小于传统算法挖掘出的规则数量,从理论上证明了简单关联规则算法的优越性。 相似文献
4.
一、引言 IBM科学家Rakesh Agrawal于1993年提出了用于交易的关联规则数据挖掘算法,该算法把基于关联规则的数据挖掘分为两大步,第一步,从交易中发现频繁项目集;第二步,从已发现的频繁项目集中生成所需的关联规则。由于第二步相对简单,且Rakesh Agrawal已给出了一个有效算法来生成所需的关联规则,因此人们对基于关联规则的数据挖掘进行的大量的研究都集中在第一步,即如何从交易集中快速生成频繁项目集。但研究发现,Rakesh Agrawal生成算法虽然能正确有效地生成关联规则,但生成的关联规则具有相当大的冗余性。例如:设关联规则a->(b,c)表示买面包(a)的人中有80%的人买了啤酒(b)和香烟(c),则按Agrawal生成算法,一定会生成如下几条关联规则: 相似文献
5.
6.
提出了一种基于聚类的挖掘关联规则Apriori改进算法,该算法只需扫描一次事务数据库,直接按事务项数生成聚类表,每次只需扫描部分聚类表就可生成频繁项集,减少了扫描数据库的次数和计算成本,从而有效提高挖掘关联规则的效率。 相似文献
7.
8.
9.
针对传统关联规则算法产生的规则关联性弱、种类少的缺点,结合Spearman秩相关系数,提出了一种多类关联算法。该算法在传统算法产生的强规则基础上,利用Spearman秩相关方法计算出规则中产品间的同步异步等相关性。将其作为兴趣度阈值,算法可同时产生同步正规则、异步正规则、同步负规则和异步负规则四类关联规则,且规则间联系紧密。实验结果表明了算法的有效性和优越性。 相似文献
10.
11.
超越支持度-置信度框架的负相关对规则挖掘 总被引:2,自引:0,他引:2
相关规则比传统的关联规则更具有实际意义.但现存的相关规则挖掘算法均需利用apriori类似算法挖掘具有高支持度的项集,再对获得的项集进行相关性测试而获取相关规则,这导致低支持度-高相关度的规则不易被发现.直接挖掘相关规则的困难在于候选相关项不能利用apriori类似性质进行剪枝,导致搜索空间爆炸性增长.本文提出的算法MNI利用Phi相关系数的下界来产生候选负相关项,从而缩小负相关项搜索空间,并证明了该算法的完全性和正确性.在负相关项对基础上利用规则可靠度产生负相关规则时,提出将负相关对计数统一转化为正相关对计数的方法.在真实数据集上的实验结果表明,该算法MNI能有效提高负相关项对的挖掘速度. 相似文献
12.
魏永超 《计算技术与自动化》2017,(1):32-35
针对传统Dempster-Shafer证据合成方法合成冲突证据时,会出现相悖的结论的问题,提出了基于相关系数与相关距离的冲突证据合成方法。方法利用证据冲突信息,通过相关系数与相关距离得到证据距离,距离表征证据的冲突程度,并进一步计算得到权重系数,根据权重系数对证据进行重新概率分配后,完成证据预处理过程,最后用改进的合成规则,完成再分配证据的合成。具体的证据实证验证了算法在合成冲突证据方法具有最优结果,且和推理一致,可以很好的用于证据合成。 相似文献
13.
语言犹豫模糊集是指决策者可以用一些有隶属度的语言术语项表示他/她对一件事情的偏好.这种类型的集合很好地反映了决策者定性和定量的认知以及它的不确定性,因此受到越来越多学者的关注.首先,提出语言犹豫模糊集的相关系数概念,并给出语言犹豫模糊集的相关系数和加权相关系数的计算法则和性质;然后,指出引入的相关系数的显着特征是它位于区间[-1,1]内,这与统计中的经典相关系数一致,而其他文献中提出的语言犹豫模糊集的相关系数都位于区间[0,1]内;最后,将所提出的方法应用于医疗诊断中,并将该方法得到的计算结果与已有的语言犹豫模糊集的相关系数进行比较,比较结果表明,新的语言犹豫模糊集的相关系数的分布更好,能更准确地反映出病人的身体状况与各疾病的关系,从而迅速高效地作出诊断. 相似文献
14.
将二值命题逻辑系统的真度概念引入到概率逻辑,定义了公式的期望,给出了反映公式之间内在联系的相关系数,研究了无限公式收敛时所遵循的规律及特点,引入了度量不确定性的特征值—熵。 相似文献
15.
The typical model, which involves the measures: support, confidence, and interest, is often adapted to mining association rules. In the model, the related parameters are usually chosen by experience; consequently, the number of useful rules is hard to estimate. If the number is too large, we cannot effectively extract the meaningful rules. This paper analyzes the meanings of the parameters and designs a variety of equations between the number of rules and the parameters by using regression method. Finally, we experimentally obtain a preferable regression equation. This paper uses multiple correlation coeficients to test the fitting efiects of the equations and uses significance test to verify whether the coeficients of parameters are significantly zero or not. The regression equation that has a larger multiple correlation coeficient will be chosen as the optimally fitted equation. With the selected optimal equation, we can predict the number of rules under the given parameters and further optimize the choice of the three parameters and determine their ranges of values. 相似文献
16.
17.
一种改进的关联规则挖掘方法研究 总被引:4,自引:0,他引:4
关联模式挖掘研究是数据挖掘研究领域的重要分支之一,旨在发现模式之间存在的关联或相关关系。然而,传统的基于支持度-可信度框架的挖掘方法存在着一些不足:一是会产生过多的模式(包括频繁项集和规则);二是挖掘出来的规则有些是用户不感兴趣的、无用的,甚至是错误的。所以在挖掘过程中能有效地对无用模式进行剪枝是必要的。利用相关关系对模式进行评价是一种有效的剪枝方法。实验结果分析表明,在传统挖掘方法的基础上引入相关关系度量可以有效地对非相关模式进行剪枝,从而减小频繁项集和规则的规模。 相似文献
18.
关联规则挖掘常常会产生大量的规则,这使得用户分析和利用这些规则变得十分困难。为了帮助用户做探索式分析,提出了一种基于距离的相关性关联规则优化方法,该方法从数学分析关联规则相关性概念公式的值的特点出发,通过根据关联规则结构上的相关性差别来挖掘出包括正负两种关联规则在内的更多潜在的相关规则,实验结果表明该方法有效且可靠。 相似文献