共查询到19条相似文献,搜索用时 187 毫秒
1.
概化关联规则挖掘作为数据挖掘领域一个重要的拓展性研究课题,首先提出了一种概化扩展自然序树(generalized extended canonical-order tree,GECT)结构及其增量挖掘算法GECT-IM.该算法对原始分类事务数据库只扫描一次,就可以将所有交易信息映射至一棵压缩格式的GECT,然后通过对更新交易数据集扫描得到更新数据集中各项集的计数,结合相关性质及运算就可以发现大部分更新后的概化频繁项集;其次,针对GECT规模较大以及GECT-IM 算法仍然可能需要遍历初始GECT树的局限,在界定数据库更新和重构概念的基础上,基于一种可量化度量的准最小支持度阈值,提出了一种改进的准频繁概化扩展自然序树(pre-large generalized extended canonical-order tree,PGECT)结构及其增量挖掘算法PGECT-IM.由于有效避免了对初始GECT进行遍历的情形,从而进一步提升了概化关联规则增量挖掘效率.实验证明,提出的概化关联规则增量挖掘算法 GECT-IM 及其优化算法PGECT-IM,比现有增量挖掘算法具有更高的挖掘效率和更好的扩展性. 相似文献
2.
提出了一种基于聚类的挖掘关联规则Apriori改进算法,该算法只需扫描一次事务数据库,直接按事务项数生成聚类表,每次只需扫描部分聚类表就可生成频繁项集,减少了扫描数据库的次数和计算成本,从而有效提高挖掘关联规则的效率。 相似文献
3.
一种改进的正负关联规则挖掘算法 总被引:1,自引:0,他引:1
针对传统正负关联规则挖掘算法需要多次扫描数据库并且生成大量候选频繁项集的问题,在对比目前相关研究成果的基础上,提出了一种改进的正负关联规则挖掘算法,它通过两次数据扫描完成对正负关联规则的挖掘,对最大频繁项集的挖掘算法做了改进,有效提高了算法效率,同时对置信度标准做了改进。基于某真实事务集的实验表明,算法提高了规则挖掘的质量和有效性。 相似文献
4.
事务间频繁项集将传统的单维事务内关联规则扩展到多维跨事务关联规则,但事务问频繁项集的数量随滑 动时同间窗口的增大而迅速增加.利用频繁闭项集的特点.提出事务间频繁闭项集的概念及其挖掘算法(FCITA).该算法采用分割和条件数据库技术,避免生成庞大的扩展数据库;利用扩展二进制形武压缩事务,从而提高支持度的计算效事.此外,动态排序和哈希表极大地减少了频繁闭项集的测试次数.仿真比较表明,FCITA算法具有较高的挖掘效率. 相似文献
5.
基于概念格的关联规则挖掘方法 总被引:3,自引:0,他引:3
对概念格在关联规则挖掘中的应用进行了研究.通过将概念格的外延和内涵分别与事务数据库中的事务和特征相对应,可以从概念格上产生频繁项集,进而挖掘关联规则.提出了一种基于概念格的关联规则挖掘方法,在背景中对象约简的基础上,构造出对象约简后的概念格,从新的概念格中先产生基本规则集,再根据用户给出的支持度阈值从基本规则集中挖掘出对用户有意义的规则,并给出了算法描述.该方法求出的关联规则和利用Apriori算法求出的结果是一致的. 相似文献
6.
关联规则挖掘中对Apriori算法的一种改进研究 总被引:2,自引:0,他引:2
通过对关联规则挖掘算法的详细分析,提出了一种基于无向项集图的动态频繁项集挖掘算法.当事务数据库和最小支持度发生变化时,该算法只需重新遍历一次无向项集图即可得到新的频繁项集.该算法不仅简单、只需扫描一次数据库,而且还具有搜索速度快、节省内存空间等优点. 相似文献
7.
8.
9.
多数据库中全局负关联规则挖掘研究 总被引:1,自引:0,他引:1
全局负关联规则挖掘是多数据库关联信息挖掘的重要研究内容,具有广泛的应用范围和使用价值.合并各子数据库的负关联规则是现有全局负关联规则挖掘常用的方法,但数据密度大、规则不全面及运算时间高等问题影响了已有全局负关联规则挖掘方法的效率.本文给出一种新的全局负关联规则挖掘算法,其具体步骤为:(1)扫描各子数据库,建立多数据库频繁模式树;(2)依据频繁项集全局一致性原则,对多数据库频繁模式树执行精简操作;(3)在此基础上产生全局极小非频繁项集;(4)依据极大频繁项集向上闭包原则,产生全局非频繁项集;(5)在规则相关度的基础上提取全局负关联规则.大量的对比实验结果表明,本文算法具有快速发现全局负关联规则的能力. 相似文献
10.
一种新的动态频繁项集挖掘方法 总被引:1,自引:0,他引:1
频繁项集挖掘是关联规则挖掘的重要步骤。在数据动态变化的环境下进行关联规则挖掘具有重要的现实意义。提出一种动态频繁项集挖掘算法,该算法建立在前一阶段挖掘的基础上,能避免过多地扫描数据库而影响挖掘性能,在最后生成全局频繁项集时,不需要全程扫描数据库,根据之前挖掘结果有选择地扫描相关的事务子集。实验表明,该算法挖掘性能远远优于Apriori算法,能有效地实现在数据动态变化环境下的挖掘频繁项集。 相似文献
11.
关联规则是为了挖掘出隐藏在数据中的相互关系,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则,从而辅助决策者进行决策。结合市场监督管理部门监管数据的实际情况,抽取市场主体部分基本信息和监管部门录入的违规、违法数据生成违规违法事务数据库,再将事务数据库转换为布尔矩阵,采用基于向量内积的关联规则挖掘方法生成频繁项集,进行关联规则挖掘。实验结果表明,该方法能够快速、准确地挖掘出相应的关联规则,符合市场监管部门日常工作的实际情况,对实际工作具有一定的指导意义。 相似文献
12.
关联规则挖掘Apriori算法的改进 总被引:3,自引:0,他引:3
在分析研究关联规则挖掘Apriori算法及其若干改进算法的基础上,对Apriori算法做了进一步地改进,提出一种基于条件判断的新思想.改进后的算法根据条件采用了事务压缩与候选项压缩的相结合的方式,减小了不必要的开销,从而提高了挖掘速度. 相似文献
13.
14.
基于关联规则挖掘的中文文本自动分类 总被引:7,自引:0,他引:7
随着电子出版物和互联网文档的飞速增加,自动文档分类工作正变得日渐重要.提出一种基于关联规则的中文文本自动分类方法.该算法将文档视作事务.关键词视作项,利用改进的关联规则挖掘算法挖掘项和类剐间的相关关系.挖掘出的规则形成分类器,可用于类标号未知的文档的区分.实验证明,该算法能较快地获得可理解的规则并且具有较好的召回率和准确率. 相似文献
15.
利用时态关联规则的分析,可以得到一系列相关性的项目集合,从而为决策提供更加有利的帮助和支持。在研究了传统的静态关联规则的基础上,提出了一种以交易规模的变化率为处理对象,即考虑各类项目交易量的变动状况的时态关联规则的表述与挖掘方法,并对其表述形式及算法实现进行了探讨。 相似文献
16.
基于关联规则的Web文档聚类算法 总被引:32,自引:1,他引:32
Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;然后依据类间距离和类内连接强度阈值合并、拆分类,最终实现文档聚类.实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值. 相似文献
17.
18.
针对频繁项集增量更新的问题,提出算法FIU。该算法将保存了数据库事务的FP-tree存储在磁盘上,当挖掘新支持度阈值的频繁项集时,只需从磁盘上读入FP-tree,再挖掘新支持度阈值下的频繁项集。当新增数据库事务记录后,首先建立新项目表,然后根据新项目表建立新增事务记录的FP-tree,读入存储在磁盘上的FP-tree,抽取出所有的事务记录,再插入到新FP-tree中.从而得到增量更新后的FP-tree。最后在增量更新后的FP-tree上挖掘频繁项集。实验证明,FIU算法执行时间不随数据库大小变化,与其他算法相比有较好的性能。 相似文献
19.
本文探讨基于关联规则挖掘的中文网页体裁模式发现问题。通过链表结构,将文档集转换为适用于关联规则挖掘的事务数据库,保证了事务数据库出现的词条项按照在文本中出现的顺序排列,实现了Apriori关联规则算法。实验结果表明,这对于某些类别的体裁模式发现有比较好的效果。 相似文献