首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 288 毫秒
1.
针对协同过滤算法推荐结果存在受噪音数据影响严重的问题,提出了一种基于用户项目间的关联规则集的协同过滤算法.利用经典的Apriori算法进行频繁项集合关联规则集的挖掘,利用挖掘的关联规则集进行用户间的相似度计算,相比于pearson相似等方法,基于关联规则集相似可以提高改进算法对噪音数据的抵抗力,最后进行最近邻居集计算并产生更适合用户的推荐结果.改进算法和传统算法在MovieLens数据集上的实验表明,基于Apriori算法的协同过滤算法较传统算法进一步提高了推荐准度和覆盖率.  相似文献   

2.
微博作为最大的社会化媒体产品,拥有海量的用户和信息资源。微博推荐是微博个性化服务的重要方面,是解决信息过载问题的有效工具。考虑到微博数据海量性的特点,针对传统串行推荐算法对大数据处理效率低的问题,采用MapReduce模型,提出和设计一种基于关联规则挖掘算法Apriori的微博推荐并行算法,并在Hadoop平台实现。实验表明,提出的微博推荐并行算法具有较好的加速比和较高的运行效率,证明了该微博推荐并行算法在大数据处理中的高效性。  相似文献   

3.
如何根据用户当前的访问行为,预测他下一个感兴趣的商品,做出针对性的推荐成为电子商务的一个重要研究内容。文章提出了一种不需产生大量非频繁项集的关联规则挖掘算法,该算法利用相关性很好的改善了经典Apriori算法中存在大量冗余规则问题。最后通过实验证明了算法的有效性。  相似文献   

4.
Hadoop平台上Apriori算法并行化研究与实现   总被引:1,自引:0,他引:1  
分析传统串行关联规则Apriori算法的计算过程以及存在的一些缺点,针对串行算法执行效率低,时间复杂度高以及传统并行计算模式不能处理节点失效,难以处理负载均衡等问题,提出基于Hadoop平台实现并行关联规则算法的设计方法,对传统关联规则Apriori算法进行了改进,并给出改进算法在Hadoop平台的MapReduce编程模型上的执行流程;在Hadoop平台上对改进后的算法进行单机测试和集群测试,实验结果证明,改进后的算法具有较高的执行效率,良好的加速比和可移植性。  相似文献   

5.
本文首先介绍了关联规则挖掘经典算法——Apriori,并结合旅游线路推荐的特点,提出了Apriori算法在旅游线路推荐系统中应用的具体思路,最后,提出了一个基于apriori算法的旅游线路推荐系统模型。  相似文献   

6.
用改进的关联规则算法建立入侵检测系统模型   总被引:1,自引:0,他引:1  
朱小栋  郑诚乐毅 《微机发展》2004,14(11):139-141
针对当前建立入侵检测系统缺少有效性的问题,文中介绍传统的Apriori算法的过程,分析它在建立入侵检测系统上存在的问题。提出用一种改进的关联规则算法建立入侵检测系统模型。比较改进的算法与传统的Apriori算法在算法时间复杂度、性能上的差异。通过实验得知,使用改进的关联规则算法能正确、有效地对网络审计数据和主机审计数据进行入侵检测。  相似文献   

7.
针对当前建立入侵检测系统缺少有效性的问题,文中介绍传统的Apriori算法的过程,分析它在建立入侵检测系统上存在的问题.提出用一种改进的关联规则算法建立入侵检测系统模型.比较改进的算法与传统的Apriori算法在算法时间复杂度、性能上的差异.通过实验得知,使用改进的关联规则算法能正确、有效地对网络审计数据和主机审计数据进行入侵检测.  相似文献   

8.
关联规则和分类规则挖掘算法的改进与实现   总被引:5,自引:0,他引:5  
陶树平  屠颖 《计算机工程》2003,29(15):100-101,187
对Apriori关联规则挖掘算法提出了一种改进方法,使其可以有效地压缩数据规模,提高了原Apriori算法的执行效率。此外,还对OCI分类规则挖掘算法提出了改进,扩展了该算法的适用范围。同时,该采用这两个改进算法实现了一个数据挖掘原型系统。  相似文献   

9.
推荐系统已被广泛应用于电子商务等多个领域。冷启动问题是推荐系统的一个难点。基于粒关联规则的冷启动推荐方法,运用粒来描述用户和产品,通过满足粒关联规则的4个指标,挖掘出用户和产品之间的关联规则,匹配合适的规则,最后根据这些规则向用户做出相应的推荐。在公开有效的数据集MovieLens上进行了实验,结果表明,用粒关联规则所挖掘出的规则可以有效地用于训练集和测试集上的推荐,并且具有较好的准确性。  相似文献   

10.
一种改进的加权关联规则挖掘方法   总被引:4,自引:0,他引:4       下载免费PDF全文
考虑属性数量和属性权值对关联规则的影响,提出一种新的加权支持度和加权置信度计算方法,在挖掘加权关联规则时通过改进加权支持度设置模型保持Apriori算法的频繁集向下封闭特性。与Apriori算法和水平加权关联规则挖掘方法的比较结果证明该方法能快速有效地挖掘重要的关联规则。  相似文献   

11.
随着人民生活水平的不断提高,肿瘤疾病的人数在不断增多,其中肺癌是21世纪严重危害人类健康的重大疾病。面向肺癌电子病历如此庞大的数据量时,传统Apriori算法的串行计算方式需要频繁扫描数据库,会消耗巨大的内存占用量。对此,提出一种基于改进Apriori算法的肺癌风险评估因素分析的方法。运用Hadoop平台实现并行Apriori算法的优化,应用HBase文件存储系统对海量数据分布式存储以及Map Reduce框架进行分布式计算,最后给出基于Hadoop平台和MapReduce分布式计算模型的执行流程和测试结果。实验结果表明,改进算法在处理大数据及时有较好的执行效率以及良好的可扩展性,得出了肺癌的疾病模式与致病因素之间的隐匿规则,从而验证了改进后的Apriori算法对于辅助肺癌临床实验具有重要的意义。  相似文献   

12.
李玲娟  张敏 《微机发展》2011,(2):43-46,50
云计算为存储和分析海量数据提供了廉价高效的解决方案,云计算环境下的数据挖掘算法的研究具有重要的理论意义和应用价值。针对云计算环境下的关联规则挖掘算法展开研究,介绍了云计算的概念、Hadoop框架平台、MapReduce编程模型和传统的Apriori算法;在此基础上,以实现云计算环境下的并行化数据挖掘为目的,对Apriori算法进行了改进,给出了改进的算法在Hadoop中的MapReduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性。  相似文献   

13.
BtoB网站用户访问模式挖掘研究   总被引:2,自引:0,他引:2  
把数据挖掘技术与电子商务网站有效结合,深入分析Apriori算法,并运用散列技术改进算法来实现电子商务网站用户访问关联模式的挖掘。经过实验验证,这是一种有效的分析、评价和完善电子商务网站的方式。  相似文献   

14.
Zhang  Hao  Huang  Tao  Lv  Zhihan  Liu  SanYa  Zhou  Zhili 《Multimedia Tools and Applications》2018,77(6):7051-7069

With the popularization development of MOOC platform, the number of online courses grows rapidly. Efficient and appropriate course recommendation can improve learning efficiency. Traditional recommendation system is applied to the closed educational environment in which the quantity of courses and users is relatively stable. Recommendation model and algorithm cannot directly be applied to MOOC platform efficiently. With the light of the characteristics of MOOC platform, MCRS proposed in this paper has made great improvement in the course recommendation model and recommendation algorithm. MCRS is based on distributed computation framework. The basic algorithm of MCRS is distributed association rules mining algorithm, which based on the improvement of Apriori algorithm. In addition, it is useful to mine the hidden courses rules in course enrollment data. Firstly, the data is pre-processed into a standard form by Hadoop. It aims to improve the efficiency of the basic algorithm. Then it mines association rules of the standard data by Spark. Consequently, course recommendation information is transferred into MySQL through Sqoop, which makes timely feedback and improves user’s courses retrieval efficiency. Finally, to validate the efficiency of MCRS, a series of experiments are carried out on Hadoop and Spark, and the results shows that MCRS is more efficient than traditional Apriori algorithm and Apriori algorithm based on Hadoop, and the MCRS is suitable for current MOOC platform.

  相似文献   

15.
魏玲  魏永江  高长元 《计算机科学》2015,42(10):208-210, 243
为提高Apriori算法挖掘频繁项目集的效率,引进了Bigtable技术与MapReduce模型来对Apriori算法进行优化,设计出大数据环境下挖掘频繁项目集的新算法BM-Apriori算法。与单纯基于MapReduce模型的Apriori改进算法相比,新算法利用Bigtable的时间戳属性代替了键/值对的产生,只需扫描数据库一次即可,节约了模式匹配的时间。同时,BM-Apriori算法在项集列表中新增事务标号列,自动获取事务标号以计算支持度。将BM-Apriori算法在Hadoop平台上进行了实验,结果表明Bigtable技术的融入使得BM-Apriori算法具有更高的效率与可拓展性。  相似文献   

16.
针对传统平台运行Apriori算法来挖掘中医病案中用药组合规律时,存在着占用内存空间大、计算效率低和PB级数据无法处理等问题,提出基于Hadoop的中医哮喘用药组合关联分析方法。采用Mapreduce分布式计算框架和HBase分布式数据库优化Apriori算法性能:一方面使用Mapreduce计算框架并行处理数据,借助HBase高速读写数据的特性,加速频繁项集的产生;另一方面摒弃传统算法中的自连接产生候选项集方式,对每个节点上的数据,使用循环和递归相结合的方式产生候选集,提高候选集产生的效率。实验结果证明,借助基于Hadoop的中医哮喘用药组合关联分析方法挖掘中医药组合规律,效率更高,能更有效地指导临床实践。  相似文献   

17.
为满足日益增长的海量数据挖掘需求,迫切需要设计一种能够在多台机器上运行的分布式关联规则挖掘算法。Apriori这种高度迭代算法在Hadoop平台上运行时每次迭代执行大量的磁盘I/O操作,大大影响并限制了算法的运行效率。本文利用Spark对分布式计算内置支持的特点,在Spark平台上设计并实现一种分布式关联规则挖掘算法,称为阶段式自适应挖掘算法(Staged Adaptive Apriori)。算法使用自适应的数据集部分处理的策略对频繁项集进行高效挖掘,在每次迭代前初步评估执行时间,并采用较为合适的方法来减少时间和空间的复杂性,是一种基于数据集性质的自适应关联规则挖掘算法。实验结果表明了算法的有效性。  相似文献   

18.
传统的频繁路径挖掘分析主要通过关联规则算法实现,但其在处理大型数据集时,会产生占用内存过多,数据处理速度慢等问题,对此提出一种基于Fuzzy [c]-means聚类算法的并行Apriori算法模型。该模型通过Fuzzy [c]-means算法完成对原始数据集的聚类分析,将同一区域的物流路径数据划分到内部相似度较高的数据类,并利用Apriori算法对各数据类中的频繁模式进行挖掘分析,进而获得各区域的物流频繁路径。同时通过Hadoop平台实现算法的并行化,有效提高算法运行效率和质量。通过对物流频繁路径的挖掘分析,使管理者更清楚货物流向,可为配送路径优化等决策提供支持。  相似文献   

19.
传统的Apriori算法要多次扫描数据集,随着数据量的快速增长,传统的Apriori算法已经不能很好地适用于大数据分析,针对该情况设计了IPApriori算法。首先通过剪枝策略设计了一种适用于多维数据的IApriori算法,再将IApriori算法与Hadoop分布式框架相结合,实现了多维关联规则挖掘算法的并行化。将IPApriori算法运用到手机用户行为预测关联分析中,分析影响手机用户行为的一些主要因素,挖掘出手机用户行为与年龄维度、性别维度、时间维度、地点维度和手机品牌维度属性之间可能存在的某种关联。最后通过实验证明,算法的并行化和建立结构的方法可以降低系统的I/O负荷,提高算法的执行效率。  相似文献   

20.
基于Hadoop的公共建筑能耗数据挖掘方法   总被引:1,自引:0,他引:1  
针对建筑能耗数据无法有效利用这一问题,提出利用Hadoop分布式架构,结合建筑基本信息对公共建筑能耗数据进行数据挖掘的方法.对基于Hadoop的公共建筑能耗数据挖掘系统进行了初步设计,并对系统的基本架构和各模块的功能进行了设计和说明.同时,对Apriori算法和C4.5算法实现MapReduce分布式设计.以山东省100栋办公建筑制冷期的空调系统耗电量为例进行实验分析,得到6类建筑信息属性对空调系统能耗的影响规律,并生成空调系统耗电量判定树,可判别建筑空调系统耗电量等级,并对样本建筑的节能改造提供具有针对性的建议.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号