首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
对较大数据集挖掘序列模式时,可能会因产生的大量候选集等原因无法装入内存而难以进行.文中提出基于分区的序列模式挖掘算法.以期克服有限存储问题,为并行处理及分布式处理做好基础.此外,当给出的分区数固定时,不同的分区性能可能存在较大差异,通过聚类方法对数据集预处理,以得到可以产生较少局部频繁宁列的特定分区,最终得到较少的全局候选序列以减少第二遍扫描时间.理论分析和实验表明,所提出的方法可比普通分区方法得到更加优化的分区,从而效率更高.  相似文献   

2.
在序列模式挖掘应用中,约束是非常重要的。本文提出了一种新的约束一偏序约束,允许事务之间的间隔可以是无穷大。但是,本文间隔约束中事务之间的间隔只能是整数,所以可以把偏序约束看成是间隔约束的扩展。针对这个问题,提出了一种新颖的算法SPM(Sequential Pattern Maintenance,简称SPM)算法来解决偏序约束,采用含蓄分割 割技术把不满足偏序约束的数据序列分割出去,充分利用已挖掘出来的信息来解决由于数据序列数目变小使得支持度值变小的复杂情况。实验表明,SPM算法能够快速可扩展
地挖掘出所有满足约束的频繁序列模式。  相似文献   

3.
荣俸萍  方勇  左政  刘亮 《计算机科学》2018,45(5):131-138
基于动态分析的恶意代码检测方法由于能有效对抗恶意代码的多态和代码混淆技术,而且可以检测新的未知恶意代码等,因此得到了研究者的青睐。在这种情况下,恶意代码的编写者通过在恶意代码中嵌入大量反检测功能来逃避现有恶意代码动态检测方法的检测。针对该问题,提出了基于恶意API调用序列模式挖掘的恶意代码检测方法MACSPMD。首先,使用真机模拟恶意代码的实际运行环境来获取文件的动态API调用序列;其次,引入面向目标关联挖掘的概念,以挖掘出能够代表潜在恶意行为模式的恶意API调用序列模式;最后,将挖掘到的恶意API调用序列模式作为异常行为特征进行恶意代码的检测。基于真实数据集的实验结果表明,MACSPMD对未知和逃避型恶意代码进行检测的准确率分别达到了94.55%和97.73%,比其他基于API调用数据的恶意代码检测方法 的准确率分别提高了2.47%和2.66%,且挖掘过程消耗的时间更少。因此,MACSPMD能有效检测包括逃避型在内的已知和未知恶意代码。  相似文献   

4.
偏序模型能直观反映序列数据信息,全局偏序模型能进一步从整体上更加准确反映序列的全局信息,方便用户的理解.本文对全局偏序模型的构建方法进行研究,针对基于遍历搜索构建模型所造成的效率较低,不宜扩展的问题,提出基于启发式搜索的全局模型构造改进算法.在模型构造中有效利用频繁序列挖掘算法所获得的局部信息,改进搜索路径,提高算法效率,获得准确结果.  相似文献   

5.
基于聚类划分的高效用模式并行挖掘算法   总被引:4,自引:0,他引:4  
针对在大规模数据库中挖掘高效用模式产生大量基于内存的效用模式树,从而导致内存空间占用较大以及丢失一些高效用项集的问题,提出在Hadoop分布式计算平台下的基于聚类划分的高效用模式并行挖掘算法PUCP。首先,采用聚类的方法把数据库中相似的事务划分为若干数据子集;然后,把若干划分好的数据子集分配到Hadoop平台的各个节点中构造效用模式树;最后,把各个节点中相同项的条件模式基分配到同一个节点中进行挖掘,以减少各个节点交叉操作的次数。通过实验结果和理论分析表明:PUCP算法在不影响挖掘结果可靠性的前提下,与主流串行高效用模式挖掘——效用模式增长挖掘算法(UP-Growth)和现有的并行高效用模式挖掘算法PHUI-Growth相比,挖掘效率分别提高了61.2%和16.6%;并且使用了Hadoop计算平台,能有效缓解挖掘大规模数据的内存压力。  相似文献   

6.
数据挖掘中的聚类分析对发现数据中隐含的类别和分布有着重要的应用。传统的K—Means聚类算法在给出簇数目的条件下能够对数据进行较好的聚类,算法采用批量模式进行学习,在每一趟数据扫描结束后更新簇中心。序列模式是另外一种学习方式,它每扫描一条记录就更新簇中心。本文提出并实现了基于序列模式的K—Means算法,并与采用批量模式的K—Means算法进行了比较。  相似文献   

7.
基于频繁序列模式的压缩技术旨在提高数据挖掘结果的可用性和可理解性,从庞大的序列模式中发现有用的知识。分析了现有频繁模式压缩算法的不足,提出了在模式聚类函数的基础上生成一个压缩的偏序(Partial Order)的算法,实验结果显示该算法可以对频繁序列模式进行高效,高质量的压缩,可以得到数量更少、信息量更大的模式,从而提高发现的频繁访问序列的兴趣性。  相似文献   

8.
在软件开发过程中,复用应用程序编程接口(Application Programming Interface,API)可以提高软件开发效率,但是使用不熟悉的API是一项耗时且困难的挑战。已有的研究往往将API作为用户输入的查询,通过在语料库中搜索该API的使用模式来进行推荐,但这并不符合开发人员的查询习惯。文中提出了一种基于自然语言语义相似度的API使用模式推荐方法(Semantic Similazing Based API Recommendation,SSAPIR)。该方法使用层次聚类算法来提取API使用模式,然后通过计算查询信息和API使用模式来描述信息之间的语意相似度,向开发人员推荐相关度高且被广泛使用的API使用模式。为了验证SSAPIR的有效性,文中从GitHub的高质量Java项目中提取9个流行的第三方API库的API使用模式以及API使用模式的描述信息,并根据这9个流行的第三方API库的自然语言查询进行API使用模式推荐。通过计算推荐结果的Hit@K准确率来验证SSAPIR的有效性,实验结果表明,层次聚类能有效提高推荐准确率,且SSAPIR在Hit@10平均准确率上达到了85.02%,优于现有研究工作,能够很好地完成API使用模式推荐任务,为开发人员输入的自然语言查询提供精准的API使用模式。  相似文献   

9.
吕岚 《福建电脑》2011,27(3):40-41
本文分析了目前信息检索存在的问题,介绍了WEB文本挖掘的概念及处理过程,并提出了两种基于层次聚类的WEB文本挖掘技术并给予分析.  相似文献   

10.
由于数据规模的快速增长,高效用序列模式挖掘算法效率严重下降.针对这种情况,提出基于MapReduce的高效用序列模式挖掘算法HusMaR.算法基于MapReduce框架,使用效用矩阵高效地生成候选项;使用随机映射策略均衡计算资源;使用基于领域的剪枝策略来防止组合爆炸.实验结果表明,在大规模数据集下,算法取得了较高的并行效率.  相似文献   

11.
李正  吴敬征  李明树 《软件学报》2018,29(6):1716-1738
API(Application Programming Interface,应用程序编程接口)在现代软件开发过程中被广泛使用.开发人员通过调用API快速构建项目,节省了大量的时间.但由于API数量众多、文档不够完善、维护更新不及时等原因,使开发人员在学习使用API的过程中面临着严峻的挑战.同时,一旦API使用不正确,程序可能会出现缺陷甚至严重的安全问题.本文通过对API相关文献的深入调研,对近些年来国内外学者在该研究领域取得的成果进行了系统总结.首先,介绍了API的基本概念并分析出影响API使用的三个关键问题:API文档质量不高,调用规约不完整以及API调用序列难以确定;接着,从API文档、调用规约和API推荐三个主要方面对研究成果进行全面的分析;最后,对未来研究可能面临的挑战进行了展望.  相似文献   

12.
程昱  古华茂 《计算机工程》2005,31(24):93-95
提出了两种在多粒度时间下的部分周期挖掘算法。第1种算法利用模式的父子关系、支持度和置信度阈值裁剪候选模式集。第2种算法对每个输入寻找覆盖它的周期模式,由此来计算模式的支持度和置信度。实验表明了提出的算法在多粒度时问下挖掘部分周期是有效的。  相似文献   

13.
Web使用挖掘技术研究   总被引:28,自引:0,他引:28  
简要介绍了WEB挖掘的基本概念及其分类,讨论了web使用挖掘的有关理论及其应用。重点分析了Web使用挖掘的主要研究对象和研究方法,包括:挖掘的数据对象、数据的采集、数据预处理、模式发现、模式分析及其相关技术。展望了Web使用挖掘的未来研究方向。  相似文献   

14.
一种基于Web使用挖掘的个性化信息推荐系统实现方法   总被引:2,自引:0,他引:2  
为了提高基于Web使用挖掘的个性化信息推荐的有效性和效率,提出了将顺序模式和KP混合聚类遗传算法相结合的推荐策略,在Web日志预处理的基础上,设计出了一种基于Web使用挖掘的个性化信息推荐系统RSPIBOWUM的框架结构,并给出了基于这一框架结构的实现流程。结果表明,本推荐策略可以进行有效的个性化信息推荐,提高个性化信息推荐的效率。  相似文献   

15.
基于模式挖掘和聚类分析的自适应告警关联   总被引:6,自引:0,他引:6  
大部分攻击事件都不是孤立产生的,相互之间存在着某种联系,如冗余关系和因果关系等.大多数入侵检测系统忽略了上述关联性,从而暴露出高误报率的严重问题.在分析比较了目前较为流行的几种告警关联方法的优缺点基础上,提出了一种基于模式挖掘和聚类分析的自适应告警关联模型A3PC.以告警的行为模式概念为中心,A3PC将异常检测思想引入告警关联的问题上,通过提取关联规则和序列模式生成告警的分类模型,对误报进行自动鉴别,同时采用模式挖掘和聚类分析算法相结合的处理思想以及人机交互的半自动处理模式,从而形成真实有效、精简的管理员告警视图.使用MIT Lincoln实验室提供的DARPA入侵检测攻击场景数据集进行了测试,实验分析表明,A3PC较传统方法在告警关联准确程度、实时性和自适应性等方面更具优势.  相似文献   

16.
隐私保护是当前数据挖掘领域的一个研究热点,其目标是在不暴露原始数据信息的前提下准确地实现挖掘任务。针对隐私保护序列模式挖掘问题,提出了项集的布尔集合关系概念,设计了基于随机集和扰乱函数对原始序列库进行数据干扰的方法模型,并通过扰乱函数的特性还原出原始序列库的频繁序列模式的真实支持度,完成了在保护原始数据隐私的前提下准确地挖掘出频繁序列模式的任务。理论分析和实验结果表明,该方法模型具有很好的数据隐私保护性、挖掘结果准确性和算法执行高效性。  相似文献   

17.
介绍了Web挖掘的基本概念和分类,通过关联规则对Web使用数据进行深层次的分析,从而挖掘出有意义的模式及规则,以利于设计Web站点时,将关联的产品进行捆绑销售.  相似文献   

18.
本文介绍了Web使用模式的数据挖掘,分析作为源数据的Web服务器日志的局限性,提出基于应用服务器信息的Web使用模式挖掘,并在此基础上对传统的Web使用模式挖掘模型进行了改进。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号