首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
孟志青  楼婷渊  胡强 《计算机科学》2013,40(Z11):251-254,262
大规模文本数据挖掘是大数据分析的重要分支,也是近年来的一个研究热点。研究了多粒度时间文本数据周期模式挖掘算法,首先提出了时间粒度转换、多粒度时间间隔等概念,然后建立了文本数据的周期模型,给出了一个多粒度时间文本下的周期模式挖掘算法,最后对大量病毒文本文献数据进行了实验,表明了提出的算法可以挖掘一些有效的周期模式,讨论了周期宽松度对支持度和置信度的影响。该研究为大文本数据分析提供了一种新的方法。  相似文献   

2.
Identifying protein-protein interactions is a key problem in molecular biology. Currently, interactions cannot be reliably predicted on a proteome-wide scale but direct and indirect evidence for interactions is increasingly available from high-throughput interaction detection methods, gene expression microarrays, and protein annotation projects. In this paper we propose an association mining approach to integrating these diverse types of evidence. We apply this approach to a number of datasets consisting of interacting and non-interacting protein pairs annotated with different types of evidence. We identify patterns that distinguish interacting and non-interacting protein pairs, and use these patterns to assign a confidence level to proposed interactions.  相似文献   

3.
在多维时态近似周期模型的基础上,提出了一种基于时态数据库技术和层次聚类技术的多维时态近似周期挖掘算法,并应用于股票数据。实验表明此算法是有效的。  相似文献   

4.
为了提高网站的利用率及优化网站,构建了Web数据流挖掘系统,介绍了该系统的框架结构,并以商丘师范学院校园网为挖掘对象,说明了Web数据流挖掘的工作流程以及Web资源服务的具体实现流程。实践证明,基于Web数据流挖掘技术实现Web资源服务,可充分利用Web网站的信息和网络资源,实时、高效地为用户提供个性化的Web资源服务。  相似文献   

5.
研究时态数据库中多粒度时间下的近似周期的挖掘问题。在多粒度时间、多粒度时间格式的基础上引入多粒度时间间隔的定义以及相关性质,构造多粒度近似周期模型,提出一个基于SOM聚类的多粒度近似周期的挖掘算法。利用高频股票数据580000宝钢JBT1进行实验,证明了该算法的有效性。  相似文献   

6.
通过挖掘Web日志改进站点结构   总被引:8,自引:0,他引:8  
王咏  申瑞民 《计算机工程》2004,30(12):133-135
在一些商业站点中Web页面的结构有时与用户的浏览习惯不相一致,即用户在某个位置去寻找某个特定的页面,而这个页面却买际在另一个位置。该文提出一种算法找出站点中那些实际位置与用户期望位置不相一致的页面。算法的主要思想是如果访问者没有在特定的位置找到所需的页面就会回退,把这个产生回退的位置作为访问者希望相应的页面内容出现的可能的候选期望位置。然后站点管理者可以改进站点的结构,在用户的期望位置增加相应的页面的连接,这样可以使用户能够较为方便地找到所期望的页面。  相似文献   

7.
时间序列周期模式挖掘的周期检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
王阅  高学东  武森  陈敏 《计算机工程》2009,35(22):32-34
周期是时间序列的重要特征之一,用于精确描述时间序列并预测其发展趋势。在现有周期模式挖掘算法中,周期长度由用户事先定义,忽略了噪声的存在。在ERP度量和时间弯曲算法的基础上,提出一种新的周期长度检测方法。该方法可以在时间轴上实现弯曲,包括延伸和平移。它受噪声干扰的影响较小,实验结果表明其性能优于原有周期检测算法。  相似文献   

8.
用户行为模式挖掘问题的研究   总被引:1,自引:0,他引:1  
在软件可用性测试中,分析用户行为模式是一个关键的问题。为解决具有序列长度长、以序列片断为支持度计算依据等特点的用户行为模式挖掘问题,提出了一种有效的基于前缀树的频繁事件序列扩展方法,给出了比特图索引表的构造、事件扩展、事务扩展以及支持度计算的算法。使频繁事件序列能够简单快速地被确定。  相似文献   

9.
数据挖掘系统结构的研究   总被引:1,自引:2,他引:1  
施蕾  孟凡荣 《微计算机信息》2007,23(18):167-168,141
介绍了典型的数据挖掘体系结构,然后分析其中存在的一些不足和主要问题.针对这些问题,主要选定存储数据挖掘结果的方向进行研究,提出了改进的数据挖掘体系结构,并对它的特点进行了分析.这种新结构为数据挖掘结果的共享及数据挖掘效率的提高提供了一种新的途径.  相似文献   

10.
用户访问兴趣路径挖掘方法   总被引:1,自引:1,他引:1  
针对当前挖掘用户访问模式算法仅将频繁访问路径作为用户浏览兴趣路径的问题,依据使用Web日志挖掘用户兴趣页面时,通过引入页面信息量参数,综合考虑页面访问次数、浏览时间和页面信息量大小来定义用户兴趣度,提出了基于兴趣度的用户访问模式挖掘算法。实验证明该算法是有效的,在用户浏览兴趣度量方面比当前的频繁访问路径挖掘算法更准确。  相似文献   

11.
一种挖掘压缩序列模式的有效算法   总被引:1,自引:0,他引:1  
从序列数据库中挖掘频繁序列模式是数据挖掘领域的一个中心研究主题,而且该领域已经提出和研究了各种有效的序列模式挖掘算法.由于在挖掘过程中会产生大量的频繁序列模式,最近许多研究者已经不再聚焦于序列模式挖掘算法的效率,而更关注于如何让用户更容易地理解序列模式的结果集.受压缩频繁项集思想的启发,提出了一种CFSP(compressing frequent sequential patterns)算法,其可挖掘出少量有代表性的序列模式来表达全部频繁序列模式的信息,并且清除了大量的冗余序列模式.CFSP是一种two-steps的算法:在第1步,其获得了全部闭序列模式作为有代表性序列模式的候选集,与此同时还得到大多数的有代表性模式;在第2步,该算法只花费了少量的时间去发现剩余的有代表性序列模式.一个采用真实数据集与模拟数据集的实验研究也证明了CFSP算法具有高效性.  相似文献   

12.
文章概述了数据挖掘相关理论知识,讨论了数据挖掘的由来、分析了挖掘的数据类型、数据挖掘的任务、分类以及数据挖掘中的问题及研究方向,为研究者研究数据挖掘技术提供一定的参考。  相似文献   

13.
时空轨迹数据的获取变得越来越容易,轨迹数据刻画了移动对象的行为模式与活动规律,是对移动对象在时空环境下的移动模式和行为特征的真实写照,在城市规划、交通管理、服务推荐、位置预测等领域具有重要的应用价值.这些过程通常需要通过对时空轨迹数据进行模式挖掘才能得以实现.简述了轨迹数据挖掘的预处理和基本步骤,归纳了异常轨迹检测方法...  相似文献   

14.
序列模式挖掘研究与发展   总被引:1,自引:1,他引:0  
王虎  丁世飞 《计算机科学》2009,36(12):14-17
序列模式挖掘是数据挖掘的一个重要研究课题,它在很多领域中都有着广泛的应用.首先讨论了序列模式挖掘的相关背景,然后对序列模式挖掘进行分类,并在此基础上对每一类序列模式挖掘算法的特点进行了介绍和比较;最后,对序列模式挖掘未来的研究重点进行展望,以便研究者对序列模式挖掘做进一步的研究.  相似文献   

15.
随着软件系统的规模和复杂性日益增长,软件开发已经演变成一项复杂的系统工程.软件工程中的对象、活动和过程更加难以控制和管理,因此该领域原有的经验直觉型的处理模式已经不能适应新的需求,而数据挖掘技术的引入为实现知识智能型软件工程提供了重要契机.以软件工程领域中的数据对象为主线,对在程序代码分析、故障检测、软件项目管理、开源软件开发等软件活动中所运用到的数据挖掘技术进行了系统的介绍和归纳,并在每一环节作了方法间的优劣性对比分析.最后还指出了若干值得进一步研究的方向.  相似文献   

16.
瞿超  刘鸿雁 《微计算机信息》2007,23(33):148-149,162
频繁模式挖掘是数据挖掘中的一个重要部分,现有的模型具有各自的优点,但在智能性方面表现较差。对于已经存在的Agent系统,多数都是以语言的形式进行描述,本文对Agent进行形式上的描述,并应用到数据挖掘的模型中,使其智能性得到提高,并有很高的可移植性。  相似文献   

17.
This paper presents the PlanMine sequence mining algorithm to extract patterns of events that predict failures in databases of plan executions. New techniques were needed because previous data miningalgorithms were overwhelmed by the staggering number of very frequent,but entirely unpredictive patterns that exist in the plan database.This paper combines several techniques for pruning out unpredictiveand redundant patterns which reduce the size of the returned rule setby more than three orders of magnitude. PlanMine has also beenfully integrated into two real-world planning systems. We experimentally evaluate the rules discovered by PlanMine, and show that theyare extremely useful for understanding and improving plans, as wellas for building monitors that raise alarms before failures happen.  相似文献   

18.
需求收集和挖掘真正的体现了需求的市场和用户驱动.用户访谈,问卷调查,头脑风暴,竞品分析等都是需求收集和挖掘的方法.有效的需求收集和需求挖掘需要我们搞清楚用户真正的需求和问题背后的深层次问题,这样才有可能使得我们的产品解决方案真正的满足客户的需要.  相似文献   

19.
频繁模式挖掘在数据挖掘领域已经有广泛的应用.然而,对于增量更新频繁模式挖掘研究得不是很多.本文提出了一种新颖的增量更新频繁模式树结构(IUNP_Tree),构建它只需要对数据库扫描一次.此外,提出了基于条件矩阵(conditional matrix)的频繁模式挖掘算法(FPBM_Mine)和增量更新算法INUPA,可以有效地处理数据库的增量更新问题.实验表明,该算法是有效的,并且运行效率高于FP-growth算法.  相似文献   

20.
一种分布式序列模式挖掘算法   总被引:1,自引:0,他引:1  
常鹏  陈耿  朱玉全 《计算机应用》2008,28(11):2964-2966
针对分布式环境下的序列模式挖掘问题,提出了一种分布式序列模式挖掘(DSPM)算法。DSPM以PrefixSpan算法为基础,使用抽样检测技术平衡了任务负载,将挖掘任务分解后分配到多台计算机上以多进程、多线程并行执行。另外采用了伪投影技术来降低生成投影数据库的开销。实验结果表明,DSPM算法能够快速有效地挖掘分布式环境下的全局序列模式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号