首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
一个面向大规模数据库的数据挖掘系统   总被引:18,自引:0,他引:18  
钱卫宁  魏藜  王焱  钱海蕾  周傲英 《软件学报》2002,13(8):1540-1545
数据挖掘融合了数据库技术、人工智能和统计学,是目前的研究热点.为了能够集成当前数据挖掘的主要技术并使它们协同工作,在进行数据挖掘基本算法研究的基础上研制开发了一个数据挖掘系统--Golden-Eye.系统实现了在数据挖掘研究中的一些最新成果,集成了泛化、数据清洗这两个数据准备操作以及关联规则发现、例外规则发现、时序模式发现、分类器构造、聚类分析等基本数据挖掘操作,并实现了对挖掘操作的基本管理和结果的图形化显示.整个框架设计充分体现了系统的完整性、协调性和高效性:自底向上将存储控制模块、数据预处理模块、挖掘操作模块、挖掘库管理模块有机地结合在一起,在底层实现了对包括中间结果在内的数据的统一管理,在上层为用户提供了可视化的界面.实验结果表明,该系统能够在大规模数据库上成功地完成用户所指定的数据挖掘操作.  相似文献   

2.
Web使用挖掘并不是简单地把数据挖掘算法应用在Web日志上,由于WWW体系结构的特殊性(包括Web站点上物理路径和逻辑路径的不一致),必须采用一种新的框架来处理挖掘过程.整个挖掘过程可以分为两大部分:ECLF日志预处理和在预处理后的数据集上进行挖掘.文中从应用的角度出发,在分析了这两个过程的具体流程后,给出了一个完整的Web使用模式挖掘解决方案和从Web日志中挖掘关联规则的系统原型.  相似文献   

3.
Web日志挖掘是目前Web挖掘研究的一个重点.针对Web日志挖掘中存在的问题,给出了基于数据仓库技术的Web日志挖掘方案,就数据预处理、数据立方体设计及数据挖掘技术的应用进行了较为深入的探讨.并以一个Web站点日志为例,详细阐述了Web日志数据预处理、Web日志立方体设计以及数据挖掘算法的实现过程,并实现了一个Web日志多维数据集,能够有效解决Web日志分析中的难题.  相似文献   

4.
在对Web应用挖掘的基本步骤作系统性研究的基础上,设计了一个Web应用挖掘可视化系统.该系统能够对用户访问Web时服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣,并对所得出的结果进行可视化的处理.为了识别用户浏览模式利用Apriori算法对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行了挖掘.采用Web图可视化了Web站点的拓扑结构以及各节点访问计数和登录计数信息.Web图的新颖之处在于两点:首先,为了将Web拓扑结构映射到Web图上,利用了站点拓扑结构数据和站点应用数据;其次,在绘制表示用户登录计数的信息层时允许通过使用动态布局的方法,以及为每一层的节点重新分配360度周长的方法来解决节点之间的冲突问题.文中较详细地阐述了该系统对Web应用数据挖掘可视化界面布局的具体措施.  相似文献   

5.
Web文本挖掘中数据预处理技术研究   总被引:3,自引:0,他引:3  
数据预处理是将原始的Web文档转化为适合进行数据挖掘的中间表示形式,在Web文本挖掘过程中起着至关重要的作用.介绍Web文本挖掘的概念及Web文本挖掘的一般流程,对Web文本挖掘中的特征表示、中文分词、特征选择等数据预处理关键技术进行详尽的分析.  相似文献   

6.
Web使用挖掘研究及实现   总被引:4,自引:2,他引:4  
Web使用挖掘并不是简单地把数据挖掘算法应用在Web日志上,由于WWW体系结构的特殊性(包括Web站点上物理路径和逻辑路径的不一致),必须采用一种新的框架来处理挖掘过程。整个挖掘过程可以分为两大部分:ECLF日志预处理和在预处理后的数据集上进行挖掘。文中从应用的角度出发,在分析了这两个过程的具体流程后,给出了一个完整的Web使用模式挖掘解决方案和从Web日志中挖掘关联规则的系统原型。  相似文献   

7.
迄今为止,数据挖掘与知识发现软件的功能不再停留在"挖掘"这个单一功能的实现,而已延伸到数据挖掘与知识发现的过程,即包括数据的预处理、数据挖掘、模型评估与可视化,在单纯的模型可视化基础上扩充了数据可视化与数据挖掘过程可视化.主要讨论了数据挖掘的方法与可视化技术,指出了未来的研究方向.  相似文献   

8.
将数据挖掘与相关的数据可视化技术和联机分析处理技术集成,构造一个应用于电子商务Web环境中的以数据挖掘技术为基础的数据可视化分析系统模型——电子商务数据挖掘可视化模型(EDVM),并技术实现主要模块功能,使之能够进行挖掘结果的动态更新与可视化输出,并通过实验初步验证了EDVM模型的有效性。  相似文献   

9.
一种基于Web日志文件的信息挖掘方法   总被引:19,自引:1,他引:19  
数据预处理和日志挖掘算法是Web日志挖掘中的关键技术。文中根据Web访问模式的用户特征,提出了一种基于Web日志文件的信息挖掘系统的体系结构。在此基础上,分析了其数据挖掘过程和信息挖掘算法。  相似文献   

10.
基于Web的数据挖掘算法与数据仓库的接口设计   总被引:6,自引:0,他引:6       下载免费PDF全文
提出了一种基于Web的数据挖掘系统中数据挖掘算法与数据仓库的接口设计方案,解决了算法与数据仓库的接口问题,实现用户通过Web浏览器动态调用算法,算法在Web环境下对数据仓库数据进行挖掘,发现有用的知识。该接口方案的通用性增强了数据挖掘系统的扩展性,有利于系统快速添加更多的新算法,以满足各种挖掘需求。  相似文献   

11.
自适应网站能够提高网站对用户的服务质量。本文首先给出自适应网站的总体框架,对框架中主要模块做详细的分析,包括数据预处理、数据挖掘、页面推荐和站点调整。在数据挖掘模块给出一种有效的识别用户访问模式的算法,该算法利用数据库查询简化频繁最大前向访问路径集的查找,并在此基础上形成频繁访问路径图,为页面推荐和站点调整做好准备。最后给出自适应网站的设计原则。  相似文献   

12.
针对当前Web日志数据信息越来越多的问题,传统的数据库管理系统无法对其进行有效的操作分析。采用数据挖掘技术对其进行研究,从数据挖掘的系统结构和数据挖掘的过程两个方面对数据挖掘进行描述;对Web日志挖掘的理论和过程进行了详细的分析;给出ID3算法的描述,并给出了部分核心的代码。  相似文献   

13.
石油勘探开发是石油工业的重要部分,在石油勘探开发过程中,会采集到大量的数据,形成三维数据场,使用这些数据的目的足为了准确地再现油藏分布以及石油勘探开发过程中的参数的动态变化。该文是将三维数据场可视化技术应用到石油勘探开发过程中的地质建模和数值模拟之中,利用可视化技术,尤其是三维数据场可视化技术,实现了从大量数据中构造出三维图像。该文在算法中使用了包围盒技术和分层存储结构来提高算法的速度,达到了较好的效果,直观地再现了石油在油气藏中的状态,指导设计人员进行井位的确定,提高石油生产的效益,辅助相关领域工作人员的分析、设计,具有广泛应用前景。  相似文献   

14.
Web日志分析系统不仅能改进Web网站结构,提高Web服务器性能,而且能识别用户的喜好、满意度,发现潜在用户,增强网站服务竞争力。介绍了Web日志挖掘的各个阶段,设计并实现了一个Web日志分析系统。分析了传统的频繁项集挖掘算法与序列模式挖掘算法的不足之处,根据日志数据的特性,将用户属性引入频繁项目集的生成过程,有效地减少了候选项集的数目,并根据候选集的特点,逐轮压缩数据库。将连续序列引入到ApiroriAll算法的候选集合并过程中,实现了改进算法。通过实验比较了改进算法与传统算法的效率,证明了改进算法的有效性。  相似文献   

15.
数据维度相关性分析一直是数据分析领域的研究重点。传统的可视化方法可通过图形描述直观判断几个数据维度存在何种相关关系,但是难以解决维数灾难问题。一些数据挖掘方法虽然可行,但是难以把过程具象化,并且在一些应用场景下仍然需要可视化方法提供参数指导。提出了ASExplorer:一个探索高维数据维度相关性为目的的可视分析系统。该系统首先基于联合熵的维度重要性评价算法,帮助用户选择分析路径和过滤数据,然后基于以采样尺度为中心的交互探索方法,令用户可以同时探索多个数据维度在采样尺度变化时的关联关系。该系统适用于缺乏先验知识的数据集的早期分析过程,案例分析和用户研究验证了该系统的有效性。  相似文献   

16.
With the advent of the big data era, the significance of data analysis has increasingly come to the forefront, showcasing its ability to uncover valuable insights from vast datasets, thereby enhancing the decision-making process for users. Nonetheless, the data analysis workflow faces three dominant challenges: high coupling in the analysis workflow, a plethora of interactive interfaces, and a time-intensive exploratory analysis process. To address these challenges, we introduce with this paper Navi, a data analysis system powered by natural language interaction. Navi embraces a modular design philosophy that abstracts three core functional modules from mainstream data analysis workflows: data querying, visualization generation, and visualization exploration. This approach effectively reduces the coupling of the system. Meanwhile, Navi leverages natural language as a unified interactive interface to seamlessly integrate various functional modules through a task scheduler, ensuring their effective collaboration. Moreover, in order to address the challenges of exponential search space and ambiguous user intent in visualization exploration, we propose an automated approach for visualization exploration based on Monte Carlo tree search. In addition, a pruning algorithm and a composite reward function, both incorporating visualization domain knowledge, are devised to enhance the search efficiency and result quality. Finally, we validate the effectiveness of Navi through both quantitative experiments and user studies.  相似文献   

17.
数据挖掘技术是指从数据集中发现有效的、新颖的、潜在有用的和最终可以理解模式的高级处理过程,FP-growth算法是数据挖掘算法的一种。FP-growth算法是一种基于FP-tree的频繁项集挖掘算法,此算法是将原始数据集压缩到一棵FP-tree上,对原始数据集进行两次扫描,挖掘过程不产生候选项集,不用候选测试的算法,它使用紧缩的数据结构,避免了对数据库的重复扫描,运算速度快。文中收集了乐购二手车交易平台2016年1月到2018年12月共3年的数据,系统中可供挖掘的模块包括:二手车信息模块,拍卖品管理模块,购物车管理模块,订单管理等信息模块。利用FP-growth算法对乐购二手车交易系统数据库中的车辆品牌、使用年限、车载人数、行驶里程、车辆价格、保养状况等信息进行整理、转换、对比、分析,从中发现二手车交易中的规律,挖掘用户购车和卖车的有关规律,提高了车辆的成交率。  相似文献   

18.
空间数据可视化的研究与发展   总被引:7,自引:0,他引:7  
随着3S技术的融合和空间信息处理技术的发展和广泛应用,空间数据的可视化以及基于可视化技术的空间分析、空间数据挖掘和知识发现已经发展成为空间信息处理的重要手段和关键技术。可视化方法已由数据的空间展现逐步发展成为可以表现数据的内在复杂结构、关系和规律的技术。由静态空间关系的可视化发展到表示系统演变过程的可视化。可视化方法不仅用于数据的理解,而且用于空间知识的呈现。可视化技术充分利用了人对于色彩和空间的敏锐的感知能力使人机有机地融合,在空间信息和知识的发现过程中发挥着重要作用。该文总结了空间分析中可视化技术的研究成果,分析了可视化技术的发展现状,给出了可视化方法的分类。从认知和空间数据所表征的客观对象的复杂性及非线性动力学特征分析了其发展演化规律的可视化方法,并对空间数据可视化技术的现状及发展趋势进行探讨。  相似文献   

19.
Web日志挖掘中数据预处理方法的研究   总被引:2,自引:0,他引:2  
Web日志挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。而数据预处理在Web日志挖掘中起着很重要的作用,直接影响日志挖掘的质量和结果。介绍了Web日志挖掘数据预处理过程,综述了国际上的研究现状,及流行的处理方法。针对预处理步骤中的用户会话识别和路径填充进行了相应的改进。根据评估会话构造方法的标准,通过实验对给出的新方法与其他方法进行了分析比较。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号