首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
Web日志是目前Web数据挖掘的重要研究方向。数据预处理是Web日志挖掘中的关键技术。详细的介绍了Web日志挖掘的预处理过程。数据预处理包括数据清理、识别用户、识别会话和框架页面清理、路径补充。用户识别后,框架页面降低了数据挖掘的效率,可以通过过滤框架页面大幅度减少产生的无效页面数。  相似文献   

2.
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。  相似文献   

3.
Web日志挖掘中数据预处理技术的研究   总被引:2,自引:1,他引:1  
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果.详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法.在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整.然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面.实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合.  相似文献   

4.
会话识别是Web日志预处理过程中的一个重要环节,针对传统会话识别的不足,提出一种改进的会话识别算法.在识别出具体的用户之后,过滤大量的框架网页;然后根据每个页面的内容及网站结构,构造出相对合理的页面访问时间阈值,并以此阈值来进行用户的会话识别.最后通过实验数据,与几种传统的会话识别方法进行了比较,表明该算法更为合理有效.  相似文献   

5.
会话识别是Web日志挖掘中的数据预处理中的一个重要步骤。文中提出了一种改进的会话识别方法。首先,在用户识别后,进行框架页面的过滤,从而大大地减少了实验产生的有效页面,然后为页面设置访问时间阙值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整。通过实验证明,相对于传统的对所有页面使用单一的先验阈值进行会话识别的方法,该方法所得到的会话集更具有真实性。  相似文献   

6.
一种改进的Web日志会话识别方法   总被引:4,自引:0,他引:4  
会话识别是Web日志挖掘中的数据预处理中的一个重要步骤.文中提出了一种改进的会话识别方法.首先,在用户识别后,进行框架页面的过滤,从而大大地减少了实验产生的有效页面,然后为页面设置访问时间阈值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整.通过实验证明,相对于传统的对所有页面使用单一的先验阈值进行会话识别的方法,该方法所得到的会话集更具有真实性.  相似文献   

7.
Web日志预处理中优化的会话识别方法   总被引:4,自引:0,他引:4  
针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容及站点结构确定。实验数据显示,与对所有页面使用单一的先验阈值进行会话识别的方法相比较,该方法得到了真实性更强的会话集。  相似文献   

8.
Web用户访问多是匿名访问,Web日志挖掘的主要目标是从Web访问记录中抽取用户行为模式,通过分析挖掘结果理解用户的行为,从而改进站点的结构.Web日志挖掘第一步是进行数据预处理.数据预处理是Web页面分析中最耗时的阶段,首先研究了数据预处理的过程,包括数据清洗、用户识别、会话识别、路径补充.提出了一种路径补充的算法,...  相似文献   

9.
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提。通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度。在这些数据准备工作的基础上,构造了用户一页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类。实验表明改进的FCM算法的有效性。  相似文献   

10.
模糊C均值聚类算法在Web使用挖掘上的应用研究   总被引:5,自引:3,他引:2  
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提.通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度.在这些数据准备工作的基础上,构造了用户一页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类.实验表明改进的FCM算法的有效性.  相似文献   

11.
数据挖掘中数据预处理的研究与实现*   总被引:18,自引:1,他引:17  
数据预处理将原始的真实数据库转换成适于数据挖掘的挖掘数据库,为挖掘算法更好的实现以及挖掘结果形象的显示打下了良好的基础。针对结构化数据讨论了数据预处理的两个目标:消除现实数据库中的数据缺陷;为数据挖掘做准备。并在此基础上,介绍了数据挖掘软件KDD中数据预处理技术的实现。  相似文献   

12.
高速公路挖掘数据预处理的研究   总被引:1,自引:1,他引:1  
将数据挖掘技术应用于高速公路系统中,利用挖掘得到的模式对高速公路管理提供有效支持,数据预处理关系到收费数据的挖掘质量,针对丢卡、坏卡、回头车等存在的问题,对数据预处理进行了改正,并给予算法实现。  相似文献   

13.
自动视频分类中的数据预处理   总被引:2,自引:0,他引:2  
提出了一套视频数据采集、特征提取及数据预处理方法。介绍了视频数据的采集方式,并提出了一套可计算的视频特征属性,可以反映人们对不同的视频风格的典型特征的理解。给出了如何将这些提取的视频属性数据处理成适合于决策树分类、分类关联规则以及序列模式等数据挖掘技术适用的数据格式。  相似文献   

14.
To solve the problem of query-by-example in multimedia audio data, we analyze the characteristics of wavelet multiresolution, and propose a method for searching audio data using wavelet multiresolution pyramidal algorithm. First, we preprocess 100 audio data files by transforming them into wavelet coefficient files with audio data and query data. And then we search these wavelet coefficient files using the different hierarchy pyramidal algorithms. By comparing our method with the method using wavelet approximate coefficient algorithms, we found that our method is highly efficient and reduces the search time without influencing the retrieval precision.  相似文献   

15.
Web使用挖掘研究   总被引:1,自引:0,他引:1  
本文首先由Web挖掘的分类提出了Web使用挖掘,进一步介绍了Web使用挖掘的概念、分类及其采用技术,最后介绍了数据预处理方法以及Web使用挖掘的应用及其下一步将要研究的内容。  相似文献   

16.
针对异源WSN观测数据难以统一汇集、存储、管理及发布应用的问题,分析WSN观测设备的工作特点,研究对自动观测数据进行全自动预处理的方法,设计观测数据自动综汇系统应用体系方案,通过统一的远程数据接收模块、数据预处理模块、自动入库模块、关系型数据库系统,以及前端的在线可视化观测数据管理应用平台,形成建立高效WSN野外观测及数据应用系统的方案,提高野外观测数据的实时性和可用性。  相似文献   

17.
基于Web日志的数据预处理研究   总被引:1,自引:0,他引:1  
详细介绍Web日志挖掘的数据预处理过程.通过对预处理的结果用户会话文件进行处理,构造出扩展有向树模型,并从每个用户会话文件中发现该用户所有的最大向前引用路径,为实施Web日志挖掘算法提供数据基础.  相似文献   

18.
介绍了一种Web挖掘的分类,包括Web内容挖掘、Web结构挖掘和Web使用挖掘。讨论了Web使用挖掘过程的三个步骤,即数据获取与数据预处理、模式发现和模式分析,详细分析了每一个步骤中所使用的技术。指出了目前Web使用挖掘研究存在的不足,给出了Web使用挖掘未来的研究方向。  相似文献   

19.
数据挖掘工具DMTools的设计与实现   总被引:3,自引:0,他引:3       下载免费PDF全文
介绍了一个通用的数据工具DMTools。它实现了基于数据库的知识发现的主要过程,可视分析,数据预处理,数据库的知识发现,数据挖掘,模型解释及模型评估算。主要介绍了这个系统的体系结构和各愉的功能。使用本工具。可从各行业的历史业务数据库中挖掘出隐含的有价值的知识,用于决策支持。  相似文献   

20.
一种缺失飞行参数预处理的新方法   总被引:4,自引:0,他引:4  
由于不可避免地存在着数据被污染的情况,对飞行参数记录系统所记录的数据进行预处理已变得十分重要,该文通过对飞行参数以及统计学习理论与支持向量机的理论分析,提出了一种基于状态匹配与支持向量机的缺失飞行参数方法,对缺失飞行数据进行了有效地预测与补充。通过对不同情况的仿真,结果也说明了这种方法可行并且有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号