首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
日志分析在用户搜索方面具有重要的意义,但是现代日志分析系统中具有多方面的问题,比如离线处理模式的处理时间较长,大量的数据没有办法进行处理.实现日志数据的分级归档,能够优化处理大数据.基于此,本文就提出了以Hadoop为基础的大数据日志分析模型,并且对其中的业务处理流程和功能架构实现全面的分析.实验结果表示,本文设计的大规模查询日志分析模型具有较强的扩展性、良好的数据处理能力,并且还具有有效性及可行性.  相似文献   

2.
对Web日志中用户访问数据的挖掘可以很好的获得系统优化的信息,方便Web站点走向个性化、智能化道路。本文深入了解了Web日志格式的内容,研究了进行Web日志挖掘的一般流程。采取预处理的方式来获得用户有用信息,经过数据清理、用户识别、用户会话识别、界面过滤、路径补充来完成信息的有效汲取,最终通过模式发现和模式分析来完成对使用者感兴趣信息的传送工作,将Web日志挖掘技术真正应用在站点优化进程中。  相似文献   

3.
徐芯 《信息通信》2011,(5):67-68
针对web日志挖掘中数据预处理阶段的工作给出了一种行之有效的处理方法和技术改进思路,能有效、显著地提高预处理后的数据质量、为后继用户行为分析等提供有力的数据保障.  相似文献   

4.
数据预处理在Web日志挖掘过程中起着至关重要的作用.论文分析了Web日志挖掘数据预处理的主要步骤,设计了用户识别、访问操作识别和路径完善三个步骤的关键算法.实验结果表明,设计的关键算法是有效的.  相似文献   

5.
在网络技术高速发展的今天,Web技术得到普及,通过对Web的数据挖掘,用户能够获取到所需要的数据信息、知识,同时能够对用户的访问行为、内容进行深入分析.Web日志挖掘是数据挖掘中的重点内容,借助日志挖掘的数据预处理技术,获取到用户特征,将自身的Web的服务设计进行优化,开展针对性的网络活动.基于此,在本文中对Web日志挖掘中的数据预处理技术进行研究,提出预处理算法.  相似文献   

6.
随着互联网的爆炸式发展,Web日志挖掘作为Web使用挖掘正成为学术界研究的热点。会话识别是Web日志挖掘的关键步骤。传统会话识别方法不能有效地动态适应不同的站点,该文应用自然语言处理常用的N-gram语言模型来实现会话识别,并给出评价方法和应用方案。  相似文献   

7.
本文首先介绍了彩铃平台的组网结构和各网元的功能,然后对USDP日志查询系统的总体结构和程序开发步骤进行了详细的描述。  相似文献   

8.
关联规则挖掘是数据挖掘研究领域中的一个重要的方法,旨在挖掘事务数据库中有趣的模式。阐述了Web日志挖掘和关联规则的基本内容,分析了经典Apriori算法的不足之处,提出了改进的算法。另外,利用论坛Web日志数据进行了对比实验,实验结果表明改进后的算法性能有较大提高。将改进后的算法应用于网络论坛的日志挖掘,找出用户的个性化访问模式,从而提高论坛的服务质量。  相似文献   

9.
根据Web日志挖掘的特点,介绍了Web数据挖掘的分类和过程.将关联规则应用到日志挖掘算法中,并利用云理论对关联规则算法进行优化,使之更能符合人的思维方式.  相似文献   

10.
一种基于Web日志用户浏览模式的数据挖掘   总被引:1,自引:0,他引:1  
Web日志中包含了大量的用户浏览信息,如何有效地从其中挖掘出用户浏览兴趣模式是一个重要的研究课题.本文研究了Web日志挖掘的机理,在分析挖掘频繁遍历路径的问题特征和对其进行形式化描述的基础上,进一步提出了一种在Web日志中挖掘频繁遍历路径算法,该算法能够正确、快速地从Web日志中抽取频繁遍历路径.  相似文献   

11.
Web数据挖掘研究与探讨   总被引:18,自引:0,他引:18  
随着WWW迅猛发展,WWW上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。由Web数据具有的半结构化特性,使得Web数据挖掘更加复杂,不同于传统的基于数据库的数据挖掘。为了解决这个问题,把数据挖掘的理论和技术应用于WWW,出现了一个新的研究领域——Web数据挖掘。基于Web的数据挖掘主要分为:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘。综述了基于Web的数据挖掘技术概念与原理,并且介绍用以Web数据挖掘实现的一种全新的技术——XML。如何进一步开发Web数据挖掘,充分利用Web资源,还有待于进一步的研究。Web数据挖掘的研究具有极大的挑战性,同时又具有极大的开发潜力。  相似文献   

12.
基于网络挖掘的实体关系元组自动获取   总被引:1,自引:0,他引:1       下载免费PDF全文
李维刚  刘挺  李生 《电子学报》2007,35(11):2111-2116
二元实体关系元组可以应用到知识库构建,数据挖掘,模式抽取等多个领域.本文利用特定关系的一个元组和一个关键词作为种子,结合多种自然语言处理底层技术,采取改进的模式获取方法和自举迭代策略,提出了一种新的从Web上抽取实体关系元组的方法.基准方法的平均准确率达到了78.12%,采用过滤措施后抽取方法的平均准确率达到了98.42%.实验结果表明,利用网络挖掘方法获取的实体关系元组能够很好满足信息抽取的应用,对抽取出的元组进一步处理,能够获取更多有价值的信息.  相似文献   

13.
黄名选  蒋曹清 《电子学报》2018,46(12):3029-3036
主题漂移和词不匹配是自然语言处理中一个难题,文本挖掘与信息检索的结合有助于解决该问题.鉴于此,本文提出一种基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展算法.该算法采用新的完全加权正负项集支持度和关联度计算方法以及模式评价框架,对初检用户相关反馈文档集挖掘与原查询词相关的正负关联模式,从模式中提取扩展词实现跨语言查询译后扩展.与现有基于伪相关反馈、加权关联模式挖掘的跨语言扩展算法比较,本文算法能有效地减少查询主题漂移和词不匹配问题,提高跨语言信息检索性能;本文模式挖掘方法可用于推荐系统,提高其准确性.  相似文献   

14.
随着互联网的飞速发展,互联网和人们日常的生活、工作、学习等各方面的结合越来越紧密,为使互联网更好的服务于用户(通过Web个性化服务等方式),首先需要了解用户使用互联网的规律性特点,基于Web日志的Web用户行为模式挖掘能解决此问题.目前,Web用户行为模式挖掘仍然是一个新兴的研究领域,其中包含若干需要解决的问题.针对这些问题,在该领域已开展了大量的研究工作.从模式挖掘合理性、模式挖掘结构体系、模式挖掘过程三个方面对Web用户行为模式挖掘中关键问题的研究现状进行了介绍:Web日志中包含了用户访问互联网的一些规律性特征,这些特征可通过Web用户行为模式挖掘的方法得到;为改进模式挖掘、应用的效果,可以采用改进的挖掘结构比如结合内容、结构挖掘的整合结构;Web用户行为模式挖掘过程分为数据预处理、模式挖掘、模式应用三个阶段,这是一个正在发展的研究领域.  相似文献   

15.
Web数据挖掘研究   总被引:3,自引:0,他引:3  
Web数据挖掘是数据挖掘技术与Web的结合。介绍了Web数据挖掘的概念、Web数据挖掘的流程、Web数据挖掘的分类以及3类Web数据挖掘的应用问题。  相似文献   

16.
基于项权值排序挖掘的跨语言查询扩展   总被引:1,自引:0,他引:1       下载免费PDF全文
黄名选  蒋曹清 《电子学报》2020,48(3):568-576
为了改善自然语言处理应用中长期存在的主题漂移和词不匹配问题,本文首先提出一种加权项集支持度计算方法和基于项权值排序的剪枝方法,给出面向查询扩展的基于项权值排序的加权关联规则挖掘算法,讨论关联规则混合扩展、后件扩展和前件扩展模型,最后提出基于项权值排序挖掘的跨语言查询扩展算法.该算法采用新的支持度和剪枝策略挖掘加权关联规则,根据扩展模型从规则中提取高质量扩展词实现跨语言查询扩展.实验结果表明,与现有基于加权关联规则挖掘的跨语言扩展算法比较,本文扩展算法能有效遏制查询主题漂移和词不匹配问题,可用于各种语言的信息检索以改善检索性能,扩展模型中后件扩展获得最优检索性能,混合扩展的检索性能不如后件扩展和前件扩展,支持度对后件扩展更有效,置信度更有利于提升前件扩展和混合扩展的检索性能.本文挖掘方法可用于文本挖掘、商务数据挖掘和推荐系统以提高其挖掘性能.  相似文献   

17.
基于多Agent的数据挖掘技术,不仅能够针对不同的Web数据综合采用不同的挖掘算法,而且可以在各站点进行并行挖掘,避免Web通信量过载。在简述Agent技术和Web数据挖掘技术的基础上,结合多Agent和Web数据挖掘,设计出一种新型数据挖掘模型,且进一步阐述了该模型,并做了一些分析测试。结果证明,该方法能有效提高Web数据挖掘的速度、准确率和覆盖率,提高了数据利用率。  相似文献   

18.
异构信息集成系统是一个较复杂的问题,以减少数据流量、减少通信代价、提高查询效率为目的,分析研究了异构信息集成系统中的查询处理以及查询优化的操作,在此基础上对查询语句进行优化研究,采用更为合理的查询策略和语法,对准确、高效地完成查询任务,提高系统性能有很大的帮助.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号