首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
随着信息技术的快速发展,特别是计算机技术的不断普及,使得“数据丰富而信息贫乏”这对矛盾显得日益突出.数据挖掘技术正是应了这一需求而结合了数理统计学、人工智能、神经网络和信息枝术等多学科而出现的一项新技术,且在广大应用领域产生了和正在产生着巨大的作用:因特网在目前为一个分布式的、全球的、巨大的信息服务中心,每时每刻有海量数据产生于此.这无疑对数据挖掘这门新兴的学科提出了巨大的挑战.Web不仅由页面组成,而且还包含了由一个页面指向另一个页面的链接结构和用户使用记录.而大量的这些Web内容、链接结构和用户使用记录隐含了人们使用web页面行为习惯、页面质量、用户类别等大量有趣信息.本文就Web挖掘技术的web内容挖掘、web结构挖掘、Web使用记录挖掘作了深入、详细的探讨.  相似文献   

2.
近年来,Web使用挖掘成为数据挖掘领域中一个新的研究热点,Web使用挖掘是从记录了大量网络用户行为信息的Web日志中发现用户访问行为特征和潜在规律.本文结合某高校主页的真实运行数据,通过Web使用挖掘对于网站的运行日志文件进行全面的挖掘分析,分析用户对信息内容的兴趣度,并通过用户对网页的访问数据推算出各个页面受众的兴趣度高低,借此改良网站的内容和布局.  相似文献   

3.
Web使用挖掘是数据挖掘技术在Web信息仓库中的应用.Web使用挖掘通过挖掘Web服务器日志获取的知识来预测用户浏览行为,是Web挖掘技术中的一个重要研究方向.通常发现的知识或一些意外规则很可能是不精确的、不完备的,这就需要用软计算技术如粗糙集来解决.提出一种基于粗糙近似的聚类方法,该方法能够实现从Web访问日志中聚类Web事务.通过这种方法可以有效地挖掘Web日志记录,从而发现用户存取Web页面的模式.  相似文献   

4.
Web使用挖掘研究   总被引:5,自引:1,他引:5  
Web数据挖掘是数据挖掘技术在Web信息仓库中的应用与研究。Web数据挖掘包括Web内容挖掘、Web结构挖掘和Web使用挖掘三个研究方向,文中研究的重点是Web使用挖掘。Web使用挖掘研究的主要对象是用户的使用记录,研究的主要过程包括数据预处理、模式发现和模式分析。文中详细介绍了Web使用挖掘的最新研究成果,并对将来技术的研究方向和发展趋势进行了探讨性的预测与分析,为进一步的理论研究和实际应用工作提供了指导性的建议。  相似文献   

5.
Web数据挖掘是数据挖掘技术在Web信息仓库中的应用与研究.Web数据挖掘包括Web内容挖掘、Web结构挖掘和Web使用挖掘三个研究方向,文中研究的重点是Web使用挖掘.Web使用挖掘研究的主要对象是用户的使用记录,研究的主要过程包括数据预处理、模式发现和模式分析.文中详细介绍了Web使用挖掘的最新研究成果,并对将来技术的研究方向和发展趋势进行了探讨性的预测与分析,为进一步的理论研究和实际应用工作提供了指导性的建议.  相似文献   

6.
基于web挖掘的用户服务研究   总被引:3,自引:0,他引:3  
数据丰富而知识贫乏导致了知识发现和数据挖掘领域的出现。基于Web的数据挖掘,是从Web海量的数据中自动、智能地抽取隐藏于这些数据中的知识,分析了Web挖掘技术的概念、特点、技术等。根据Web数据挖掘最流行的分类,可以分为Web内容挖掘、Web结构挖掘和Web使用记录挖掘。其中Web使用挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。该文根据Web数据挖掘的最近研究状况,主要论述了一个更新的频繁路径集的挖掘浏览模式在Web用户个性化服务中的应用,同时,还对发现的知识讨论了其在在线服务中的应用并给出了相应算法。  相似文献   

7.
基于Web的数据挖掘是一种结合了数据挖掘和互联网系统的热门研究课题。本文首先综述了基于Web的几类数据挖掘技术,包括Web内容挖掘、Web的访问挖掘、Web页面聚类以及用户频繁访问路径发现等技术。在此基础上又着重介绍了Web数据挖掘技术在电子商务中的具体应用。  相似文献   

8.
数据挖掘技术分支很多,其中,基于用户访问模式的挖掘(也称Web日志挖掘或使用记录的挖掘)对于一个企业网站的建设有重要的意义.本文结合一个大型图书网站的建设,来研究基于用户访问模式的数据挖掘技术在大型网站中的应用.首先介绍了用户访问模式(Web使用记录)挖掘的基本流程,接着详细介绍了数据结构的设计,数据顸处理,挖掘算法的应用,规则的生成等关键性的数据挖掘技术,最后介绍了产生的规则的应用.  相似文献   

9.
基于Web的数据挖掘技术研究及其在电子商务中的应用   总被引:1,自引:0,他引:1  
基于Web的数据挖掘是一种结合了数据挖掘和互联网系统的热门研究课题.本文首先综述了基于Web的几类数据挖掘技术,包括Web内容挖掘、Web的访问挖掘、Web页面聚类以及用户频繁访问路径发现等技术.在此基础上又着重介绍了Web数据挖掘技术在电子商务中的具体应用.  相似文献   

10.
Web日志是目前Web数据挖掘的重要研究方向。数据预处理是Web日志挖掘中的关键技术。详细的介绍了Web日志挖掘的预处理过程。数据预处理包括数据清理、识别用户、识别会话和框架页面清理、路径补充。用户识别后,框架页面降低了数据挖掘的效率,可以通过过滤框架页面大幅度减少产生的无效页面数。  相似文献   

11.
随着网络通信技术的快速发展与成本的不断降低,越来越多的信息都被发布到网络上.但是,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个新的课题.介绍了Web数据挖掘的分类以及当前的发展状况,并将XML技术应用在Web数据挖掘中,介绍了一个自动挖掘的模型,应用于股票信息自动采集系统,展示了Web数据自动挖掘方法的可行性与优越性.同时,也指出了Web数据自动挖掘尚存的不足及其发展前景.  相似文献   

12.
This paper introduces a novel approach for collecting and processing data originated by web user ocular movements on a web page, which are captured by using an eye-tracking tool. These data allow knowing the exact web user's eye position on a computer screen, and by combining them with the sequence of web page visits registered in the web log, significant insights about his/her behavior within a website can be extracted.With this approach, we can improve the effectiveness of the current methodology for identifying the most important web objects from the web user's point of view, also called Website Keyobjects. It takes as input the website's logs, the pages that compose it and the interest of users in the web objects of each page, which is quantified by means of a survey. Subsequently, the data are transformed and preprocessed before finally applying web mining algorithms that allow the extraction of the Website Keyobjects.With the utilization of the eye-tracking technology, we can eliminate the survey by using a more precise and objective tool to achieve an improvement in the classification of the Website Keyobjects. It was concluded that eye-tracking technology is useful and accurate when it comes to knowing what a user looks at and therefore, what attracts their attention the most. Finally, it was established that there is an improvement between 15% and 20% when using the information generated by the eye tracker.  相似文献   

13.
结合使用挖掘和内容挖掘的web推荐服务   总被引:10,自引:1,他引:9  
随着Internet的基础结构不断扩大和其所含信息的持续增长,Internet用户越来越感觉容易在WWW服务中“资源迷向”。提高用户访问效率的方法有页面预取技术,站点动态重构技术和web个性化推荐技术等。现有的大多数web个性化推荐技术主要是基于用户使用记录的数据挖掘方法,没有或很少考虑结合页面内容—这才是用户真正感兴趣的。该文提出一种结合用户使用挖掘和内容挖掘的web推荐服务,该推荐服务根据频繁最大前向访问路径,提出含有导航页和内容页的频繁访问路径图概念,根据滑动窗口内的最近用户访问页面内容和候选推荐集中页面内容相关性,来向用户提供个性化推荐服务。经推荐质量分析,这种方法具有较好的推荐优化能力。  相似文献   

14.
Ajax技术在深层网(Deep Web)网站开发中得到了广泛应用。针对Ajax页面多状态、状态之间强关联的特性,提出一种构建WSFT(带权状态融合树)模型的方法,来进行Ajax页面文本信息预处理。引入了文本特征树作为状态指纹进行状态捕获,优化了当前Ajax页面数据采集方法,同时通过StatusRank方法计算状态转移权值来分析状态迁移信息,最后生成WSFT。实验证明,该方法能有效地获取Ajax页面多状态文本信息,并且有助于后续Web挖掘的重要文本内容提取。  相似文献   

15.
There are many parameters that may affect the navigation behaviour of web users. Prediction of the potential next page that may be visited by the web user is important, since this information can be used for prefetching or personalization of the page for that user. One of the successful methods for the determination of the next web page is to construct behaviour models of the users by clustering. The success of clustering is highly correlated with the similarity measure that is used for calculating the similarity among navigation sequences. This work proposes a new approach for determining the next web page by extending the standard clustering with the content-based semantic similarity method. Semantics of web-pages are represented as sets of concepts, and thus, user session are modelled as sequence of sets. As a result, session similarity is defined as an alignment of two sequences of sets. The success of the proposed method has been shown through applying it on real life web log data.  相似文献   

16.
With the development of mobile technology, the users browsing habits are gradually shifted from only information retrieval to active recommendation. The classification mapping algorithm between users interests and web contents has been become more and more difficult with the volume and variety of web pages. Some big news portal sites and social media companies hire more editors to label these new concepts and words, and use the computing servers with larger memory to deal with the massive document classification, based on traditional supervised or semi-supervised machine learning methods. This paper provides an optimized classification algorithm for massive web page classification using semantic networks, such as Wikipedia, WordNet. In this paper, we used Wikipedia data set and initialized a few category entity words as class words. A weight estimation algorithm based on the depth and breadth of Wikipedia network is used to calculate the class weight of all Wikipedia Entity Words. A kinship-relation association based on content similarity of entity was therefore suggested optimizing the unbalance problem when a category node inherited the probability from multiple fathers. The keywords in the web page are extracted from the title and the main text using N-gram with Wikipedia Entity Words, and Bayesian classifier is used to estimate the page class probability. Experimental results showed that the proposed method obtained good scalability, robustness and reliability for massive web pages.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号