首页 | 本学科首页   官方微博 | 高级检索  
 共查询到18条相似文献,搜索用时 234 毫秒
随着信息技术的快速发展,特别是计算机技术的不断普及,使得“数据丰富而信息贫乏”这对矛盾显得日益突出,数据挖掘技术正是应了这一需求而结合了数理统计学、人工智能、神经网络和信息技术等多学科而出现的一项新技术,且在广大应用领域产生了和正在产生着巨大的作用。因特网在目前为一个分布式的、全球的、巨大的信息服务中心,每时每刻有海量数据产生于此,这无疑对数据挖掘这门新兴的学科提出了巨大的挑战。Web不仅由页面组成,而且还包含了由一个页面指向另一个页面的链接结构和用户使用记录,而大量的这些Web内容、链接结构和用户使用记录隐含了人们使用Web页面行为习惯、页面质量、用户类别等大量有趣信息,本文就Web挖掘技术的Web内容挖掘、Web结构挖掘、Web使用记录挖掘作了深入、详细的探讨。  相似文献   

Web挖掘是针对包括Web页面内容、页面之间的结构、用户访问信息等在内的各种Web数据.应用数据挖掘的方法.提取抽象的、潜在的有用的知识。本文通过对远程教学系统中Web挖掘应用的分析。着重介绍了Web访问挖掘基本流程.并总结了web挖掘结果在远程教学系统中的重要作用。  相似文献   

近年来,Web使用挖掘成为数据挖掘领域中一个新的研究热点,Web使用挖掘是从记录了大量网络用户行为信息的Web日志中发现用户访问行为特征和潜在规律.本文结合某高校主页的真实运行数据,通过Web使用挖掘对于网站的运行日志文件进行全面的挖掘分析,分析用户对信息内容的兴趣度,并通过用户对网页的访问数据推算出各个页面受众的兴趣度高低,借此改良网站的内容和布局.  相似文献   

数据挖掘在Web智能化中应用研究   总被引:12,自引:9,他引:3  
分析了Web信息的特点和目前开发利用的局限,提出在Web上采用数据挖掘技术即Web挖掘,促进web智能化的观点。全面阐述了Web挖掘在Web智能化中的几个重要应用。指出Web挖掘是Web技术中一个重要的研究领域,是发现蕴藏在web上知识、区分权威链接、理解用户访问模式和网页语义结构的关键,它使充分利用Web大量的真正有价值的信息成为可能,为智能化Web奠定了基础。  相似文献   

结合使用挖掘和内容挖掘的web推荐服务   总被引:10,自引:1,他引:9  
随着Internet的基础结构不断扩大和其所含信息的持续增长,Internet用户越来越感觉容易在WWW服务中“资源迷向”。提高用户访问效率的方法有页面预取技术,站点动态重构技术和web个性化推荐技术等。现有的大多数web个性化推荐技术主要是基于用户使用记录的数据挖掘方法,没有或很少考虑结合页面内容—这才是用户真正感兴趣的。该文提出一种结合用户使用挖掘和内容挖掘的web推荐服务,该推荐服务根据频繁最大前向访问路径,提出含有导航页和内容页的频繁访问路径图概念,根据滑动窗口内的最近用户访问页面内容和候选推荐集中页面内容相关性,来向用户提供个性化推荐服务。经推荐质量分析,这种方法具有较好的推荐优化能力。  相似文献   

Web挖掘是数据挖掘与Web领域相结合的产物,其应用领域非常广泛。将web数据挖掘技术应用在数字图书馆领域,可发现用户的兴趣爱好、频繁访问的路径、页面的相关性、期望位置及重要页面等信息,从而为数字图书馆满足个性化的服务要求提供了基础。  相似文献   

Web数据挖掘中的可信数据来源   总被引:1,自引:0,他引:1  
从大量Web信息中获取有用的信息是Web数据挖掘的关键问题.如何评价web信息是否可信,现在主要方法是通过BadRank算法进行内容评测,或是通过链接权重进行相关引用数计算.可信数据来源是数据挖掘的前提,在基于关键词的数据挖掘中,通过评价挖掘所涉及的不同数据域,以及数据域自身的可信性,对在不同域所获得的挖掘数据给以权重,从而对挖掘结果的序列产生影响,提高挖掘算法在获取可信结果方面的效率.并通过试验测试了可信域评价的效果.  相似文献   

随着Internet的飞速发展及Web在全球的进一步普及,WWW上的信息量呈指数级增长。面对这一情形,研究人员开始将数据挖掘技术用于Web,从而产生了一个新的研究方向——Web挖掘。Web挖掘即是对Web文档的内容、可利用的Web资源的使用情况以及Web资源间的关系进行分析。本文分析了Web页面的半结构化特点,介绍了国内外学者针对Web页面的半结构化特点提出的用于从Web页面中提取数据的构建包装器方法。在Web数据提取领域,包装器一般就是一个从Web页面中提取数据的程序。同时介绍了作者本人的一些工作,包括一个新闻下载浏览模块和一个信息…  相似文献   

基于Web的数据挖掘研究综述   总被引:4,自引:0,他引:4  
基于Web数据挖掘是一个结合了数据挖掘和WWW的热门研究主题。文章介绍了Web数据挖掘最流行的分类;Web内容挖掘,Web结构挖掘和Web使用记录挖掘,根据Web数据挖掘的最近研究状况,总结了几个研究热点,并介绍了一个Web使用记录挖掘的框架WebSIFT.  相似文献   

基于web挖掘的用户服务研究   总被引:3,自引:0,他引:3  
数据丰富而知识贫乏导致了知识发现和数据挖掘领域的出现。基于Web的数据挖掘,是从Web海量的数据中自动、智能地抽取隐藏于这些数据中的知识,分析了Web挖掘技术的概念、特点、技术等。根据Web数据挖掘最流行的分类,可以分为Web内容挖掘、Web结构挖掘和Web使用记录挖掘。其中Web使用挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。该文根据Web数据挖掘的最近研究状况,主要论述了一个更新的频繁路径集的挖掘浏览模式在Web用户个性化服务中的应用,同时,还对发现的知识讨论了其在在线服务中的应用并给出了相应算法。  相似文献   

There are many parameters that may affect the navigation behaviour of web users. Prediction of the potential next page that may be visited by the web user is important, since this information can be used for prefetching or personalization of the page for that user. One of the successful methods for the determination of the next web page is to construct behaviour models of the users by clustering. The success of clustering is highly correlated with the similarity measure that is used for calculating the similarity among navigation sequences. This work proposes a new approach for determining the next web page by extending the standard clustering with the content-based semantic similarity method. Semantics of web-pages are represented as sets of concepts, and thus, user session are modelled as sequence of sets. As a result, session similarity is defined as an alignment of two sequences of sets. The success of the proposed method has been shown through applying it on real life web log data.  相似文献   

With the development of mobile technology, the users browsing habits are gradually shifted from only information retrieval to active recommendation. The classification mapping algorithm between users interests and web contents has been become more and more difficult with the volume and variety of web pages. Some big news portal sites and social media companies hire more editors to label these new concepts and words, and use the computing servers with larger memory to deal with the massive document classification, based on traditional supervised or semi-supervised machine learning methods. This paper provides an optimized classification algorithm for massive web page classification using semantic networks, such as Wikipedia, WordNet. In this paper, we used Wikipedia data set and initialized a few category entity words as class words. A weight estimation algorithm based on the depth and breadth of Wikipedia network is used to calculate the class weight of all Wikipedia Entity Words. A kinship-relation association based on content similarity of entity was therefore suggested optimizing the unbalance problem when a category node inherited the probability from multiple fathers. The keywords in the web page are extracted from the title and the main text using N-gram with Wikipedia Entity Words, and Bayesian classifier is used to estimate the page class probability. Experimental results showed that the proposed method obtained good scalability, robustness and reliability for massive web pages.  相似文献   

将实时数据通过Web的方式发布,实时显示过程参数,已经成为现代工业控制的一项热门课题.通过对XML Web Service技术和Java Script的研究,提出了一种基于B/S结构应用系统的无刷新数据交换的处理方法,可以动态更新页面的局部,而不刷新整个页面,解决了整页刷新的页面抖动效率低下等问题,并介绍了此技术在环保远程实时监控系统中的应用.  相似文献   

This paper introduces a novel approach for collecting and processing data originated by web user ocular movements on a web page, which are captured by using an eye-tracking tool. These data allow knowing the exact web user's eye position on a computer screen, and by combining them with the sequence of web page visits registered in the web log, significant insights about his/her behavior within a website can be extracted.With this approach, we can improve the effectiveness of the current methodology for identifying the most important web objects from the web user's point of view, also called Website Keyobjects. It takes as input the website's logs, the pages that compose it and the interest of users in the web objects of each page, which is quantified by means of a survey. Subsequently, the data are transformed and preprocessed before finally applying web mining algorithms that allow the extraction of the Website Keyobjects.With the utilization of the eye-tracking technology, we can eliminate the survey by using a more precise and objective tool to achieve an improvement in the classification of the Website Keyobjects. It was concluded that eye-tracking technology is useful and accurate when it comes to knowing what a user looks at and therefore, what attracts their attention the most. Finally, it was established that there is an improvement between 15% and 20% when using the information generated by the eye tracker.  相似文献   

网页在其生命周期内的活跃程度会随时间发生变化。有的网页只在特定的阶段有价值,此后就会过时。从用户的角度对网页的生命周期进行分析可以提高网络爬虫和搜索引擎的性能,改善网络广告的效果。利用一台代理服务器收集的网页访问量信息,我们对网页的生命周期进行了研究,给出了用户兴趣演变的模型。这个模型有助于更好地理解网络的组织与运行机理。  相似文献   

基于特征串的大规模中文网页快速去重算法研究   总被引:16,自引:1,他引:16  
网页检索结果中,用户经常会得到内容相同的冗余页面,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想,利用网页文本的内容、结构信息,提出了基于特征串的中文网页的快速去重算法,同时对算法进行了优化处理。实验结果表明该算法是有效的,大规模开放测试的重复网页召回率达97.3% ,去重正确率达99.5%。  相似文献   

It is common to browse web pages via mobile devices. However, most of the web pages were designed for desktop computers equipped with big screens. When browsing on mobile devices, a user has to scroll up and down to find the information they want because of the limited screen size. Some commercial products reformat web pages. However, the result pages still contain irrelevant information. We propose a system to personalize users’ mobile web pages. A user can determine which blocks in a web page should be retained. The sequence of these blocks can also be altered according to individual preferences.  相似文献   

网上考试系统应用了先进的面向对象开发方法、基于B/S(浏览器/服务器)结构和面向对象接口技术编程。客户端可以通过浏览器访问系统,实现任务的下达、提交考核成绩的统计、人员权限的分配等功能。针对系统的功能和性能需求,采用了ASP.NET技术。通过ASP.NET结合HTML网页、ASP.NET指令和ActiveX元件,建立动态、交互并且高效的Web服务器应用程序。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号