首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 8 毫秒
1.
武磊  高斌  李京 《计算机应用研究》2008,25(4):1243-1246
提出一种将结构信息和时域信息综合运用来检测Spam技术的方法,并针对目前流行的Spam技术,从四个月的网络链接图中提取大量的结构和时域信息特征,训练一组检测Spam技术的网页分类器,取得了很好的实验结果。  相似文献   

2.
Web数据挖掘   总被引:30,自引:4,他引:26  
王实  高文 《计算机科学》2000,27(4):28-31
Web Mining is an important branch in Data Mining.It attracts more research interest for rapidly developing Internet. Web Mining includes(1)Web Content Mining;(g)Web Usage Mining;(3) Web structure Mining.In this paper we define Web Mining and present an overview of the various research issues,techniques and development efforts.  相似文献   

3.
Web使用挖掘系统研制中的主要问题和应对策略   总被引:6,自引:0,他引:6  
张锋  常会友 《计算机科学》2003,30(6):129-132
With the rapid development of WWW,Web Usage Mining,as well as Web Mining,has become a hot direction in academic and industrial circles.It is generally believed that there are three tasks,preprocessing,knowledge discovery and pattern analysis,in Web Usage Mining.Though Web Usage Mining is still ranged in the application of traditional data mining techniques,in view of changes in application environment and operated data concerned,some new difficulties have arisen accordingly.This paper takes efforts to address such challenges in the three phases and introduces some proposed solutions simultaneously.  相似文献   

4.
Web数据挖掘中的可信数据来源   总被引:1,自引:0,他引:1  
从大量Web信息中获取有用的信息是Web数据挖掘的关键问题.如何评价web信息是否可信,现在主要方法是通过BadRank算法进行内容评测,或是通过链接权重进行相关引用数计算.可信数据来源是数据挖掘的前提,在基于关键词的数据挖掘中,通过评价挖掘所涉及的不同数据域,以及数据域自身的可信性,对在不同域所获得的挖掘数据给以权重,从而对挖掘结果的序列产生影响,提高挖掘算法在获取可信结果方面的效率.并通过试验测试了可信域评价的效果.  相似文献   

5.
自适应Web站点:挑战与机遇   总被引:6,自引:0,他引:6  
1 引言万维网(World Wide Web)已经成为信息传播、交流与共享的主要媒体。在全球Web站点数目迅速增长的同时,各个Web站点的信息量及其复杂度也在迅速上升,包含成千上万个网页与超链接是很平常的。由于以下的因素,数据密集型Web站点的设计与管理也变得越来越困难:  相似文献   

6.
论述了通用Web日志挖掘系统的总体结构以及它的设计实现过程,为用户从Internet中提取知识,改进站点设计提供帮助.  相似文献   

7.
基于Web日志挖掘的个性化服务站点   总被引:2,自引:1,他引:2  
介绍个性化站点的概念,并对Web日志挖掘系统体系结构进行分析。其后将关联规则挖掘技术应用到日志事务会话中,在对日志数据的特性分析的基础上提出类Apriori挖掘算法。对类Apriori挖掘算法得到的频繁项集如何有效提取关联规则提出了最有效的方法。在实际应用中探讨了如何从多个匹配的关联规则中选择合适的匹配规则。  相似文献   

8.
Web结构挖掘及其算法   总被引:10,自引:0,他引:10  
王艳华  张纪 《计算机工程》2005,31(Z1):125-127
随着网络和数据挖掘技术的发展,Web数据挖掘得到了较多的研究。该文从Web结构挖掘的角度出发,在分析了网络有向图的总体结构以及导航页面、目标页面和网络功能的基础上,研究了结构挖掘算法,针对Hub页面的多主题性、无关页面、无关链接等问题,提出了HITS算法的改进算法。  相似文献   

9.
目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过多通道卷积神经网络融合为多维度文本特征,用于提取多种类新闻网页信息;仅需少量数据集训练,就可提取新来源的新闻网页信息。实验结果表明,该方法在性能上高于当前最优方法。  相似文献   

10.
The Web has become a ubiquitous tool for distributing knowledge and information and for conducting businesses. To exploit the huge potential of the Web as a global information repository, it is necessary to understand its dynamics. These issues are particularly important for news Web sites as they are expected to provide fresh information on current world events to a potentially large user population. This paper presents an experimental study aimed at characterizing and modeling the evolution of a news Web site. We focused on the MSNBC Web site as it is a good representative of its category in terms of structure, news coverage and popularity. Specifically, we analyzed how often and to what extent the content of this site changed and we identified models describing its dynamics. The study has shown that the rate of page creations and updates was characterized by some well defined patterns that varied as a function of time of day and day of week. On the contrary, the content of individual pages changed to a different extent. Most updates involved a very small fraction of their content, whereas very few were more extensive and spread over the whole page. By taking into accounts all these aspects, we derived analytical models able to accurately capture and reproduce the evolution of the news Web site.  相似文献   

11.
Correlation-Based Web Document Clustering for Adaptive Web Interface Design   总被引:2,自引:2,他引:2  
A great challenge for web site designers is how to ensure users' easy access to important web pages efficiently. In this paper we present a clustering-based approach to address this problem. Our approach to this challenge is to perform efficient and effective correlation analysis based on web logs and construct clusters of web pages to reflect the co-visit behavior of web site users. We present a novel approach for adapting previous clustering algorithms that are designed for databases in the problem domain of web page clustering, and show that our new methods can generate high-quality clusters for very large web logs when previous methods fail. Based on the high-quality clustering results, we then apply the data-mined clustering knowledge to the problem of adapting web interfaces to improve users' performance. We develop an automatic method for web interface adaptation: by introducing index pages that minimize overall user browsing costs. The index pages are aimed at providing short cuts for users to ensure that users get to their objective web pages fast, and we solve a previously open problem of how to determine an optimal number of index pages. We empirically show that our approach performs better than many of the previous algorithms based on experiments on several realistic web log files. Received 25 November 2000 / Revised 15 March 2001 / Accepted in revised form 14 May 2001  相似文献   

12.
应用Web结构挖掘的PageRank算法的改进研究   总被引:1,自引:0,他引:1       下载免费PDF全文
随着Internet技术的发展,Web网页成为人们获取信息的有效途径,Web数据挖掘逐渐成为研究的热点。基于Web结构挖掘的PageRank算法存在不足的情况下,提出了一种改进的算法,实验结果证明改进的算法较原算法具有较好的效果,具有一定的实用价值。  相似文献   

13.
基于Web挖掘的个性化算法及其在网络教学平台的应用   总被引:10,自引:1,他引:10  
高鹏  高岭  王峥  胡青山 《计算机应用》2005,25(5):1012-1015
在Web挖掘的基础上设计针对Web服务的Web访问事务模型WTM和个性化推荐算法。算法以WTM为基础,旨在根据用户的访问模式向用户推荐个性化的Web资源。其利用关联规则得到的频繁项集实时地匹配用户的当前访问序列,对不同的用户提供不同的推荐资源。在此过程中不需产生所有的关联规则,提高了推荐的效率。最后,将该模型和算法应用于网络教学实践得出了个性化的网络教学环境。  相似文献   

14.
针对现有Web访问序列模式挖掘算法和PrefixSpan算法存在的问题,提出一种基于投影位置的Web访问序列模式挖掘算法(PWSPM)。该算法通过序列模式分析,发现用户的行为模式,预测用户对网页的访问模式,进而改进站点的性能和组织结构,提高用户查找信息的质量和效率,以及对用户开展个性化的信息服务。实验和应用结果表明,提出的算法具有更好的执行效率,适用于Web日志挖掘,可用于构建智能化Web站点和解决个性化的信息服务问题。  相似文献   

15.
Web挖掘研究   总被引:27,自引:2,他引:27  
Internet的迅速发展,使得worldwideweb已经成为一个巨大的、蕴涵着具有潜在价值知识的分布式信息空间,为数据挖掘研究提供了丰富的资源的同时也提出了新的挑战。该文首先概述了数据挖掘的概念、挖掘算法及其主要应用领域,然后结合Web数据的多样性、丰富和动态的超链接信息以及Web用户访问信息,详细阐述了Web内容挖掘、Web结构挖掘和Web用户访问信息挖掘的概念、定义、主要的挖掘算法及最新研究进展,文章最后介绍了Web挖掘的研究方向和发展趋势。  相似文献   

16.
Web上有海量的数据信息,对这些数据进行复杂的应用成了现令数据库技术的研究热点。这里对数据挖掘的基本概念、Web数据挖掘步骤、Web数据挖掘在三个研究领域的研究现状、发展及常用Web数据挖掘工具做了简单介绍,希望起到抛砖引玉作用。  相似文献   

17.
Web数据挖掘初探   总被引:1,自引:0,他引:1  
Web上有海量的数据信息,对这些数据进行复杂的应用成了现今数据库技术的研究热点。这里对数据挖掘的基本概念、Web数据挖掘步骤、Web数据挖掘在三个研究领域的研究现状、发展及常用Web数据挖掘工具做了简单介绍,希望起到抛砖引玉作用。  相似文献   

18.
基于P2P的个性化Web搜索系统的设计与实现   总被引:1,自引:0,他引:1  
针对中心化的Web信息搜索系统在覆盖率、及时性、个性化、可扩展性等方面存在的问题,提出了一种基于Peer-to-Peer(P2P)的可扩展、个性化的Web搜索系统PeerBridge。PeerBridge基于分布式哈希表组织大量的网络结点形成有组织的P2P覆盖网络,每个对等体作为一个主题搜索引擎,根据用户兴趣从Web中搜索特定主题相关的信息,而具有相似主题的对等体被聚集在一起形成基于主题的对等体簇,协作进行Web搜索与信息共享。并采用主题驱动的Web爬行、基于语义概念的文档分类、个性化的链接分析和基于主题划分的P2P搜索等机制来改善PeerBridge的性能。  相似文献   

19.
Web使用挖掘是近年来Web数据挖掘中的研究热点。针对传统遗传算法在提取关联规则问题时常采用固定染色体交叉概率和染色体变异概率,容易出现早熟、收敛速度较慢的问题,提出了改进的遗传算法,并在关联规则的提取中增加了用户页面兴趣度这一阈值,成功地运用到某商业网站服务器日志挖掘。实验证明,这种改进的遗传算法能够有效避免早熟收敛现象,是一种有效的方法。  相似文献   

20.
Web日志文件的异常数据挖掘算法及其应用   总被引:8,自引:0,他引:8  
赵泽茂  何坤金  陈鹏  景雪琴  蒋霞东 《计算机工程》2003,29(17):195-196,F003
从数量化角度给出了异常数据的一般性定义,以Web服务器日志文件数据为依据,讨论了挖掘异常数据的方法和途径;给出了基于距离的单指标的离散统计法和综合统计法,并结合校园网作了实际的分析处理。结果表明,该方法是可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号