共查询到17条相似文献,搜索用时 390 毫秒
1.
通过进一步发展Wen-Syan Li等人提出的Web站点逻辑域理论,该文提出Web站点逻辑域核模型及建立在其上的逻辑域挖掘算法。该算法通过对Web站点超链接的图结构进行运算,得到Web站点逻辑域。与Wen-Syan Li算法对比测试,结果表明在获得相同逻辑域个数的情况下,克服了其采用启发式方法所带来的效率问题。在对4个大型Web站点的单独测试中,平均能够达到85%的逻辑域挖掘精度。 相似文献
2.
3.
Web使用挖掘研究及实现 总被引:4,自引:2,他引:4
Web使用挖掘并不是简单地把数据挖掘算法应用在Web日志上,由于WWW体系结构的特殊性(包括Web站点上物理路径和逻辑路径的不一致),必须采用一种新的框架来处理挖掘过程。整个挖掘过程可以分为两大部分:ECLF日志预处理和在预处理后的数据集上进行挖掘。文中从应用的角度出发,在分析了这两个过程的具体流程后,给出了一个完整的Web使用模式挖掘解决方案和从Web日志中挖掘关联规则的系统原型。 相似文献
4.
Web使用挖掘并不是简单地把数据挖掘算法应用在Web日志上,由于WWW体系结构的特殊性(包括Web站点上物理路径和逻辑路径的不一致),必须采用一种新的框架来处理挖掘过程.整个挖掘过程可以分为两大部分:ECLF日志预处理和在预处理后的数据集上进行挖掘.文中从应用的角度出发,在分析了这两个过程的具体流程后,给出了一个完整的Web使用模式挖掘解决方案和从Web日志中挖掘关联规则的系统原型. 相似文献
5.
服务器端保存的Web访问日志含有大量的用户浏览信息,因此有效地利用该资源可以挖掘出有用的信息,并能得到用户个人的访问模式,从而为改善站点结构提供了支持。在结合站点拓扑结构的基础上,针对Web日志挖掘数据预处理过程中的路径补充提出了最短向后父节点算法(SBFN)。研究表明该算法能够对Web日志中的用户访问路径进行补充,从而为解决站点结构优化问题提供了方案。 相似文献
6.
服务器端保存的Web访问日志含有大量的用户浏览信息,因此有效地利用该资源可以挖掘出有用的信息,并能得到用户个人的访问模式,从而为改善站点结构提供了支持。在结合站点拓扑结构的基础上,针对Web日志挖掘数据预处理过程中的路径补充提出了最短向后父节点算法(SBFN)。研究表明该算法能够对Web日志中的用户访问路径进行补充,从而为解决站点结构优化问题提供了方案。 相似文献
7.
Web站点导航是Web数据挖掘的一个重要研究领域,是准确理解用户访问网站行为的关键;传统Web站点导航技术很难全面反映出用户对页面浏览的兴趣程度,找到用户感兴趣页面路径准确度比较低;为提高找到用户感兴趣页面路径准确度,提出一种基于蚁群算法的Web站点导航技术;将网络用户看作人工的蚂蚁,用户的浏览兴趣作蚂蚁的信息素,通过利用Web日志数据采用正负反馈机制和路径概率选择机制建立一个Web站点导航模型,挖掘用户感兴趣页面的导航路径;仿真实验结果表明,基于蚁群算法的Web站点导航技术提高了找到用户感兴趣页面路径准确度,更加能够准确反映出用户的浏览兴趣,用于Web站点导航是可行的。 相似文献
8.
基于多粒度树模型的Web站点描述及挖掘算法 总被引:2,自引:0,他引:2
随着Web所拥有的信息量和信息种类的急剧增长,Web站点挖掘对于自动实现特定主题的Web资源发现和分类具有重要的意义.然而现有的Web站点分类或挖掘算法在利用上下文语义信息、去除噪声信息以进一步提高分类准确率等方面还缺乏深入研究.从站点的采样尺寸、分析粒度和描述结构3个方面分析了设计高效的Web站点挖掘算法所需要解决的问题.在此基础上,提出了一种新的Web站点多粒度树描述模型,并描述了包括基于隐Markov树的两阶段分类算法、粒度间上下文融合算法、两阶段去噪程序以及基于熵的动态剪枝策略在内的多粒度Web站点挖掘算法.站点的多粒度描述方法及挖掘算法为多站点查询优化、Web效用挖掘等的深入研究奠定了基础.实验表明,该算法相对于基线系统平均可以提高16%的分类准确率,并减少了34.5%的处理时间. 相似文献
9.
Web日志挖掘的研究对象是Web日志数据,挖掘的对象是提供服务的网站的信息,挖掘结果可以帮助改善网站的设计,本文基于Web日志挖掘提出一种网站优化方案,本方案采用AprioriAll算法对用户频繁访问路径进行挖掘,根据挖掘结果进行模式分析,最终实现网站结构的调整、优化,提高用户满意度和站点的访问率。 相似文献
10.
11.
UltraSparc T1/T2处理器采用硬件辅助的虚拟化技术,其平台固件Hypervisor实现了虚拟机管理的主要功能。逻辑域通道(Logical Domain Channel)是Hypervisor实现的支持虚拟机间以及虚拟机与Hypervisor间通信的一种机制,其实现简单,但缺乏足够的灵活性。同时,基于逻辑域通道的数据传输需要对传输数据进行拷贝,极大地影响了数据传输性能。本文介绍了一种新的逻辑域通道技术,采用基于描述符的直接数据传递方法,数据经过逻辑域通道时不需要拷贝,其长度也不受逻辑域通道缓冲区大小的限制,实现了虚拟机间灵活高效的数据传递。 相似文献
12.
13.
14.
Hua-Fu Li 《Expert systems with applications》2009,36(8):11304-11311
Online mining of path traversal patterns from continuous Web click streams is one of the challenging research problems of Web usage mining. Most of previous works focus on mining path traversal patterns over the entire history of Web click streams. Mining the recent changes of Web click streams can provide valuable information for the analysis of the Web click streams. In this paper, we propose a new, online mining algorithm, called Top-DSW (top-k path traversal patterns of stream Damped Sliding Window), to discover the set of top-k path traversal patterns from streaming maximal forward references, where k is the desired number of path traversal patterns to be mined. An effective summary data structure, called TKP-DSW-list (a list of top-k path traversal patterns of stream Damped Sliding Windows) is developed to maintain the essential information about the top-k path traversal patterns from the maximal forward references within a stream damped sliding window. An effective space pruning mechanism, called TKR-list-maintain, is developed to control the memory requirement of the TKP-DSW-list. Experimental studies show that the proposed Top-DSW algorithm is an efficient, single-pass algorithm for online mining of the set of top-k path traversal patterns over stream damped sliding windows. 相似文献
15.
目前蒙古语语义Web方面的研究成果都是基于单机环境的,当语义Web信息检索系统投入实际运行时,单机环境存在存储容量有限和多用户并发查询速度慢等问题.针对此问题,提出了基于蒙古语新闻领域本体的分布式语义Web检索方法.首先依据蒙古语新闻领域的特点,参照七步法和骨架法,构建蒙古语新闻领域本体,研究适合本体的混合语义相似度算法进行语义扩展.然后将本体数据与算法部署于Hadoop分布式平台,解决了大规模本体数据存储的逻辑描述、物理结构和并行处理问题,实现了基于蒙古语新闻领域本体的分布式检索系统.实验结果表明,该方法有效地减少了查询关键词的响应时间,提高了新闻检索的查全率和查准率. 相似文献
16.
17.
Jan Ramon Tom Croonenborghs Daan Fierens Hendrik Blockeel Maurice Bruynooghe 《Machine Learning》2008,70(2-3):169-188
Recently, there has been an increasing interest in directed probabilistic logical models and a variety of formalisms for describing
such models has been proposed. Although many authors provide high-level arguments to show that in principle models in their
formalism can be learned from data, most of the proposed learning algorithms have not yet been studied in detail. We introduce
an algorithm, generalized ordering-search, to learn both structure and conditional probability distributions (CPDs) of directed
probabilistic logical models. The algorithm is based on the ordering-search algorithm for Bayesian networks. We use relational
probability trees as a representation for the CPDs. We present experiments on a genetics domain, blocks world domains and
the Cora dataset.
Editors: Stephen Muggleton, Ramon Otero, Simon Colton. 相似文献