首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 390 毫秒
1.
郑皎凌 《计算机工程》2008,34(9):101-102
通过进一步发展Wen-Syan Li等人提出的Web站点逻辑域理论,该文提出Web站点逻辑域核模型及建立在其上的逻辑域挖掘算法。该算法通过对Web站点超链接的图结构进行运算,得到Web站点逻辑域。与Wen-Syan Li算法对比测试,结果表明在获得相同逻辑域个数的情况下,克服了其采用启发式方法所带来的效率问题。在对4个大型Web站点的单独测试中,平均能够达到85%的逻辑域挖掘精度。  相似文献   

2.
Web逻辑域挖掘是当前Web挖掘领域的研究热点之一,它强调从网站设计者的角度来挖掘站点中有逻辑联系的网页,以形成一个逻辑域,而不是单纯的文本聚类或超链排序。随着应用的不同,站点逻辑域的界定也有所不同。在综合分析了几种具有代表性的站点逻辑域及其挖掘方法后,提出了基于网页分块聚类的Web站点逻辑域挖掘模型和挖掘算法。实验结果表明,该算法具有很好的稳定性和适应性,其精度不受站点规模、语言、镜像等因素的影响,召回率则会随着取回网页数目的增加而增加。  相似文献   

3.
Web使用挖掘研究及实现   总被引:4,自引:2,他引:4  
Web使用挖掘并不是简单地把数据挖掘算法应用在Web日志上,由于WWW体系结构的特殊性(包括Web站点上物理路径和逻辑路径的不一致),必须采用一种新的框架来处理挖掘过程。整个挖掘过程可以分为两大部分:ECLF日志预处理和在预处理后的数据集上进行挖掘。文中从应用的角度出发,在分析了这两个过程的具体流程后,给出了一个完整的Web使用模式挖掘解决方案和从Web日志中挖掘关联规则的系统原型。  相似文献   

4.
Web使用挖掘并不是简单地把数据挖掘算法应用在Web日志上,由于WWW体系结构的特殊性(包括Web站点上物理路径和逻辑路径的不一致),必须采用一种新的框架来处理挖掘过程.整个挖掘过程可以分为两大部分:ECLF日志预处理和在预处理后的数据集上进行挖掘.文中从应用的角度出发,在分析了这两个过程的具体流程后,给出了一个完整的Web使用模式挖掘解决方案和从Web日志中挖掘关联规则的系统原型.  相似文献   

5.
服务器端保存的Web访问日志含有大量的用户浏览信息,因此有效地利用该资源可以挖掘出有用的信息,并能得到用户个人的访问模式,从而为改善站点结构提供了支持。在结合站点拓扑结构的基础上,针对Web日志挖掘数据预处理过程中的路径补充提出了最短向后父节点算法(SBFN)。研究表明该算法能够对Web日志中的用户访问路径进行补充,从而为解决站点结构优化问题提供了方案。  相似文献   

6.
服务器端保存的Web访问日志含有大量的用户浏览信息,因此有效地利用该资源可以挖掘出有用的信息,并能得到用户个人的访问模式,从而为改善站点结构提供了支持。在结合站点拓扑结构的基础上,针对Web日志挖掘数据预处理过程中的路径补充提出了最短向后父节点算法(SBFN)。研究表明该算法能够对Web日志中的用户访问路径进行补充,从而为解决站点结构优化问题提供了方案。  相似文献   

7.
Web站点导航是Web数据挖掘的一个重要研究领域,是准确理解用户访问网站行为的关键;传统Web站点导航技术很难全面反映出用户对页面浏览的兴趣程度,找到用户感兴趣页面路径准确度比较低;为提高找到用户感兴趣页面路径准确度,提出一种基于蚁群算法的Web站点导航技术;将网络用户看作人工的蚂蚁,用户的浏览兴趣作蚂蚁的信息素,通过利用Web日志数据采用正负反馈机制和路径概率选择机制建立一个Web站点导航模型,挖掘用户感兴趣页面的导航路径;仿真实验结果表明,基于蚁群算法的Web站点导航技术提高了找到用户感兴趣页面路径准确度,更加能够准确反映出用户的浏览兴趣,用于Web站点导航是可行的。  相似文献   

8.
基于多粒度树模型的Web站点描述及挖掘算法   总被引:2,自引:0,他引:2  
田永鸿  黄铁军  高文 《软件学报》2004,15(9):1393-1404
随着Web所拥有的信息量和信息种类的急剧增长,Web站点挖掘对于自动实现特定主题的Web资源发现和分类具有重要的意义.然而现有的Web站点分类或挖掘算法在利用上下文语义信息、去除噪声信息以进一步提高分类准确率等方面还缺乏深入研究.从站点的采样尺寸、分析粒度和描述结构3个方面分析了设计高效的Web站点挖掘算法所需要解决的问题.在此基础上,提出了一种新的Web站点多粒度树描述模型,并描述了包括基于隐Markov树的两阶段分类算法、粒度间上下文融合算法、两阶段去噪程序以及基于熵的动态剪枝策略在内的多粒度Web站点挖掘算法.站点的多粒度描述方法及挖掘算法为多站点查询优化、Web效用挖掘等的深入研究奠定了基础.实验表明,该算法相对于基线系统平均可以提高16%的分类准确率,并减少了34.5%的处理时间.  相似文献   

9.
于华  张文盛 《办公自动化》2012,(12):23-24,29
Web日志挖掘的研究对象是Web日志数据,挖掘的对象是提供服务的网站的信息,挖掘结果可以帮助改善网站的设计,本文基于Web日志挖掘提出一种网站优化方案,本方案采用AprioriAll算法对用户频繁访问路径进行挖掘,根据挖掘结果进行模式分析,最终实现网站结构的调整、优化,提高用户满意度和站点的访问率。  相似文献   

10.
Web用户访问多是匿名访问,Web日志挖掘的主要目标是从Web访问记录中抽取用户行为模式,通过分析挖掘结果理解用户的行为,从而改进站点的结构.Web日志挖掘第一步是进行数据预处理.数据预处理是Web页面分析中最耗时的阶段,首先研究了数据预处理的过程,包括数据清洗、用户识别、会话识别、路径补充.提出了一种路径补充的算法,...  相似文献   

11.
UltraSparc T1/T2处理器采用硬件辅助的虚拟化技术,其平台固件Hypervisor实现了虚拟机管理的主要功能。逻辑域通道(Logical Domain Channel)是Hypervisor实现的支持虚拟机间以及虚拟机与Hypervisor间通信的一种机制,其实现简单,但缺乏足够的灵活性。同时,基于逻辑域通道的数据传输需要对传输数据进行拷贝,极大地影响了数据传输性能。本文介绍了一种新的逻辑域通道技术,采用基于描述符的直接数据传递方法,数据经过逻辑域通道时不需要拷贝,其长度也不受逻辑域通道缓冲区大小的限制,实现了虚拟机间灵活高效的数据传递。  相似文献   

12.
张鑫  陈梅  王翰虎  王嫣然 《微机发展》2011,(2):58-61,65
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。  相似文献   

13.
开放文本中蕴含着大量的逻辑性知识,以刻画事物之间逻辑传导关系的逻辑类知识库是推动知识推理发展的重要基础,研发大规模逻辑推理知识库有助于支持由实体或事件等传导驱动的决策任务。该文围绕逻辑推理知识库,论述了知识库的概念、类别和基本构成,提出了一种面向大规模开放文本的实体描述、事件因果逻辑知识快速抽取方法;面向金融领域,探索了一套基于逻辑推理知识库的可解释性路径推理方法和金融实体影响生成系统。算法模型和系统均取得了不错的效果。  相似文献   

14.
Online mining of path traversal patterns from continuous Web click streams is one of the challenging research problems of Web usage mining. Most of previous works focus on mining path traversal patterns over the entire history of Web click streams. Mining the recent changes of Web click streams can provide valuable information for the analysis of the Web click streams. In this paper, we propose a new, online mining algorithm, called Top-DSW (top-k path traversal patterns of stream Damped Sliding Window), to discover the set of top-k path traversal patterns from streaming maximal forward references, where k is the desired number of path traversal patterns to be mined. An effective summary data structure, called TKP-DSW-list (a list of top-k path traversal patterns of stream Damped Sliding Windows) is developed to maintain the essential information about the top-k path traversal patterns from the maximal forward references within a stream damped sliding window. An effective space pruning mechanism, called TKR-list-maintain, is developed to control the memory requirement of the TKP-DSW-list. Experimental studies show that the proposed Top-DSW algorithm is an efficient, single-pass algorithm for online mining of the set of top-k path traversal patterns over stream damped sliding windows.  相似文献   

15.
目前蒙古语语义Web方面的研究成果都是基于单机环境的,当语义Web信息检索系统投入实际运行时,单机环境存在存储容量有限和多用户并发查询速度慢等问题.针对此问题,提出了基于蒙古语新闻领域本体的分布式语义Web检索方法.首先依据蒙古语新闻领域的特点,参照七步法和骨架法,构建蒙古语新闻领域本体,研究适合本体的混合语义相似度算法进行语义扩展.然后将本体数据与算法部署于Hadoop分布式平台,解决了大规模本体数据存储的逻辑描述、物理结构和并行处理问题,实现了基于蒙古语新闻领域本体的分布式检索系统.实验结果表明,该方法有效地减少了查询关键词的响应时间,提高了新闻检索的查全率和查准率.  相似文献   

16.
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的访问模式.数据预处理和日志挖掘算法是Web日志挖掘中的关键技术.文章就此进行了深入的研究,在已知用户访问路径的基础上,提出一种基于MFP算法的日志挖掘算法,并结合实例具体介绍了该算法的执行过程.  相似文献   

17.
Recently, there has been an increasing interest in directed probabilistic logical models and a variety of formalisms for describing such models has been proposed. Although many authors provide high-level arguments to show that in principle models in their formalism can be learned from data, most of the proposed learning algorithms have not yet been studied in detail. We introduce an algorithm, generalized ordering-search, to learn both structure and conditional probability distributions (CPDs) of directed probabilistic logical models. The algorithm is based on the ordering-search algorithm for Bayesian networks. We use relational probability trees as a representation for the CPDs. We present experiments on a genetics domain, blocks world domains and the Cora dataset. Editors: Stephen Muggleton, Ramon Otero, Simon Colton.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号