首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
提出构建数字图书馆主题搜索引擎的总体系统设计。利用一个预处理系统尽量选择高质量的种子站点,从而产生Web主题定义数据;在系统控制器的协调下,各主题爬行器同步地采集爬行器所推荐的Web资源,对下载的资源进行文本分类与主题识别;将已经下载的Web资源按学科分类存储在Web主题资源库中,通过全局信息库建立索引,接入通用接口进行依主题检索。依赖数字图书馆各方面特点,提出支持多线程主题爬行器的设计,并提出一种新颖的URL主题相关性剪切算法EPR,为实现数字图书馆主题搜索引擎原型提供重要的设计。基于开源Lucene平  相似文献   

2.
申利民  汪新俊 《微机发展》2006,16(2):157-159
现今Web站点是越来越复杂而且不智能化。用户在访问Web站点时经常会碰到很多问题,主要原因是Web站点对用户的需求缺乏适应性。文中研究了自适应Web站点,提出一个理论框架,并针对此框架给出一个构建自适应Web站点的系统架构,介绍了使用文本挖掘方法和Web用法挖掘方法,改善Web站点的结构和组织形式以使站点达到更好的效果。主要通过挖掘Web服务器日志数据使站点更容易访问。  相似文献   

3.
现今Web站点是越来越复杂而且不智能化。用户在访问Web站点时经常会碰到很多问题,主要原因是Web站点对用户的需求缺乏适应性。文中研究了自适应Web站点,提出一个理论框架,并针对此框架给出一个构建自适应Web站点的系统架构,介绍了使用文本挖掘方法和Web用法挖掘方法,改善Web站点的结构和组织形式以使站点达到更好的效果。主要通过挖掘Web服务器日志数据使站点更容易访问。  相似文献   

4.
Deep Web爬虫爬行策略研究   总被引:6,自引:0,他引:6  
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某Deep Web站点的页面用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明Deep Web站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的Deep Web爬虫,它可以自动发现和下载Deep Web页面。由于Deep Web惟一“入口点”是查询接口,Deep Web爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际Deep Web站点上的实验证明了此方法是非常有效的。  相似文献   

5.
Web站点导航是Web数据挖掘的一个重要研究领域,是准确理解用户访问网站行为的关键;传统Web站点导航技术很难全面反映出用户对页面浏览的兴趣程度,找到用户感兴趣页面路径准确度比较低;为提高找到用户感兴趣页面路径准确度,提出一种基于蚁群算法的Web站点导航技术;将网络用户看作人工的蚂蚁,用户的浏览兴趣作蚂蚁的信息素,通过利用Web日志数据采用正负反馈机制和路径概率选择机制建立一个Web站点导航模型,挖掘用户感兴趣页面的导航路径;仿真实验结果表明,基于蚁群算法的Web站点导航技术提高了找到用户感兴趣页面路径准确度,更加能够准确反映出用户的浏览兴趣,用于Web站点导航是可行的。  相似文献   

6.
Web日志挖掘技术的研究与应用   总被引:15,自引:0,他引:15  
肖立英  李建华  谭立球 《计算机工程》2002,28(7):276-277,284
介绍目前世界上两种主要的Web日志挖掘技术(基于Web事务和基于数据立方体)。同时,提出了一个基于Web日志挖掘技术的应用,即用户自适应的Web站点,介绍了这一系统的实现方法和主要特色。  相似文献   

7.
数字图书馆的发展先后经历了Internet时代、Web时代、网格时代、Web2.0时代,正逐渐走向云计算时代。作为一种基于互联网的超级计算模式,云计算的出现为区域数字图书馆带来了新的发展方向。由此产生的是,数字图书馆的服务模式正在从数据和知识的存储节点向用户的信息中心转化。在分析解构云计算相关技术的基础上,论述了数字图书馆和云计算之间的关系,并给出了云计算环境下的区域数字图书馆服务模式。  相似文献   

8.
基于Web Service的数字图书馆的研究与设计   总被引:3,自引:0,他引:3  
分析了当前数字图书馆应用系统普遍采用的基于组件的多层分布式应用架构,并基于WebService分布式应用设计模式,提出了一种新的数字图书馆Web应用系统总体设计框架,同时论述了该框架下相应Web服务的具体实现方法。  相似文献   

9.
一个Web站点自动生成系统   总被引:1,自引:0,他引:1  
1 引言目前,Internet/Intranet正在飞速发展,而Web是Internet/Intranet上一种最有效的信息交流方式,用户可以通过访问Web站点来获得信息、服务,并反馈意见。因此,对于普遍的政府部门、企业、学校等单位来说,迫切需求建立Web站点,也需要一种能快速生成与维护Web站点的工具。然而,现存的FrontPage等HTML页面编写工具,自动化、智能化程度不高,操作复杂烦琐,要求用户具有较高的计算机技能,普通用户难于掌握。因此,给出一个Web站点自动生成工具,帮助企事业单位方便、快速地建立起Web站点是非常有意义的。  相似文献   

10.
ASP是微软公司开发的代替CGI脚本程序的一种应用,是一种动态网页技术,它可以与数据库或其他程序进行交互,是一种简单、方便的编程工具。ASP与SQL、CSS等技术搭配,被广泛用于Web站点设计中,具备开放、高效且易于维护等特点。该文从传统的Web站点设计出发,着重介绍了ASP技术的工作原理、运行方式以及内建对象,并分析了ASP与其他相关技术相比较的优势,对基于ASP环境下的Web站点设计做了粗浅讨论。  相似文献   

11.
一种基于XML的Web页面定义语言   总被引:4,自引:0,他引:4  
李效东 《软件学报》2002,13(1):142-149
数据密集(data-intensive)型Web站点是指那些将大量的异构数据源的数据进行集成以后所生成的Web站点.此类站点的建设可以划分为3项主要任务:数据的访问与集成、站点结构的构造(指定各页面所含内容以及各页之间的链接)和页面的HTML表示.以XML以及来自W3C的相关规范为基础,构建了一种Web页面定义语言WPDL(Web page definition language).给出了WPDL的一个简化的EBNF表示,并举例说明了WPDL的关键特性.并且说明,使用这种说明式的查询语言(declarative query language),可以将数据访问、站点结构生成与页面表示彼此分离开来,使站点的重构(restructuring)、重用(reusability)和完整性约束的实施(integrity constraint enforcement)成为可能.  相似文献   

12.
郑皎凌  王鹏 《计算机工程》2010,36(21):57-58,61
已有Web结构挖掘研究主要是挖掘出站点的核心节点而非整个结构。为此,设计Web站点逻辑域核及其导入路径的模型,提出Web站点逻辑域核挖掘算法和逻辑域核导入路径挖掘算法。在4个大型Web站点上的实验结果表明,Web站点逻辑域核挖掘算法和导入路径挖掘算法均能够达到较高的精度和召回率。  相似文献   

13.
论文主要从理论上分析了一种自适应网站性能优化算法,该算法首先以Web站点的URL为行、以用户的UserID为列,建立URL_UserID关联矩阵,元素值为用户的访问次数;接着对行向量进行分析获得频繁闭相关页面集;最后,对频繁闭相关页面集进一步处理发现频繁访问路径。Web站点可根据频繁路径自动改进链接结构,提高Web站点对所有用户的整体服务性能,提高客户访问的效率。  相似文献   

14.
论文提出了一种基于XML的Web访问控制策略描述语言XACPDL,它使用XMLSchema定义Web的访问控制策略,也可以作为一种维护Web站点的安全工具。  相似文献   

15.
基于JSP技术的Web应用设计   总被引:4,自引:0,他引:4  
JSP是服务器端的脚本环境 ,它是一种建立在 Java Servlet模型之上的表达层技术 ,可用于构建动态的、功能强大的、交互的 Web站点。介绍了 JSP技术的基本概念、工作原理、主要内建对象等 ,并从多角度阐述了基于 JSP技术的站点设计  相似文献   

16.
建立一个数据密集型的Web站点不是一件容易的事情,该文以本体作为Web站点的语义基础,提出一个分层的Web站点模型指导Web站点的开发。根据模型生成的Web站点不仅易于维护,而且具有语义Web的特征。  相似文献   

17.
本文介绍了一个全新的基于XML的Web开发技术XSP。XSP是一种基于Java和XML的能产生动态Web内容的服务器端语言。使用XSP可以实现Web的静态内容、表现形式和程序逻辑的分离,而这种分离是通过Apache Cocoon实现的。XSP与Cocoon的结合大大提高了站点的开发速度以及站点的可管理性。  相似文献   

18.
挖掘Web日志降低信息搜寻的时间费用   总被引:4,自引:0,他引:4  
如何根据用户的行为信息优化站点的设计是一个重要的研究问题.提出了一种新的支持站点设计优化的Web使用挖掘方案.此方案基于Web日志中的搜寻路径统计用户寻找目标花费的平均时间,用以量化Web页面的搜寻费用.在此基础上提出了一种高效的数据挖掘方法,寻找一组能够有效压缩搜寻路径(降低时间费用)的超链接.实验表明,挖掘的结果能够提供许多有用的信息,帮助管理者及时发现站点设计中存在的问题.  相似文献   

19.
基于多粒度树模型的Web站点描述及挖掘算法   总被引:2,自引:0,他引:2  
田永鸿  黄铁军  高文 《软件学报》2004,15(9):1393-1404
随着Web所拥有的信息量和信息种类的急剧增长,Web站点挖掘对于自动实现特定主题的Web资源发现和分类具有重要的意义.然而现有的Web站点分类或挖掘算法在利用上下文语义信息、去除噪声信息以进一步提高分类准确率等方面还缺乏深入研究.从站点的采样尺寸、分析粒度和描述结构3个方面分析了设计高效的Web站点挖掘算法所需要解决的问题.在此基础上,提出了一种新的Web站点多粒度树描述模型,并描述了包括基于隐Markov树的两阶段分类算法、粒度间上下文融合算法、两阶段去噪程序以及基于熵的动态剪枝策略在内的多粒度Web站点挖掘算法.站点的多粒度描述方法及挖掘算法为多站点查询优化、Web效用挖掘等的深入研究奠定了基础.实验表明,该算法相对于基线系统平均可以提高16%的分类准确率,并减少了34.5%的处理时间.  相似文献   

20.
程舒通 《微机发展》2007,17(9):18-20
用户在访问Web站点时会碰到很多问题,主要原因是Web站点对用户需求缺乏适应性。为了提高Web用户的服务质量和用户的满意度,在用户访问网站点击流形成频繁序列模式的基础上,提出基于距离函数的聚类分析以及基于时间相似度函数的二次聚类分析算法。该算法可以求取频繁序列的相关性和反映用户对网页的兴趣的相似度,对下一步改善Web站点的结构及存在形式使站点达到更好的效果起先导作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号