首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
随着Web信息的快速增长,如何对Web信息进行检索,获取有价值的信息,已经成为Web信息检索的重点研究内容.本文设计一种可扩展的蜘蛛程序Spider,运用负栽均衡策略调度分布Spider的协同工作,实现Web站点页面的分布式下载,在获取页面信息的同时,获取站点的拓扑结构.  相似文献   

2.
语义检索在电子商务中的应用研究   总被引:2,自引:0,他引:2  
谢圣献  谢光 《微计算机信息》2008,24(12):135-136
本文在介绍了语义Web的几种语言基础上,给出了电子商务核心语言的分层结构,并把语义检索这种智能型的检索有效地运用到电子商务中,从而使电子商务网站中的信息资源能被用户便捷、准确地获取.  相似文献   

3.
云计算是一种共享基础架构的方法,它将巨大的系统池连接在一起以提供各种IT服务。Web上蕴藏的海量信息为数据挖掘提供了无比丰富的资源,对Web信息进行有效的知识发现具有极大意义。该文介绍了一种基于云计算技术的Web结构挖掘算法:基于MapReduce的PageRank算法,使用该算法对网站的物理及逻辑结构进行优化,将有助于用户将网站定位到相关主题的权威站点,从而获得更高的PR值,以提高电子商务网站在搜索引擎中的排名,提高检索结果的质量,提高网站的访问率,提升网站的档次。  相似文献   

4.
一种利用链接信息检索关键资源的算法   总被引:2,自引:0,他引:2  
随着互联网的发展,基于Web的信息处理技术越来越受到人们的重视,也是当前研究的前沿课题。本文探讨的是如何在现有检索技术的基础上,利用Web网页的链接信息,自动地得到更高质量的检索结果——关键资源。本文提出一种同时利用Web网页的结构和内容信息以及链接信息的新方法:先结合网页的结构信息和内容评分得到网页的文档评分,然后基于网页出链的文档评分计算网页的链接评分。实验表明,本文的方法减少了无用链接的干扰,比单纯利用链接信息的效果好得多。  相似文献   

5.
在分析了网站拓扑结构与Web使用挖掘以及个性化推荐之间关系的基础上,提出了一种超链接结构的分类方法,通过对网站结构信息的分析和处理,得到网站的拓扑结构并进行存储,从而解决了单个网站中Web使用挖掘及推荐中的若干实际问题.  相似文献   

6.
一种面向主题的Web知识检索方法   总被引:1,自引:0,他引:1  
知识检索研究如何从数据和信息中抽取知识.在数据和信息日益增长的今天,知识检索显得尤为重要.现有的知识检索主要以事先构造好的知识库为基础,需要通过专家来构建和维护用于检索的知识库.然而,人工构建知识库非常耗时而且代价很高,而且,基于事先构造好的知识库的检索结果也被局限于知识库覆盖的范围,不具有动态性和时变性.本文提出了一种基于Web的面向主题的知识检索方法.该方法一方面以开放动态的Web信息为基础,支持动态即时的知识检索;另一方面,以用户选定的主题为中心,从Web信息中动态获取知识,构成与用户主题相关的知识检索结果,不局限于某个特定领域.  相似文献   

7.
知识检索研究如何从数据和信息中抽取知识,在数据和信息日益增长的今天,知识检索显得尤为重要。现有的知识检索主要以事先构造好的知识库为基础,需要通过专家来构建和维护用于检索的知识库。然而,人工构建知识库非常耗时而且代价很高,而且,基于事先构造好的知识库的检索结果也被局限于知识库覆盖的范围,不具有动态性和时变性。本文提出了一种基于Web的面向主题的知识检索方法。该方法一方面以开放动态的Web信息为基础,支持动态即时的知识检索;另一方面,以用户选定的主题为中心,从Web信息中动态获取知识,构成与用户主题相关的知识检索结果,不局限于某个特定领城。  相似文献   

8.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。  相似文献   

9.
通过对网页源文件的代码进行分析、设计信息提取的算法,目的是替代人工进行网站相关信息的获取,避免重复性劳动。首先对现有的两种Web结构进行比较分析,然后针对每一种Web结构提出信息提取的方案,接下来以日本著名新闻网站NHK为例,对上述方案进行验证和代码实现,最后对系统的功能扩充进行更高层次的展望。  相似文献   

10.
朱德利 《计算机工程与设计》2006,27(23):4447-4449,4460
XML适合于解决Web数据挖掘中数据库环境异构和信息的半结构化等难题。Web结构挖掘是整个Web信息挖掘的重要组成部分。用XML来完成Web结构信息的预处理是将Web结构信息规范化并转化为XML数据,并以此明确网站的文件构成、组织方式、内容构成和内容的超链关系。提出基于XML的Web结构挖掘系统的实现过程,解决了XML文件通过标准接口读入到挖掘程序的关键技术。  相似文献   

11.
用自适应机制改进Web信息缓存管理的性能   总被引:5,自引:1,他引:4  
目前,各种缓存(caching)技术被广泛应用于Web信息获取过程中,以求减少Internet的网络负载和提高响应速度,如何改进缓存技术从某种意义上成为制约Web信息获取中的特点,然后提出了采用自适应机制改进Web信息缓存管理性能的方法,同时给出了该方法的一些具体实现细节,该方法被应用于基于企业主题的Web信息获取系统(WebCapture)的设计开发过程中,自适应机制的Web信息缓存管理主要采用  相似文献   

12.
基于语义的Web信息检索   总被引:2,自引:0,他引:2  
用户要从网络中得到所需的信息一般是通过各种搜索引擎。但是现有的搜索引擎都存在着检索相关度不高等问题。随着语义Web概念的提出及相关技术的发展,基于语义的Web信息检索逐渐成为了语义Web研究的热点。给出了传统搜索引擎存在的问题,从理论上分析了如何将语义Web技术融入Web信息检索中去,并在理论分析的基础上给出了基于语义的Web信息检索的模型。  相似文献   

13.
基于潜在语义索引的Web信息预测采集过滤方法   总被引:6,自引:0,他引:6  
Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向.提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算的基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析、对未知网页的相关性预测来控制信息采集过程.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。  相似文献   

14.
针对由模板生成的购物信息网页,且根据其网页信息量大,网页结构复杂的特点,提出了一种不使用复杂的学习规则,而将购物信息从模板网页中抽取出来的方法。研究内容包括定义网页模板和网页的信息抽取模板,设计用于快速构建模板的模板语言,并提出一种基于模板语言抽取内容的模型。实验结果表明,在标准的450个网页的测试集下,所提方法的召回率相比抽取问题算法(EXALG)提高了12%;在250个网页的测试集下,召回率相比基于视觉信息和标签结构的包装器生成器(ViNTs)方法和增加自动信息抽取和视觉感知(ViPER)方法分别提升了7.4%,0.2%;准确率相比ViNTs方法和ViPER方法分别提升了5.2%,0.2%。基于快速构建模板的信息抽取方法的召回率和准确率都有很大提升,使得购物信息检索和购物比价系统中的网页分析的准确性和信息召回率得到很大的改进。  相似文献   

15.
网络信息的检索与挖掘回顾   总被引:1,自引:0,他引:1  
随着互联网的蓬勃发展,海量的网络信息成为了迄今为止最大规模的数据资源。如何利用海量网络信息,为人们提供智能应用,更好的解决人们的信息需求,成为了互联网领域的挑战性问题,也催生了对海量网络信息检索与挖掘的广泛研究。该文从信息表达、信息检索与信息挖掘三个方向入手,结合近年来对网络信息相关领域的研究与实践,对网络信息检索与挖掘的发展变化历程、目前存在的问题以及未来的发展趋势进行总结和分析。  相似文献   

16.
语义检索及其关键技术研究   总被引:2,自引:0,他引:2  
张娜  李宝敏 《微机发展》2006,16(11):22-25
传统的基于关键字的搜索引擎由于忽视了关键词本身所含的语义信息而得到较低的查全率和查准率。文中结合万维网的具体特点,提出了基于语义万维网的智能信息检索系统的功能结构,详细描述了智能信息检索系统的设计思想和检索流程。并且对智能检索模型中所涉及到的若干关键技术进行了分析研究。为智能信息检索系统的顺利实施奠定了良好的基础。  相似文献   

17.
基于兴趣模型的WEB信息预测采集过滤方法   总被引:2,自引:0,他引:2  
Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向。该文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法。这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对Web站点结构进行分析的基础上,通过对网页的相关度的预测来控制信息的采集。在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。  相似文献   

18.
Search has become a hot topic in Internet computing, with rival search engines battling to become the de facto Web portal, harnessing search algorithms to wade through information on a scale undreamed of by early information retrieval (IR) pioneers. This article examines how search has matured from its roots in specialized IR systems to become a key foundation of the Web. The authors describe new challenges posed by the Web's scale, and show how search is changing the nature of the Web as much as the Web has changed the nature of search.  相似文献   

19.
A masss of heterogeneous,distributed and dynamic information on the World Wide Web(the Web) has resulted in “information overload“ .It‘s an important and urgent reserach issue to provide users with effective information retrieval service on the Web.Web search enginees attempt to solve this problem,yet their effect is far from satisfying.In this paper,a distributed and cooperative strategy for information retrieval on the Web is proposed to substitute the centralized mode adopted by the current search engines.Then a new information retrieval system model IRSM is presented.which supports the retrieval of metadata about web documents and uses Z39.50 standard protocol to unify the heterogeneous interfaces of uments and uses Z39.50 standard protocol to unify the heterogeneous interfaces of different systems.Based on that,a distributed and cooperative information refieval framework,called DCIRF,is designed to help users in fast and effective information retrieval on the Web.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号