共查询到20条相似文献,搜索用时 100 毫秒
1.
2.
Web信息抽取 总被引:14,自引:0,他引:14
With the tremendous amount of information available on the Web,the ability to quickly obtain information has become a crucial problem.It is not enough for us to acquire information only with Web information retrieval technology.Therefore more and more people pay attention to Web information extraction technology.This paper first introduces some concepts of information extraction technology,then introduces and analyzes several typical Web information extraction methods based on the differences in extraction patterns. 相似文献
3.
Web搜索结果挖掘的研究与应用 总被引:3,自引:1,他引:3
Internet上的信息是日益增加的,为了简单地获取所需要的信息和共享Internet上的信息资源,就必须要找到好的Web挖掘方法,其中基于加权统计的Web挖掘方法是一种简单的容易实现的方法。文章重点介绍了基于加权统计的Web挖掘方法和元搜索引擎,并实现智能搜索引擎,文章着重说明了基于加权统计的Web挖掘方法及算法中所使用的数据结构。 相似文献
4.
随着Web技术的发展,越来越多的信息需要通过Deep Web来获取。文章对Deep Web搜索进行了全面的分析.针对传统搜索引擎的缺陷提出相应的搜索策略。最后介绍了一些有效的搜索工具。 相似文献
5.
一种Web信息的启发式检索方法 总被引:3,自引:0,他引:3
Internet是一个开放的全球分布式网络 ,资源分布在世界上不同的地方 ,并且网上资源没有统一的管理和结构 ,导致了信息搜索的困难 .同时 ,Internet是一个有巨大价值的信息源 .因此 ,研究一种快速、高效的 Web信息检索方法是很有实用意义的 .本文提出了一种用相关度及用户兴趣作为评价函数在 Internet上进行启发式搜索及在此基础上利用机器学习有效的实现搜索知识重用的方法 相似文献
6.
利用XML技术进行Web内容挖掘 总被引:6,自引:0,他引:6
互联网的普及,人们频繁地在网络上寻找信息.如何有效地在Web上进行数据挖掘,成为研究的热点,而作为新一代互联网数据组织和交换的事实标准--XML,被提出用于Web数据挖掘,本文提出了一个基于XML的Web内容挖掘系统模型. 相似文献
7.
基于Web挖掘的智能门户搜索引擎的研究 总被引:31,自引:0,他引:31
搜索引擎是人们在Internet上快速获得信息的重要工具之一,但是由于中文自身的特点,使得检索结果的准确性和相关性不是很高,将Web挖掘技术应用到搜索引擎领域,从而产生智能搜索引擎,将会给用户提供一个高效、准确的Web检索工具。文章首先介绍了搜索引擎的工作原理和相关概念,然后介绍了Web挖掘的定义、分类和应用。最后,详细讨论了Web挖掘技术在智能搜索引擎的重要应用。 相似文献
8.
Web元搜索引擎的改进 总被引:22,自引:0,他引:22
文中通过简单介绍当前Web搜索引擎的工作机制及其特点,总结了其存在的缺陷,并提出一种新的Web元搜索引擎的体系结构。这种体系结构使用Multi-agents来处理Web信息检索,比常规的元搜索引擎更具个性化和高质量的检索结果。 相似文献
9.
10.
Web 2.0的出现使网络中的信息量呈井喷局势,给搜索引擎带来了新的挑战,目前的搜索引擎已经不能满足大多数用户的需求。针对这种情况,首先分析了当前搜索引擎的现状和优缺点,其次针对新的情况下的用户需求作出分析,参考和利用了当前Web 2.0的一些先进技术,提出一个基于Web 2.0社区的综合搜索引擎。 相似文献
11.
随着大型专用信息网络的应用,网络中信息数量急剧膨胀,这也给信息内容的搜索与监测带来挑战.针对这种情况提出了一种基于多Agent的分布式并行信息搜索策略,引入了节点搜索度和节点搜索回报等概念,从而达到协调多个Agent并行工作,以最短的时间和最小的资源占用完成对众多信息节点和海量信息的搜索任务,同时也可以实现对部分信息节点的监控.最后给出了这种多Agent系统的结构模式以及相应搜索策略的描述和实现算法. 相似文献
12.
基于内容和链接分析的主题爬虫策略 总被引:3,自引:1,他引:2
在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的爬行策略,并实现了一个主题爬虫。通过与传统策略的对比,可以得出该策略既可以利用链接分析扩大某个主题的资源覆盖度,又可以保证搜索结果与主题的高度相关。 相似文献
13.
本文以德州电业局创一流管理信息系统为例,详细介绍了企业Web站点资料上传,查询的设计与实现方法。 相似文献
14.
信息技术改革的浪潮已经冲击到各个行业的信息管理层面,在实际操作中计算机信息部门的管理能力,已经
逐渐跟不上不断更新发展的信息技术了,这也是对先进的信息技术的一种严重浪费。只有提高对信息技术管理的能力,才能
使信息技术的优势达到最大化,使其更好地服务与各个行业。本文针对当代计算机信息管理存在的问题,提出提高计算机信
息管理能力的优势和提高计算机信息管理能力的有效策略,以帮助各行业有效提高计算机信息管理能力。 相似文献
15.
用信息-摘要算法提高Web信息检索效率的研究 总被引:1,自引:0,他引:1
针对常用搜索引擎返回给用户的信息中包含大量重复网页的缺陷,提出了一种基于信息-摘要算法的去除重复网页算法。由于算法的成熟,该算法易实现,可移植性强。实验证明该算法能有效地去除常用搜索引擎返回的重复网页,从而为Internet用户提高信息检索效率,具有较强的实用价值。 相似文献
16.
海洋天然产物数据库包含海洋天然产物的分子结构及其生物来源、生物活性、生物种类、物理化学参数和参考文献等信息 ,目前约有 110 0 0条记录。海洋天然产物信息Web检索系统实现了基于Internet的检索 ,本文介绍了其相应的开发平台、相关技术以及Web应用 相似文献
17.
用信息-摘要算法提高Web信息检索效率的研究 总被引:1,自引:0,他引:1
针对常用搜索引擎返回给用户的信息中包含大量重复网页的缺陷,提出了一种基于信息-摘要算法的去除重复网页算法。由于算法的成熟,该算法易实现,可移植性强。实验证明该算法能有效地去除常用搜索引擎返回的重复网页,从而为Intenret用户提高信息检索效率,具有较强的实用价值。 相似文献
18.
19.
Abstract. We study Web Caching when the input sequence is a depth first search traversal of some tree. There are at least two good
motivations for investigating tree traversal as a search technique on the WWW: First, empirical studies of people browsing
and searching the WWW have shown that user access patterns commonly are nearly depth first traversals of some tree. Secondly
(as we will show in this paper), the problem of visiting all the pages on some WWW site using anchor clicks (clicks on links)
and back button clicks—by far the two most common user actions—reduces to the problem of how best to cache a tree traversal
sequence (up to constant factors).
We show that for tree traversal sequences the optimal offline strategy can be computed efficiently. In the bit model, where
the access time of a page is proportional to its size, we show that the online algorithm LRU is (1 + 1/ɛ) -competitive against an adversary with unbounded cache as long as LRU has a cache of size at least (1+ ɛ) times the size of the largest item in the input sequence. In the general model, where pages have arbitrary access times
and sizes, we show that in order to be constant competitive, any online algorithm needs a cache large enough to store Ω(log n) pages; here n is the number of distinct pages in the input sequence. We provide a matching upper bound by showing that the online algorithm
Landlord is constant competitive against an adversary with an unbounded cache if Landlord has a cache large enough to store
the Ω(log n) largest pages. This is further theoretical evidence that Landlord is the ``right' algorithm for Web Caching. 相似文献
20.
一种改善Web Qos区分服务性能的控制策略 总被引:1,自引:1,他引:0
尹琦 《计算机工程与应用》2006,42(3):143-145
为了实现基于Web服务器的区分服务,改善服务器性能,文章采用了基于优先级的请求分配策略和资源监控与调度机制来保证Web服务器的服务质量,在此基础上设计了一种基于PID反馈控制机制实现接纳请求的优先级调度方案,并用Matlab进行了仿真,验证了该方法的正确性。 相似文献