首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 164 毫秒
1.
自适应超媒体系统探析   总被引:6,自引:0,他引:6  
1.引言二十年来,超媒体已从实验原型发展成为世界上最流行的计算机应用,其中最成功的超媒体系统World Wide Web几乎成为信息高速公路的代名词。随着超媒体系统的类型、规模及复杂性的与日俱增,信息空间日益宠大,如何快速准确地展示用户所需信息成为当前研究的热点。传统的超媒体系统中采用一成不变(one-size-fits-all)的方法提供静态超媒体文档,要求超媒体文档的作者为不同用户撰写不同文档,以适应  相似文献   

2.
在数据挖掘的技术中,Web文档是一种极为重要的网络信息处理技术,怎么样把Web的文档转换成为所需要的数据挖掘的格式,是一项非常重要的课题。  相似文献   

3.
Web文档清洗系统中HTML解析器的开发   总被引:7,自引:0,他引:7  
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典、词法分析器和语法分析器的设计作了详细的讨论  相似文献   

4.
Deep Web数据源聚类与分类   总被引:1,自引:0,他引:1  
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面.传统的搜索引擎由于技术原因不能索引这些信息--Deep Web信息.本文分析了Deep Web查询接口的各种类型,研究了基于查询接口特征的数据源聚类方法和基于聚类结果的数据源分类方法,讨论了从基于规则与线性文档分类器中抽取查询探测集的规则抽取算法和Web文档数据库分类的查询探测算法.  相似文献   

5.
Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征.并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。  相似文献   

6.
基于模糊相关的Web文档分类方法   总被引:2,自引:1,他引:1  
雷景生 《计算机工程》2005,31(24):13-14,17
面对Internet上不断增长的巨大信息量,如何使用户获得有趣的和有用的信息已成为信息检索急需解决的问题。由于Web文档往往具有不确定的特征,使得利用模糊集合理论对信息检索过程的不确定性建立模型成为可能。文章提出了一种基于模糊相关技术的Web文档分类方法,实验结果表明,该方法比基于向量空间模型的Web分类方法有较高的分类精度。  相似文献   

7.
对Web文档进行分类可以较好地解决网上信息杂乱的现象,介绍了Web文档分类的相关知识以及关键技术,并对目前的分类方法进行了总结,对Web文档分类中关联规则挖掘研究现状和主要技术进行了论述,指出了负关联规则在Web文档分类中的发展趋势.  相似文献   

8.
知识抽取技术综述*   总被引:3,自引:0,他引:3  
知识抽取主要研究如何从无语义信息的文档内容中抽取与本体匹配的事实知识,进而实现对Web数据充分、有效的利用,已经成为国内外语义Web领域的研究热点之一。介绍了知识抽取相关技术知识,系统地分析比较了面向英文和中文的知识抽取方法,着重探讨了对中文自然语言文档内容的自动知识抽取方法,指出了目前该类方法的不足,并展望了知识抽取发展的方向。  相似文献   

9.
知识抽取主要研究如何从无语义信息的文档内容中抽取与本体匹配的事实知识,进而实现对Web数据充分、有效的利用,已经成为国内外语义Web领域的研究热点之一。介绍了知识抽取相关技术知识,系统地分析比较了面向英文和中文的知识抽取方法,着重探讨了对中文自然语言文档内容的自动知识抽取方法,指出了目前该类方法的不足,并展望了知识抽取发展的方向。  相似文献   

10.
基于主题的Web文档聚类研究   总被引:9,自引:3,他引:9  
网络资源的不断膨胀和新旧信息的迅速更迭,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类,并能够发现新的信息资源。针对Web文档数据的复杂性,本文提出了通过二次特征提取和聚类的方法,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时,实现了较高质量的Web文档聚类。  相似文献   

11.
集成搜索引擎的文本数据库选择   总被引:8,自引:0,他引:8  
用户需要检索的信息往往分散存储在多个搜索多个搜索引擎各自的数据库里,对普通用户而言,访问多个搜索引擎并从返回的结果中分辨出确实有网页是一件费时费力的工作,集成搜索引擎则可以提供给用户一个同时记问多个搜索引擎人集成环境,集成搜索引擎能将其接收到的用户查询提交给底层的多个搜索引擎进行搜索,作为一种搜索工具,集成搜索引擎具有如WEB查询覆盖面比传统引擎更大,引警有更好的可扩展性等优点,讨论了解决集成搜索引擎的数据库选择问题的多种技术,针对用户提交的查询要求,通过数据库选择可以选定最有可能返回有用信息的底层搜索引擎。  相似文献   

12.
搜索引擎技术的新发展—多元搜索引擎系统   总被引:21,自引:0,他引:21  
在分析传统搜索引擎技术所存在不足的基础上,介绍了搜索引擎发展过程中出现的一种新技术-多元搜索引擎,深入分析了多元搜索引擎系统的组成结构。详细地考察了多元搜索引擎的发展状况,并对多元搜索引擎的系统指标进行了完整的评价。  相似文献   

13.
Metasearch engines offer better coverage and are more fault-tolerant and expandable than single search engines. A metasearch engine is required to post queries with and obtain retrieval results from several other Internet search engines. In this paper, we describe the use of the extensible style language (XSL) to support metasearches. We show how XSL can transform a query, expressed in XML, into different forms for different search engines. We show how the retrieval results could be transformed into a standard format so that the metasearch engine can interpret the retrieved data, filtering the irrelevant information (e.g. advertisement). The proposed structure treats the metasearch engine and the individual search engines as separate modules with a clearly defined communication structure through XSL. Thus, the system is more extensible than coding the structure and syntactic transformation processes. It allows other new search engines to be included just through plug-and-play, requiring only that the new transformation of XML for this search engine be included in the XSL.  相似文献   

14.
基于知识的网页检索工具   总被引:3,自引:0,他引:3  
随着因特网在全球范围的广泛使用,越来越多的人们借助于因特网从事科研和商务活动,而网页检索工具成了人们必不可少的软件工具.然而,目前流行的检索工具大多基于关键字查询,常常出现信息过载或有用信息丢失等现象.造成这一原因主要有两方面:用户提交的查询不能很好地表达他的目的;查询的结果没有建立有效的索引机制,引导人们快速找到有用信息。为此我们提出一种基于知识的网页检索工具(KWSE),它是在已有的检索工具的  相似文献   

15.
元搜索引擎的关键技术   总被引:8,自引:0,他引:8  
元搜索引擎(Met Search Engine),是一种调用其他独立搜索引擎的引擎,是对多个独立搜索引擎的选择调用、优化控制、检索融合.本文简述了元搜索引擎的基本原理,研究了元搜索引擎的几项关键技术,并讨论了它的未来发展方向.  相似文献   

16.
网络上的专业搜索引擎数量众多,普通用户在选择时往往无所适从。文章提出了一个自动的查询导向系统,可以将用户查询自动导向到合适的专业搜索引擎,解决了这个矛盾。  相似文献   

17.
P. Ferragina  A. Gulli 《Software》2008,38(2):189-225
We propose a (meta‐)search engine, called SnakeT (SNippet Aggregation for Knowledge ExtracTion), which queries more than 18 commodity search engines and offers two complementary views on their returned results. One is the classical flat‐ranked list, the other consists of a hierarchical organization of these results into folders created on‐the‐fly at query time and labeled with intelligible sentences that capture the themes of the results contained in them. Users can browse this hierarchy with various goals: knowledge extraction, query refinement and personalization of search results. In this novel form of personalization, the user is requested to interact with the hierarchy by selecting the folders whose labels (themes) best fit her query needs. SnakeT then personalizes on‐the‐fly the original ranked list by filtering out those results that do not belong to the selected folders. Consequently, this form of personalization is carried out by the users themselves and thus results fully adaptive, privacy preserving, scalable and non‐intrusive for the underlying search engines. We have extensively tested SnakeT and compared it against the best available Web‐snippet clustering engines. SnakeT is efficient and effective, and shows that a mutual reinforcement relationship between ranking and Web‐snippet clustering does exist. In fact, the better the ranking of the underlying search engines, the more relevant the results from which SnakeT distills the hierarchy of labeled folders, and hence the more useful this hierarchy is to the user. Vice versa, the more intelligible the folder hierarchy, the more effective the personalization offered by SnakeT on the ranking of the query results. Copyright © 2007 John Wiley & Sons, Ltd.  相似文献   

18.
刘登洪  徐贤 《计算机科学》2017,44(10):234-236, 258
随着网络的普及,网上检索成为了人们获取信息的主要方式。目前的搜索引擎相对独立,覆盖范围比较有限。相比之下,元搜索能够更好地满足用户的检索需求。当用户在元搜索提供的统一界面中输入一个查询时,元搜索会将处理后的用户请求发送给相关的成员搜索引擎。但是一个重要的问题是如何识别出潜在的搜索引擎以便更好地处理用户的请求。鉴于此提出了一种基于遗传算法的选择机制,该方法将各个成员搜索引擎的权重考虑在内。实验结果表明,该方法确实能够提高引擎选择中的效率和精度。  相似文献   

19.
Rank aggregation mechanisms have been used in solving problems from various domains such as bioinformatics, natural language processing, information retrieval, etc. Metasearch is one such application where a user gives a query to the metasearch engine, and the metasearch engine forwards the query to multiple individual search engines. Results or rankings returned by these individual search engines are combined using rank aggregation algorithms to produce the final result to be displayed to the user. We identify few aspects that should be kept in mind for designing any rank aggregation algorithm for metasearch. For example, generally equal importance is given to the input rankings while performing the aggregation. However, depending on the indexed set of web pages, features considered for ranking, ranking functions used etc. by the individual search engines, the individual rankings may be of different qualities. So, the aggregation algorithm should give more weight to the better rankings while giving less weight to others. Also, since the aggregation is performed when the user is waiting for response, the operations performed in the algorithm need to be light weight. Moreover, getting supervised data for rank aggregation problem is often difficult. In this paper, we present an unsupervised rank aggregation algorithm that is suitable for metasearch and addresses the aspects mentioned above.We also perform detailed experimental evaluation of the proposed algorithm on four different benchmark datasets having ground truth information. Apart from the unsupervised Kendall-Tau distance measure, several supervised evaluation measures are used for performance comparison. Experimental results demonstrate the efficacy of the proposed algorithm over baseline methods in terms of supervised evaluation metrics. Through these experiments we also show that Kendall-Tau distance metric may not be suitable for evaluating rank aggregation algorithms for metasearch.  相似文献   

20.
Searching desired data on the Internet is one of the most common ways the Internet is used. No single search engine is capable of searching all data on the Internet. The approach that provides an interface for invoking multiple search engines for each user query has the potential to satisfy more users. When the number of search engines under the interface is large, invoking all search engines for each query is often not cost effective because it creates unnecessary network traffic by sending the query to a large number of useless search engines and searching these useless search engines wastes local resources. The problem can be overcome if the usefulness of every search engine with respect to each query can be predicted. We present a statistical method to estimate the usefulness of a search engine for any given query. For a given query, the usefulness of a search engine in this paper is defined to be a combination of the number of documents in the search engine that are sufficiently similar to the query and the average similarity of these documents. Experimental results indicate that our estimation method is much more accurate than existing methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号