首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
一个面向Internet数据管理的系统模型   总被引:2,自引:0,他引:2  
1.引言随着Internet的发展,查询网上信息变得越来越重要,常用的方法是使用诸如Yahoo,Infoseek等搜索引擎来查询信息。一旦用户提出需要查询内容的关键词,搜索引擎就根据关键词来确定查询的内容。不足之处是因为搜索引擎忽略了网页的内部结构,所以会导致用户不能获得准确的信息。许多搜索引擎有如下明显的缺点:(1)网页中较为具体的信息不能直接获取。(2)查询语言描述能力差。鉴于上述缺陷,研究人员借鉴一些数据库技术进行WWW上信息的查询。但它的不足之处是:WWW上的数据差异大,数据结构不规则,因此关系数据库或面向对象数据库缺乏足够的灵活性来表示WWW上的数据。  相似文献   

2.
基于用户兴趣的搜索引擎   总被引:1,自引:0,他引:1  
随着WWW的出现和发展,Internet上出现的信息迅速增长.如何从大量的信息中获取有用的信息,正成为信息领域的关键技术.传统的搜索引擎没有考虑不同用户的兴趣,因此搜索出来的结果往往无法满足不同用户的特定需求.提出一种用户兴趣模型,能够有效表示用户兴趣,并对传统搜索引擎的搜索结果进行匹配度计算,从而将符合用户兴趣的结果返回给用户.基于这种模型开发了一个基于用户兴趣的法律领域的搜索引擎MyLaw.  相似文献   

3.
随着中医药行业的快速发展,中医药相关数字化资源急剧增加,传统的全文搜索引擎因专业性不够强、内容繁多等问题导致用户无法快速方便地找到所需信息.为此,设计并实现了一款面向中医药领域的垂直搜索引擎具有重要的意义和价值.采用Heritrix与Lucene等技术构建中医药垂直搜索引擎——杏林搜索,重点介绍了杏林搜索的设计与实现,包括网络爬虫模块、网页解析模块、索引库和Web端等.实际应用效果表明,杏林搜索可以为用户提供更加快速、专业的中医药资源检索服务.  相似文献   

4.
vincent 《电脑》2005,(2):60-60
作为全球最大的网络搜索引擎.Google强大的搜索功能令我们折服。但Google并不满足于目前自身的搜索功能,于是再次推出了网页翻译、天气预报查询、中英文词典等五大新功能。为求打造无人匹敌的网络搜索引擎。令用户可以更方便、更快的搜索到所需要的信息。  相似文献   

5.
1 引言 WWW搜索引擎(Search Engine)利用网络蜘蛛收集WWW上的相关文档信息,通过分析、处理后,将相应的文档信息加入本地信息库,在用户给定其所关心的查询条件后,利用WWW搜索引擎所提供的检索查询系统从信息库中检索出符合用户要求的信息列表,并计算每条信息与用户要求的查询条件的相关程度,按照倒排序的方式返回给用户,使用户能够快速定位到他所关心的信息。由于搜索引擎提供了这样一种工具,使得用户可以在众多的网页信息中能够快速定  相似文献   

6.
针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的Web Robot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的Web Robot的方法,改进后的Web Robot能够更有效地发现和搜集信息.为搜索引擎进行信息搜集,高效、稳定的Web Robot保证了为用户提供的网上信息的全面性和实时性.  相似文献   

7.
搜索引擎的Web Robot技术与优化   总被引:4,自引:0,他引:4  
崔泽永  常晓燕 《微机发展》2004,14(4):99-102
针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的Web Robot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的Web Rohot的方法,改进后的Web Robot能够更有效地发现和搜集信息。为搜索引擎进行信息搜集,高效、稳定的Web Rohot保证了为用户提供的网上信息的全面性和实时性。  相似文献   

8.
用户通过检索平台能获得大量信息,但搜索结果往往会出现主题漂移、偏重旧网页的现象,不能满足用户实际需求.为改善这种现象,提出了一种改进的PageRank算法.该算法采用BM25相似度算法对主题相似度进行计算,根据相似度评分来赋予不同的影响权重,可以提相似度高的网页的排名;利用网页在搜索引擎周期内被搜索到的次数来表示网页存...  相似文献   

9.
提出一种解决信息检索中信息过载问题的方案.通过对用户搜索习惯分析,发现用户对网页的选取主要依据搜索返回的网页摘要信息.分析摘要信息,运用人工智能中实例学习理论,推断用户的搜索目的.通过实例证明,该方案应用于搜索引擎,可以提高搜索引擎的查准率和智能性.  相似文献   

10.
在浩如烟海的Internet中找出自己所需的中文信息并不是一件容易的事,应运而生的中文搜索引擎可帮您的大忙。通过搜索引擎,您可以穿梭于放置在不同地点、隶属于不同网络的WWW网页,来获取您需要的各种信息。本文将分三次介绍时下各种流行的中文搜索引擎。  相似文献   

11.
Nowadays, people frequently use different keyword-based web search engines to find the information they need on the web. However, many words are polysemous and, when these words are used to query a search engine, its output usually includes links to web pages referring to their different meanings. Besides, results with different meanings are mixed up, which makes the task of finding the relevant information difficult for the users, especially if the user-intended meanings behind the input keywords are not among the most popular on the web.  相似文献   

12.
RL_Spider:一种自主垂直搜索引擎网络爬虫   总被引:1,自引:0,他引:1  
在分析相关spider技术的基础上,提出了将强化学习技术应用到垂直搜索引擎的可控网络爬虫方法。该方法通过强化学习技术得到一些控制经验信息,根据这些信息来预测较远的回报,按照某一主题进行搜索,以使累积返回的回报值最大。将得到的网页存储、索引,用户通过搜索引擎的搜索接口,就可以得到最佳的搜索结果。对多个网站进行主题爬虫搜索,实验结果表明,该方法对于网络的查全率和查准率都具有较大的提高。  相似文献   

13.
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于主题的去重方法。该方法通过组块的思想提取出网页正文的主题,然后进行主题的相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。  相似文献   

14.
Web spam denotes the manipulation of web pages with the sole intent to raise their position in search engine rankings. Since a better position in the rankings directly and positively affects the number of visits to a site, attackers use different techniques to boost their pages to higher ranks. In the best case, web spam pages are a nuisance that provide undeserved advertisement revenues to the page owners. In the worst case, these pages pose a threat to Internet users by hosting malicious content and launching drive-by attacks against unsuspecting victims. When successful, these drive-by attacks then install malware on the victims’ machines. In this paper, we introduce an approach to detect web spam pages in the list of results that are returned by a search engine. In a first step, we determine the importance of different page features to the ranking in search engine results. Based on this information, we develop a classification technique that uses important features to successfully distinguish spam sites from legitimate entries. By removing spam sites from the results, more slots are available to links that point to pages with useful content. Additionally, and more importantly, the threat posed by malicious web sites can be mitigated, reducing the risk for users to get infected by malicious code that spreads via drive-by attacks.  相似文献   

15.
田莉霞 《软件》2020,(4):67-71
随着信息化社会的来临,各种互联网技术应运而生,数字信息已然成为当今社会中商家必争的宝贵财富资源。众多数字信息中,怎样帮助用户精准筛选出有效信息是当前搜索引擎所面临的巨大挑战。传统的互联网搜索仅仅是基于本文的链接,搜索时仅单纯的给出包含搜索词的网页,让用户去网页中寻找答案,这种检索方法耗时耗力,还不能准确给出用户想要的答案。由此谷歌率先提出以知识图谱(Knowledge Graph)为技术基础的的搜索引擎,这是搜索引擎界的一次重大变革。它以图的形式表现客观世界中的概念和实体及其之间关系,现如今广泛应用于语义搜索、智能问答、决策支持等智能服务领域。本文针对什么是知识图谱、如何表示构建知识图谱及知识图谱的主要应用作了详细阐述,希望更多的读者可以了解知识图谱及其对人工智能发展的巨大贡献。  相似文献   

16.
Previous research indicates that web users rely to a great extent on the ranking provided by the search engine and predominantly access the first few web pages presented. In case that the information sources presented in the top of the search engine results page (SERP) are of rather low trustworthiness, this might lead to a biased or incomplete view of the topic—especially when dealing with controversial issues. Study 1, thus, systematically investigated whether participants who were asked to search for an unfamiliar and controversial medical issue accessed fewer trustworthy information sources and consequently included less information from trustworthy pages in their argumentation when the search results were ranked from least to most trustworthy on a Google-like SERP than when they were ranked from most to least trustworthy. Results from Study 1 confirmed these assumptions. Furthermore, Study 2 showed that when the same materials were presented in a grid interface, the impact of the position of the search results on their selection was substantially reduced. Irrespective of whether the most trustworthy search results were presented in the top or the bottom row of the grid interface, users predominantly selected the most trustworthy search results from the SERP and included the same amount of information from trustworthy pages in their argumentation.  相似文献   

17.
网页去重方法研究   总被引:2,自引:1,他引:1       下载免费PDF全文
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行较准确的检测。  相似文献   

18.
We present a new next generation domain search engine called MedicoPort. MedicoPort is a medical search engine designed for the users with no medical expertise. It is enhanced with the domain knowledge obtained from Unified Medical Language System (UMLS) to increase the effectiveness of the searches. The power of the system is based on the ability to understand the semantics of web pages and the user queries. MedicoPort transforms a keyword search into a conceptual search. Through our system we present a topical web crawling technique and indexing techniques empowered by the semantics information. MedicoPort aims to generate maximum output with semantic value using minimum input from the user. Since MedicoPort is designed to help people seeking information about health on the web, our target users are not medical specialists who can effectively use the special jargon of medicine and access medical databases. Medical experts have the advantage of shrinking the answer set by expressing several terms using medical terminology. MedicoPort provides the same advantage to its users through the automated use of the medical domain knowledge in the background. The results of our experiments indicate that, expanding the queries with domain knowledge, such as using the synonyms and partially or contextually relevant terms from UMLS, increase dramatically the relevance of an answer set produced by MedicoPort and the number of retrieved web pages that are relevant to the user request.  相似文献   

19.
随着互联网技术的飞速发展,网页数量急剧增加,搜索引擎的地位已经不可取代,成为人们使用Internet的入口。网络蜘蛛作为搜索引擎的信息来源是搜索引擎必不可少的组成部分。介绍网络蜘蛛设计中的关键技术。另外,随着用户个性化需求越来越强以及网页数量的急剧增加导致通用搜索引擎无法满足特定用户的需求,专业搜索引擎得到快速的发展。同时对于主题爬虫的研究也有很大的突破和进展。主题爬虫有别于通用爬虫,通用爬虫注重爬取的完整性,而主题爬虫强调网页与特定主题的相关性。同时对主题爬虫的研究现状进行介绍和总结。  相似文献   

20.
随着Web技术的迅速发展,提供个性化服务的搜索引擎技术受到用户的广泛关注,网页排序是其中的关键技术之一。本文利用PageRank算法对原有的Lucene网页排序进行了改进,设计并实现了关于手机信息搜索的个性化搜索引擎。实验结果证明,改进后的排序算法能够较好地提高信息检索的准确度,为用户带来了优于Lucene自身排序的搜索体验。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号