首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于垂直搜索技术的搜索引擎解决方案   总被引:1,自引:0,他引:1  
搜索引擎是互联网检索技术的核心,随着互联网的迅速发展,目前的综合搜索引擎已无法满足用户的需求,这就成就了垂直搜索引擎的蓬勃发展,但处于发展初期的垂直搜索引擎还有很多不足,本文提出了一种基于垂直搜索技术的搜索引擎解决方案,以提高搜索引擎的工作效率。  相似文献   

2.
智能门户搜索引擎技术   总被引:2,自引:0,他引:2  
随着Web息量迅猛增长.传统搜索引擎所查询到的结果由于检索的内容过多,从而造成用户检索到的信息准确度不高,基于智能门户搜索引擎技术的研究已成为搜索引擎发展的新主题。该文详细介绍了智能门户搜索引擎技术,并在此基础上设计了一个智能门户搜索引擎的系统模型(Domain-based Seal-ch Engine,DBSE),该模型采用了多Agent技术以帮助用户快速有效地挖掘有用信息。  相似文献   

3.
Web搜索引擎技术综述   总被引:3,自引:0,他引:3  
在现代网络飞速发展的带动下,搜索引擎技术引起了广泛的研究.从Web搜索引擎的背景、定义、分类、工作原理、网页信息采集技术.以及发展趋势方面来做一个简要的综述.来介绍国内外主要的搜索引擎.  相似文献   

4.
网络技术越来越普及,搜索引擎也有了前所未有的发展,通过对搜索引擎的发展、分类等以及特点的分析,提出未来我国搜索引擎的发展趋势  相似文献   

5.
本文将首先从垂直搜索引擎的概念以及垂直搜索引擎与通用搜索引擎的对比方面进行入手分析,其次是针对垂直搜索引擎的工作原理进行分析研究,最后从垂直搜索引擎的发展前景进行阐述。随着搜索引擎技术发展的不断完善,相信垂直搜索引擎在未来的发展潜力会越来越大,并对整个搜索引擎行业起到积极的促进作用。  相似文献   

6.
基于元搜索引擎的研究   总被引:1,自引:0,他引:1  
元搜索引擎通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制.介绍了元搜索引擎分类与实现技术,结合中外元搜索引擎的实例,对使用元搜索引擎存在的问题、选择和设计元搜索引擎及元搜索引擎的发展进行分析、探讨.  相似文献   

7.
中文搜索引擎的原理及相关技术分析   总被引:1,自引:0,他引:1  
本文介绍了中文搜索引擎的分类、工作原理及其相关技术,通过分析现有网络机器人相关技术、搜索引擎排序算法等技术存在的优缺点,提出了未来搜索引擎将向专业化.、个性化、区域化搜索方向发展,这对今后搜索引擎开发具有重要的理论和现实指导意义。  相似文献   

8.
曾定山 《网友世界》2012,(15):28-29
介绍了一种新型的校园网络环境下的搜索引擎。从搜索引擎所需技术的各个方面对这种搜索引擎的架构,具体实现方法进行详细的阐述。包括最新的P2P技术,网络架构,搜索引擎系统架构,中文分词技术,数据提交,用户接口等等。侧重介绍了这种搜索引擎的实现模型和原理,具体实现环节还需要详细的实践和理论考证。  相似文献   

9.
周凤丽  林晓丽 《微机发展》2012,(1):140-142,160
互联网的快速发展也使搜索引擎不断的发展着,而搜索引擎逐渐转向商业化运行,使得搜索引擎的技术细节越来越隐蔽。文章研究和分析了搜索引擎工具Lucene的原理、模型和索引器,设计了一个搜索引擎系统。该系统采用了非递归的方式负责Web站点的网页爬取以及爬取过程中URL链接的存储、处理等,并通过多线程技术管理多个抓取线程,实现了并发抓取网页,提高了系统的运行效率。最后采用JSP技术设计了一个简易的新闻搜索引擎客户端,系统可以稳定运行,基本符合搜索引擎原理的探索,具有一定的现实意义。  相似文献   

10.
本文针对传统搜索引擎在搜索引擎的查全率和查准率方面的弱点,分析了站内搜索的重要性,提出了一种基于网站站内的机器人搜索引擎,并具体阐述了基于机器人综合式搜索引擎的网站站内搜索引擎的技术实现方式.该搜索引擎能够快速查找用户所需的信息,最大程度地满足用户需求.  相似文献   

11.
当前主流的搜索引擎主要是以与用户查询的相关度来顺序返回搜索结果的,用户往往需要花费较长的时间从结果列表中进行选择.为了解决这个问题,针对搜索引擎返回的标题和摘要信息,构造有向图表示,并在此基础上实现了一种高效的网页聚类原型系统(efficient web clustering system,EWCS).该系统将搜索引擎返回的结果按照一定的标准分类呈现给用户,用户选择感兴趣的类别进行浏览,从而较好地满足了用户对查询速度和准确度的需求.试验结果表明该算法具有一定的可行性和较高的准确率.  相似文献   

12.
Abstract

With the explosion of the World Wide Web, numerous search engines have proliferated online, claiming to be the best, fastest, or most accurate. Though each product is slightly different from the others in its presentation and search architecture, what all are providing is keyword searching of the Web's millions of pages. However, there are circumstances, just like in a library catalog, where an individual may want to perform a known-item search rather than a keyword search. The purpose of this paper was to discover whether known-item searches are possible with some of the Web's most popular search engines, and if the results retrieved using such a search would be satisfactory to a user. The author tested and compared four major Web search engines, using the most sophisticated search techniques available. Thirty-nine sites were selected and searched by title, and ranked according to the relevance and order of the displayed results.  相似文献   

13.
论搜索引擎     
本文介绍在Internet上进行信息搜索的搜索引擎的概念、原理、现状、使用、发展趋势及评价标准,并提供了一些常用的优秀国内外搜索引擎供大家参考。  相似文献   

14.
论搜索引擎     
本文介绍在Internet上进行信息搜索的搜索引擎的概念、原理、现状、使用、发展趋势及评价标准,并提供了一些常用的优秀国内外搜索引擎供大家参考。  相似文献   

15.
针对目前通用搜索引擎对林业主题信息覆盖率和查准率较低的不足,提出了一种基于Shark-Search算法的林业主题爬虫设计方案。详细讨论了该主题爬虫的爬行策略、算法描述及实现,并通过实践构建了林业主题搜索引擎"搜林"。实验结果表明,相对于通用搜索引擎,"搜林"减少了搜索结果的信息量,提高了林业主题信息搜索的准确率。  相似文献   

16.
该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。  相似文献   

17.
网页抓取器是爬虫系统的一个重要部分,其性能的好坏直接影响着搜索引擎的性能.网页抓取器可以分为网络层和应用层,而网络层是关键.基于选取样本页面、定义规则和网页抓取的三个步骤,在linux下使用epoll技术实现了多线程的网页抓取,方法快速有效.  相似文献   

18.
网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力,大量冗余、低质量乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费,在这种情况下,如何建立适合万维网实际应用环境的网页数据质量评估体系与评估算法成为了信息检索领域的重要研究课题。在前人工作的基础上,通过网络用户及网页设计人员的参与,文章提出了包括权威知名度、内容、时效性和网页外观呈现四个维度十三个因素的网页质量评价体系;标注数据显示我们的网页质量评价体系具有较强的可操作性,标注结果比较一致;文章最后使用Ordinal Logistic Regression 模型对评价体系的各个维度的重要性进行了分析并得出了一些启发性的结论 互联网网页内容和实效性能否满足用户需求是决定其质量的重要因素。  相似文献   

19.
Deep web or hidden web refers to the hidden part of the Web (usually residing in structured databases) that remains unavailable for standard Web crawlers. Obtaining content of the deep web is challenging and has been acknowledged as a significant gap in the coverage of search engines. The paper proposes a novel deep web crawling framework based on reinforcement learning, in which the crawler is regarded as an agent and deep web database as the environment. The agent perceives its current state and selects an action (query) to submit to the environment (the deep web database) according to Q-value. While the existing methods rely on an assumption that all deep web databases possess full-text search interfaces and solely utilize the statistics (TF or DF) of acquired data records to generate the next query, the reinforcement learning framework not only enables crawlers to learn a promising crawling strategy from its own experience, but also allows for utilizing diverse features of query keywords. Experimental results show that the method outperforms the state of art methods in terms of crawling capability and relaxes the assumption of full-text search implied by existing methods.  相似文献   

20.
Internet users heavily rely on web search engines for their intended information.The major revenue of search engines is advertisements (or ads).However,the search advertising suffers from fraud.Fraudsters generate fake traffic which does not reach the intended audience,and increases the cost of the advertisers.Therefore,it is critical to detect fraud in web search.Previous studies solve this problem through fraudster detection (especially bots) by leveraging fraudsters' unique behaviors.However,they may fail to detect new means of fraud,such as crowdsourcing fraud,since crowd workers behave in part like normal users.To this end,this paper proposes an approach to detecting fraud in web search from the perspective of fraudulent keywords.We begin by using a unique dataset of 150 million web search logs to examine the discriminating features of fraudulent keywords.Specifically,we model the temporal correlation of fraudulent keywords as a graph,which reveals a very well-connected community structure.Next,we design DFW (detection of fraudulent keywords) that mines the temporal correlations between candidate fraudulent keywords and a given list of seeds.In particular,DFW leverages several refinements to filter out non-fraudulent keywords that co-occur with seeds occasionally.The evaluation using the search logs shows that DFW achieves high fraud detection precision (99%) and accuracy (93%).A further analysis reveals several typical temporal evolution patterns of fraudulent keywords and the co-existence of both bots and crowd workers as frandsters for web search fraud.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号