首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 390 毫秒
1.
针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的Web Robot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的Web Robot的方法,改进后的Web Robot能够更有效地发现和搜集信息.为搜索引擎进行信息搜集,高效、稳定的Web Robot保证了为用户提供的网上信息的全面性和实时性.  相似文献   

2.
搜索引擎的Web Robot技术与优化   总被引:4,自引:0,他引:4  
崔泽永  常晓燕 《微机发展》2004,14(4):99-102
针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的Web Robot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的Web Rohot的方法,改进后的Web Robot能够更有效地发现和搜集信息。为搜索引擎进行信息搜集,高效、稳定的Web Rohot保证了为用户提供的网上信息的全面性和实时性。  相似文献   

3.
文必龙  唐苏龙  张浩 《微机发展》2013,(4):87-90,95
主题搜索引擎的研究难点之一就是主题与网页信息之间的准确匹配。通过对网页的特征进行分析,提取网页特征中的主题特征词,并用提取的主题特征词表示网页主题信息,提出了利用网页特征及特征之间的关系来建立网页特征模型。该特征模型能准确地描述网页的内部特征和外部特征的主题表现力,有利于计算网页与主题之间的相似度。实验结果表明该特征模型能有效地表达网页的主题信息,并有助于提高主题搜索引擎的资源发现率和搜索准确率。  相似文献   

4.
为提高视频语义信息提取准确率,提出了一种基于多模态特征的新闻视频语义提取框架。在视频中提取主题字幕信息,对音频进行分类和语音识别,根据主题字幕信息借助搜索引擎得到与新闻视频相关的网页;最后利用网页文本对语音识别的结果进行纠错,从而通过视频字幕信息和语音脚本的跨模态融合提高视频语义提取的准确率。在中等规模的新闻视频(含新闻网页)库测试表明了该方法的有效性,经纠错后的语音识别准确率达到了65%左右。  相似文献   

5.
提出一种解决信息检索中信息过载问题的方案.通过对用户搜索习惯分析,发现用户对网页的选取主要依据搜索返回的网页摘要信息.分析摘要信息,运用人工智能中实例学习理论,推断用户的搜索目的.通过实例证明,该方案应用于搜索引擎,可以提高搜索引擎的查准率和智能性.  相似文献   

6.
针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法.该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果的优化.实验结果表明本算法可以提高搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度.  相似文献   

7.
www上的信息极大丰富,搜索引擎存在精确度低的问题。为准确地从搜索到的网页中提取有用信息,发展一个自动的过滤器已成为当务之急。本文提出的基于自然语言处理的网页过滤方法,从语法、语义和语境三个方面上分析网页的自然语言。实验表明,该方法在一定程度上提高了搜索引擎的精确度。  相似文献   

8.
基于遗传算法的专业元搜索引擎   总被引:1,自引:0,他引:1  
赵大明  鱼滨 《计算机工程》2009,35(21):192-194
元搜索引擎返回的查询结果来自独立搜索引擎,要评价此类结果的专业相关性,必须挖掘其位置信息以外的其他信息。研究并实现面向培训领域的元搜索引擎,在充分挖掘网页文本信息的基础上,提取专业网页样本特征,结合遗传算法给出网页专业相关度算法。实验结果表明,该引擎具有较高的专业信息筛选和排序能力。  相似文献   

9.
蔡建超  郭一平  王亮 《微机发展》2006,16(11):73-75
在庞大的网络信息资源利用中,搜索引擎成为人们发现资源的有力工具。但是如果用常用的搜索引擎去搜索专门的门户网站,或者特定范围的网页,则显得力不从心。比如搜索一个学校内的网页,这些搜索引擎就很难进行全面高效的搜索。基于此,利用适应.Net环境的Lucene.Net作为基础,设计了自己的校园网搜索引擎,在特定范围的搜索表现出了自己独特的优势。  相似文献   

10.
针对用户利用常用搜索引擎查询信息时,搜索引擎返回海量杂乱、无序的网页,用户难以从中快速、准确地获得真正关心的信息的现状,从Internet用户的兴趣度出发,设计了一种基于近似网页聚类算法的智能搜索系统。该系统在用户利用常用搜索引擎系统进行信息检索时,消除搜索引擎返回的重复页,对剩余页面进行聚类,返回给用户聚类后的网页簇,这样用户就可以选择浏览自己感兴趣的页面,从而大大提高了信息检索的查准率;实验证明该系统在保证查全率和查准率的基础上大大提高了搜索效率。  相似文献   

11.
介绍网站与搜索引擎之间的关系,从而引入网站制作对搜索引擎的影响,深入地从网页的命名、标题、题头标签的作用等几个方面描述如何建设一个便于搜索引擎的好网站。当搜索引擎收录访问网站时,能够迅速地抓住网页的要领,完整地将网页的信息带走,让用户在搜索信息时可以得到更多与网站相关的内容。  相似文献   

12.
介绍网站与搜索引擎之间的关系,从而引入网站制作对搜索引擎的影响,深入地从网页的命名、标题、题头标签的作用等几个方面描述如何建设一个便于搜索引擎的好网站。当搜索引擎收录访问网站时,能够迅速地抓住网页的要领,完整地将网页的信息带走,让用户在搜索信息时可以得到更多与网站相关的内容。  相似文献   

13.
方宏  吕太之 《计算机工程》2009,35(24):265-267
针对传统搜索引擎难以提取客户端脚本生成信息的问题,结合求职搜索引擎的研发,运用HtmlUnit解析JavaScript动态网页,使用Selenium IDE提取动态元素的XPath,解决传统搜索引擎难以提取客户端动态生成信息的问题。实验结果证明,该技术是行之有效的。  相似文献   

14.
定题搜索引擎Robot的设计与算法   总被引:6,自引:0,他引:6  
定题搜索引擎将信息检索限定在特定主题领域,提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat 2.02版,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关信息的搜索及网页相关度分析。该文分析了传统定题搜索算法的优缺点,提出了基于反向链接结合超链文本分析的定题搜索算法。文章还对基于内容的网页相关度分析算法进行了详细的论述。对比搜索实验表明系统有着较好的性能,能准确地爬行到主题相关网页。  相似文献   

15.
基于K-近邻算法的网页自动分类系统的研究及实现   总被引:2,自引:0,他引:2  
随着网络信息量的爆炸式增长,人们查找信息越来越难。Web搜索引擎的出现在一定程度上解决了这种矛盾。然而现行的搜索引擎无法根据用户所指定的主题进行针对性的搜索,因此,必须在搜索后对结果是否属于目标主题进行判断,以提高搜索的准确性,文中提出了一种基于K-近邻机器学习算法的信息自动分类的方法,能够对搜索到的网页自动地判定是否属于目标主题,并在实验的基础上验证了其在提高搜索准确性上的作用。  相似文献   

16.
聚类分析在搜索引擎中的应用   总被引:8,自引:0,他引:8  
为了快速、准确地从因特网上找到人们所需的信息,对网页信息进行聚类分析是非常重要的。该文分析了几种适用于搜索引擎的聚类方法,并讨论了聚类分析在设计搜索引擎时的应用。  相似文献   

17.
网站黄页系统是一个自动生成网站黄页目录并以此为基础为用户提供一系列服务的系统。它通过快速收集网络上的教育资源,并自动化地对其进行高质量的分类和信息抽取,形成教育网站黄页,为用户提供浏览、检索等服务。未经过二次开发的黄页系统检索的准确性普遍较低,不适合校园网络的使用.针对普通搜索引擎的固有缺陷,提出了一种应用于新闻检索的搜索引擎,该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和搜索。  相似文献   

18.
一种WWW搜索引擎的设计与实现   总被引:2,自引:1,他引:2  
随着Internet在我国的迅速发展和WWW信息的不断增长,迫切需要开发中英文兼容的WWW搜索引擎来获得所需的信息。该文在分析WWW搜索引擎主要功能模块:信息采集模块、信息预处理模块和信息查询模块的基础上,提出采用人工智能搜索算法来遍历网页,对中英文网页进行自动的索引,并用向量空间的表示方法来表示网页内容和用户输入的查询表达式。实践证明,使用该搜索引擎,可以快速准确地搜索到用户所需的信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号