首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
从信息检索到搜索引擎   总被引:2,自引:1,他引:1  
信息检索是研究对大规模信息进行快速准确全面的获取、组织、挖掘和提供访问的一门学科,它的目标是从大规模文档集合中返回满足用户需求的文档子集。信息检索涉及自然语言处理、机器学习、数据挖掘、并行分布式处理等多个领域的相关技术。搜索引擎是信息检索的一个具有代表性的应用,也是目前互联网中最重要的应用之一。搜索引擎特别是Web搜索引擎在与一般信息检索系统拥有诸多共性的同时,也具有自己的特点。本文主要介绍信息检索这门学科的一般知识,然后以搜索引擎为例介绍信息检索技术的应用。  相似文献   

2.
本文针对WWW上搜索引擎搜索速度的问题,根据实时系统(m,k)模型的理论。提出一种新的搜索引擎信息检索策略,与现有系统相比可以较好的提高搜索速度和搜索引擎的性能,并具有进一步深入研究的价值.  相似文献   

3.
搜索引擎给信息检索带来很大的帮助,但是信息的查准率和个性化却很难保证,针对这些问题,提出了一种基于元搜索引擎的个性化信息检索系统.采用Agent技术构建系统,利用用户知识库建立和更新用户模型,对检索结果的向量空间模型算法结合用户知识库进行了改进.实验表明:系统对于查准率有一定的提高,可以满足用户的个性化需求.  相似文献   

4.
Internet上的信息爆炸对网络搜索引擎提出了更高的要求.本文介绍了网络搜索引擎的分类、基本原理及现有常用的搜索引擎的特点,分析了搜索引擎存在的问题以及与传统信息检索的异同,提出了搜索引擎当前的主要研究内容.  相似文献   

5.
Web搜索引擎的现状分析   总被引:4,自引:0,他引:4  
Internet上的信息爆炸对网络搜索引擎提出了更高的要求。本介绍了网络搜索引擎的分类、基本原理及现有常用的搜索引擎的特点,分析了搜索引擎存在的问题以及与传统信息检索的异同,提出了搜索引擎当前的主要研究内容。  相似文献   

6.
针对当前信息检索工具缺乏对知识的理解和处理能力,提出了一种基于智能Agent的用户个性化信息检索系统模型,通过多个Agent的协调工作为用户提供个性化服务。描述了该模型的系统结构及各功能模块的实现方法,分析了系统模型的工作流程,部分解决了信息检索中的文档相关性计算、搜索引擎的调度算法、数据库的构建等技术问题。  相似文献   

7.
介绍WWW搜索引擎的分类特点和几种重要中文搜索引擎,以及应用中文搜索引擎全面、准确、快速、有效地进行中文信息检索的技巧.  相似文献   

8.
校园网搜索引擎的研究与实现   总被引:2,自引:0,他引:2  
针对通用搜索引擎不能检索校园网内网的不足,提出建立校园网搜索引擎,实现为用户提供基于关键字进行校园内部信息检索的服务平台。通过研究,设计了具有搜索器、中文分词器、索引器和检索器的校园网搜索引擎系统。系统采用Java语言和Oracle9i数据库实现。目前,系统已实现了基于关键词的查询,但也存在着检索关键词不能进行智能转化、检索结果不能根据用户反馈进行排序的不足。  相似文献   

9.
文章分析了WWW信息检索困难的原因,并从选择搜索引擎、提高查全率及查准率等方面,总结了WWW信息检索的技巧以及如何快速、准确地从万维网信息资源中找到自己最需要的信息。  相似文献   

10.
针对某一主题或学科的垂直搜索引擎是搜索引擎的延伸和细分,面向特定用户提供垂直搜索。网页排序算法是搜索引擎好坏的关键,搜索引擎网页排序算法的目的是从海量搜索结果中将主题相关和权威的网页排在前列,帮助用户查找所需的资源。 Nutch搜索引擎只实现了一个基本的综合排序模型,为了使Nutch更好地满足专业用户的需求,该文设计一个综合考虑主题相关性和网页权威性的综合排序模型,将主题相关度因子和改进后的PageRank算法因子融入到Nutch网页评分计算公式中。实验表明,改进的排序算法可以提高信息的查准率,具有明显的主题倾向性,在实际应用中发挥作用。  相似文献   

11.
1 Introduction With the rapid growth of information on the W orld W ide W eb,the Internetis changing ourlife un- precedentedly.A lthough the Internetoffers a lotofin- form ation resources,the resources are open,dynamic and differen,twhich makes resourceso…  相似文献   

12.
为了解决网页篡改的问题,并对发生问题的web页面进行自动恢复.本文基于时间轮询技术与核心内嵌技术,设计并实现了一种网页防篡改系统.该系统能够实时的检测网页被篡改并进行实时阻断及后台恢复;系统能定时的对网站的文件进行扫描,并根据不同的扫描结果进行相应的处理.采用时间轮询技术与核心内嵌技术有效的弥补了采用一种技术带来的缺陷,保证网页的完整性及安全性,并且使网页的防护达到了实时性.  相似文献   

13.
基于内容的名人网页褒贬性评价   总被引:1,自引:0,他引:1  
在已有基本褒贬义词典的基础上构建了一种可用于名人网页褒贬性评价的褒贬义词典,着重论述了网页褒贬性评价的模型、方法及工作流程,并提出了通过评价模板实现词典更新的初步构想。本系统基本实现了网页内褒贬词语的标注,并对部分名人网页进行褒贬性评价测试,取得了初步的成效。网页的褒贬评价可以嵌入到搜索引擎中,提供进一步的个性化服务。  相似文献   

14.
在对现有主流网页消重技术分析的基础上,提出一种基于网页内容的改进的网页消重高效检测算法.该算法通过利用网页的标签树结构选取最大的多个文本块,将这些文本块连接在一起生成一个代表该网页的MD5指纹,对指纹进行比较,确认近似网页实现消重,实验证明该方法对近似网页能进行准确的检测.  相似文献   

15.
针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,计算摘要的相似度,三者结合能很好的检测出重复网页,实现网页去重。该算法有效,并且比以往算法有明显的优势,更接近人工统计结果。  相似文献   

16.
一种基于统计学特征和DOM树的网页去噪技术   总被引:1,自引:0,他引:1  
针对特定的网站或网页中抽取出用户感兴趣的信息这一问题,分析现有去噪技术的优缺点,提出了一种基于统计学特征和DOM树的Web页面去噪方法。该方法首先对原始网页进行预处理,然后分析网页的统计学特征,结合启发式的抽取规则,对网页进行去噪。实验证实该方法在较少人为干预的基础上能达到较好的抽取效果。  相似文献   

17.
Cyber-crimes are growing rapidly,so it is important to obtain the digital evidence on the web page.Usually,people can examine the browser history on the client side and data files on the server side,but both of them have shortcomings in real criminal investigation.To overcome the weakness,this paper designs a web page forensic scheme to snapshot the pages from web servers with the help of web spider.Also,it designs several steps to improve the trustworthiness of these pages.All the pages will be dumped in local database which can be presented as reliable evidence on the court.  相似文献   

18.
基于页面分块模型的PageRank算法研究   总被引:2,自引:1,他引:1  
提出了一个基于页面分块重要性模型的PageRank改进算法。该算法考虑同一页面内属于不同分块的出链接有着不同的重要性,故对不同分块的出链接赋予相应的权重,从而更合理、更公正、更有效地计算页面的PageRank值。与以往的PageRank算法及其改进算法相比,该算法以基于视觉特征的页面分块算法为核心,更好地反映了网页的特性,符合了用户的使用习惯,具有良好的效果。  相似文献   

19.
Ajax页面的生成和页面导航需要执行客户端的JavaScript代码, 传统网络爬行算法无法获取Ajax页面全部内容. 分析了Ajax的工作方式, 阐述了爬行Ajax网页所面临的主要问题, 提出并实现了一种有效爬行Ajax页面的网络爬行算法. 该算法可控制客户端浏览器动态生成页面内容和完成页面导航, 为爬行过的页面分配标识编号并生成相应静态页面. 实验结果表明, 提出的算法所爬行的Ajax页面数量明显多于传统方法, 同时, 采用的双重消重策略可有效减少算法的时间耗费.  相似文献   

20.
为解决站内搜索引擎页面和用户之间的交互性,用公用网关接口技术CGI完成动态网页的制作。由Web浏览器提交搜索引擎页面的查询语句给web服务器后,Web服务器调用搜索程序,把检索到的相关结果再回传给web服务器和web浏览器,通过CGI技术成功实现了浏览器和可执行程序之间的动态交互性,达到用户快速获得查询信息的目标。系统介绍了用CGI程序实现搜索引擎页面的提交和编码转换处理的实施步骤。实验表明,用C语言编写的CGI脚本程序能够很好的实现用户和页面的交互性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号