首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 969 毫秒
1.
以Web 2.0中用户行为作为研究对象,通过发掘用户反馈方式,提出用户反馈分值的概念,对用户反馈影响搜索结果排名的具体方法以及相应实现进行研究,提出了一种基于神经网络的网页排序算法。该算法引入BP神经网络模型,根据用户反馈分值选择样本训练神经网络。将传统搜索结果输入到经过训练的神经网络进行计算,根据计算出的结果所表示的网页相关性强弱判断后进行二次排序。该算法利用了神经网络具有的模式识别能力,有效地将用户反馈和搜索引擎结合起来,使得搜索结果更加符合用户的搜索要求。  相似文献   

2.
随着Web技术的迅速发展,提供个性化服务的搜索引擎技术受到用户的广泛关注,网页排序是其中的关键技术之一。本文利用PageRank算法对原有的Lucene网页排序进行了改进,设计并实现了关于手机信息搜索的个性化搜索引擎。实验结果证明,改进后的排序算法能够较好地提高信息检索的准确度,为用户带来了优于Lucene自身排序的搜索体验。  相似文献   

3.
聚类技术能将大规模数据按照数据的相似性划分成用户可迅速理解的簇.从而使用户更快地了解大量文档中所包含的内容。因此.聚类技术成为搜索引擎中不可或缺的部分和研究热点。Web上的AJAX应用和PowerPoint文件等弱链接文档由于缺乏足够的超链接信息,导致搜索该类文档时.排序结果不佳。针对该问题.给出一个弱链接文档的搜索引擎框架,并重点描述一个基于网页搜索结果的弱链接文档排序算法.基于聚类的弱链接文档排序算法利用聚类算法从高质量的网页搜索结果中提取与查询相关的主题.并根据主题的相关网页的排名确定该主题的重要性.根据识别的带权重的主题计算弱链接文档的排序值。实验结果表明该算法能够为弱链接文档产生较好的排序结果.  相似文献   

4.
一种新的Web异构语义信息搜索方法   总被引:4,自引:0,他引:4  
相关排序是Web搜索的关键技术之一.为提高相关排序的准确性,保证搜索结果的语义相关性,语义搜索研究引入了由不同语义模型所表示的各种语义信息,如词典、语义标记、社会标注等.为了结合各类语义信息进行搜索,提出了一种新的Web异构语义信息搜索方法,给出了语义相关概率的定义,提出了一种基于统计的语义相关度计算方法,同时利用现有的关键词和语义搜索引擎,实现了结合  相似文献   

5.
为了在大量网络Web页面中快速找到用户关心的内容,提出使用词汇之间的"相关度"来存储用户的个性化信息,应用能够在用户进行检索的过程中自动建立针对该用户的"词汇相关度"的算法设计了一个个性化元搜索引擎,并通过使用3种不同的利用词汇相关度对底层搜索引擎所返回的结果进行评估和个性化排序的算法进行实验.这里设计的个性化算法的灵敏度、抗干扰性、语义相关性分析3个指标的实验结果说明该算法最终会影响到网页的排序.基于统计方法的词汇相关度模型是一种有效的个性化信息检索技术,它可以大大提高搜索结果的质量.  相似文献   

6.
在分析Web社区搜索资源分散特点的基础上,运用Web抓取器、向量空间模型和相关性排序等技术设计了Web社区搜索引擎的体系结构,实现了一个Web社区搜索引擎系统--ChinalabSearch.根据对系统的性能评估,系统满足Web社区的搜索要求,提高了在社区内查找信息的效率,为组织间的合作提供了方便.  相似文献   

7.
Web社区是组织之间实现信息交流、共享和讨论的环境。一个Web社区一般涉及几十到几百个组织,怎样快速的从组成Web社区的组织中获取信息是一个很重要的问题。论文分析了Web社区搜索的特点,介绍了Web搜索引擎的基本原理。基于Web抓取器,向量空间模型,结合相关性排序等技术实现了一个Web社区搜索引擎——ChinalabSearch,详细阐述了系统的体系结构。根据对系统的性能评估,系统满足Web社区的搜索要求,可以提高在社区内查找信息的效率,为组织间的合作提供方便。  相似文献   

8.
基于Nutch的搜索引擎的研究   总被引:6,自引:0,他引:6  
Nutch是一个开放源代码的Web搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代的商业搜索引擎工作原理一样,即网页搜集、预处理(建立索引)和查询服务.由于不夹杂商业利益,它对搜索结果的排序算法较为透明公平.我们可以利用Nutch并结合中文分词技术来构建自己的中文搜索引擎.  相似文献   

9.
随着Web技术的发展和Web上越来越多的各种信息,如何提供高质量、相关的查询结果成为当前Web搜索引擎的一个巨大挑战.PageRank和HITS是两个最重要的基于链接的排序算法并在商业搜索引擎中使用.然而,在PageRank算法中,每个网页的PR值被平均地分配到它所指向的所有网页,网页之间的质量差异被完全忽略.这样的算法很容易被当前的Web SPAM攻击.基于这样的认识,提出了一个关于PageRank算法的改进,称为Page Quality Based PageRank(QPR)算法.QPR算法动态地评估每个网页的质量,并根据网页的质量对每个网页的PR值做相应公平的分配.在多个不同特性的数据集上进行了全面的实验,实验结果显示,提出的QPR算法能大大提高查询结果的排序,并能有效减轻SPAM网页对查询结果的影响.  相似文献   

10.
张祥  瞿裕忠 《计算机科学》2008,35(2):196-200
网页排序算法的好坏很大程度上影响了万维网搜索引擎的用户体验.语义网为万维网带来了机器可理解的资源描述信息,也为搜索引擎带来了更大的挑战:搜索引擎的检索和排序的对象将不再局限于网页,而是包括了任何可以由URI唯一标识的对象,比如本体、本体中的词汇等等.本文介绍了语义网中不同的排序问题和目前已有的一些算法,并展望了语义网未来面临的排序问题和可能的解决方法.  相似文献   

11.
一种基于语义理解的元搜索引擎的研究   总被引:5,自引:0,他引:5  
通过对查询短语的结构分析,发现查询短语通常由关键词和特征词构成。特征词是对网页内容的概括,它预示着网页中包含一组特定的特征词条。基于该思想建立了面向Web网页内容的特征库。以元搜索引擎为研究对象,研究了以Web网页内容特征库为基础实现对查询短语进行语义理解的方法,提出了相关度级别的算法,对库中已收入的特征词进行了查询测试,查准率为86.7%。实验表明,该模型基本实现了对查询短语的理解,对提高搜索引擎的查准率有显著的效果。  相似文献   

12.
一种基于用户标记的搜索结果排序算法   总被引:1,自引:0,他引:1  
随着计算机网络的快速发展,网络上的信息量也日益纷繁复杂.如何准确、快速地帮助人们从海量网络数据中获取所需信息,这是目前搜索引擎首要解决的问题,为此,各种搜索排序算法应运而生.但是目前,网页信息的表达形式都十分简单,用户描述查询的形式更是十分简单,这就造成了在判断网页内容与用户查询相关性时十分困难.首先对现有的搜索引擎排序算法进行了分类总结,分析它们的优缺点.然后提出了一种基于用户反馈的语义标记的新方法,最后采用多种评估方法与Google搜索结果进行对比分析.实验结果表明,利用该方法所得到的排序结果比Google的排序结果更接近用户需求.  相似文献   

13.
This paper presents WebOWL, an experiment in using the latest technologies to develop a Semantic Web search engine. WebOWL consists of a community of intelligent agents, acting as crawlers, that are able to discover and learn the locations of Semantic Web neighborhoods on the Web, a semantic database to store data from different ontologies, a query mechanism that supports semantic queries in OWL, and a ranking algorithm that determines the order of the returned results based on the semantic relationships of classes and individuals. The system has been implemented using Jade, Jena and the db4o object database engine and has successfully stored over one million OWL classes, individuals and properties.  相似文献   

14.
加速评估算法:一种提高Web结构挖掘质量的新方法   总被引:13,自引:1,他引:13  
利用Web结构挖掘可以找到Web上的高质量网页,它大大地提高了搜索引擎的检索精度,目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估,基于统计链接数目的算法存在一个严重缺陷:页面评价两极分化,一些传统的高质量页面经常出现在Web检索结果的前面,而Web上新加入的高质量页面很难被用户找到,提出了加速评估算法以克服现有Web超链接分析中的不足,并通过搜索引擎平台对算法进行了测试和验证。  相似文献   

15.
吴启明 《计算机工程》2010,36(13):84-86
为得到更好的Web社区划分,运用LSI方法,对Web页面的内容和结构信息分别进行基于潜在语义的社区挖掘,并对产生的社区进行集成。实验结果表明,Web双视图集成算法能够加强语义,使较小的社区划分被弱化,与单一的基于结构链接或内容的社区挖掘算法相比,具有更高的准确性。在信息检索的应用中发现,运用该算法检索特指性不强的关键词时,搜索效果有较明显改善。  相似文献   

16.
针对单个网站构建本体库垂直搜索引擎的过程中,叙词及其间逻辑关系等收集整理所耗人力成本高,导致该技术框架虽成熟,而大多网站搜索功能仍以字符匹配为主,缺乏分词、查询扩展及结果的相关度排序,很难准确命中相关查询内容等问题,设计并开发了一套基于网站简约本体库的垂直搜索系统。该系统以中国气象数据网(http://data.cma.cn)为例,利用protégé根据网站的导航目录,构建了中国气象数据网的本体库,基于Lucene引擎构建技术框架,对本体库中的对象及网页内容分别进行分词,并构建本体对象索引库及网页索引库;前端对查询内容分词后,先在本体对象索引库中进行扩展,利用TF-IDF相关度算法计算扩展结果的相关度并排序,该值作为各扩展本体对象的权值,并将各自的权值动态赋给利用Jena二次语义分析技术扩展的对象,最后将所有带有权值的关键词在网页索引库中查询检索,计算结果相关度并排序。实验结果表明,该系统构建简便,能为用户扩展、推荐相关查询内容,提高了针对网站检索的查准率及查全率。  相似文献   

17.
孔德镛  张建军 《计算机工程》2010,36(19):203-204,207
针对元搜索引擎的查准率等问题,分析专业元搜索引擎返回结果的专业相关度问题,提出一种基于遗传算法的网页排序算法,讨论算法的原理及实现过程。在独立搜索引擎返回结果中,挖掘除位置信息以外的其他信息,利用遗传算法建立专业网页相关度模型,对网页的专业相关度进行计算。实验结果表明该算法效果较好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号