首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
伴随着垂直搜索引擎领域的全面发展,为了满足人们对搜索引擎系统的高质量需求,通过深入剖析了Google经典的PageRank算法,针对其单纯的考虑网页链接结构方面的不足,提出了改进的PageRank算法。分析了网页文本结构、网页被抓取时间、网页内容相关度等问题,在此基础上对PageRank算法进行改进,理论分析和仿真实验表明,改进后的算法具有更高的查准率和用户满意度。  相似文献   

2.
本文首先介绍了基于超链接结构的网页排序的思想和算法,重点介绍了PageRank算法和HITS算法,比较分析了二者的不同,进而指出了链接分析排序的优缺点.随后,笔者引入了语义网检索排序的原理及模型,认为提出建立面向语义网的搜索引擎技术,可以更好地改进网页排序.  相似文献   

3.
唐敏 《信息通信》2013,(1):23-24
PageRank是Google使用的一种网页排序算法,它可以对网页进行评估,并根据这个评估对网页进行排序。评价标准是一个PR值,每个网页都会被赋予这样的一个值,用来衡量网页的重要性,并据此给出相应的排名。起初PageRank是用于搜索引擎检索结果的排序,现在也被广泛用于其他很多方面,比如网页的采集、检索结果聚类分析等。本文将最大流社区发现算法和PageRank结合,提出了一种新的改进算法。  相似文献   

4.
一种基于主题相关度的网页排序算法   总被引:1,自引:0,他引:1  
针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法.理论分析和仿真实验表明,改进的PageRank算法使用户能方便地找到所需网页,提高了网页查询效率.  相似文献   

5.
信息检索排序算法研究综述   总被引:1,自引:0,他引:1  
排序技术是信息检索系统进行结果处理的核心技术,排序算法的优劣直接影响系统的效率.将现有的排序算法分为基于链接分析和基于机器学习两大类,系统地分析了各自代表性算法,指出它们各自的优势和存在的不足,并指出不同算法在不同领域和场合所具有的优势,最后讨论可继续研究的课题.  相似文献   

6.
网页的内容信息对于提高聚类质量来说并不完全够用,针对网络社区网页之间存在的天然链接关系,本文提出了一种挖掘用户标签的增强型社区网页聚类算法.本文采用多种距离度量方法,并挖掘网页链接关系,然后将网页的内容信息相似度和链接关系结合起来进行聚类.实验表明,提出的算法是有效的.  相似文献   

7.
提出了一种新的排序算法:端点排序算法。其方法为:依次找出数据总数为N的数列最小和最大值,把二者放在本次所排数列的两端,再把剩余两端之间的数据总数为N-2的数列的最小值和最大值找出,放在此数列的两端,依此类推,直至数列中间,实现整个数组的排序。实验表明,该算法具有与冒泡排序更快的性能。在数据个数较多的情况下优于选择排序。  相似文献   

8.
针对在传统语义融合的文本相似度算法设计与实现中由于汉语语义复杂存在容易形成局部极小值而得不到全局最优、训练次数较多、学习效率降低、隐节点的选取缺乏理论依据等问题,提出一种改进算法。首先在把握文本相似度算法内涵和分类情况的基础上,通过调整数字识别方向、选取合适的数据来源,依据图像识别技术和算法深度学习的共性需求,从语义融合角度提出以核心词为节点进行文本相似度计算;然后通过多特征融合向量空间模型对特征项的类间分布问题进行分析,最终通过加权计算得到文本相似度。从算法实现效果来看,相较于传统算法能够获得更高文本分类准确度,改进基于文本相似度算法的语言处理技术更加高效、准确。  相似文献   

9.
网页信息抽取方法的研究   总被引:2,自引:0,他引:2  
信息抽取技术属于人工智能的一个分支.使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来.文中提出的信息抽取技术是基于DOM和网页模板的一种归纳网页模板的新方法,它能很好地对各种布局元素的网页进行模板归纳,同时给出核心算法的C++实现.  相似文献   

10.
本文介绍了LBS的概念,简述了与本文相关的LBS系统功能模块的技术实现方法。设计了基于LBS功能的信息搜索系统模型和检索信息过滤、索引排序的链接算法模型。  相似文献   

11.
本文首先分析搜索引擎的基本原理,然后主要介绍经典的PageRank算法,之后基于该算法对搜索引擎优化方法进行探讨.  相似文献   

12.
Blog网页分类与识别技术研究   总被引:2,自引:0,他引:2  
郑德权  张迪  赵铁军  于浩 《通信学报》2007,28(12):156-160
为了找到一种自动将Blog网页区别于其他Web页面的方法,以便针对Blog语料进行内容抽取、对Blog社区进行规律性研究和发现等,针对Blog网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别Blog网页,初步的实验结果表明,达到了较高的识别正确率。  相似文献   

13.
通过研究当前搜索引擎检索信息的不足之处发现,要想提高查准率必须提高相似度,相似度越高,查准率就越高.主要研究语句相关度的相关知识,通过元数据的检索,计算检索的相似度.在此基础上,进一步结合论文元数据之间关系的相互对比,对各个元数据赋予一定权值,提出通过加权的方法进一步提高相似度的方法,经验证结果达到期望要求.  相似文献   

14.
刘锋  白凡 《电子技术》2010,47(7):30-31
K近邻(k-Nearest Neighbor)算法是进行分类时最常用的文本分类算法,基本的K近邻算法是基于余弦向量距离计算相似度,由于特证词权值的计算采用的是TF-IDF方法,使得该算法在文本分类中对于噪声特征非常敏感,本文针对这一问题,提出在网页分类的领域中,根据网页文章的特性,考虑特征词出现不同位置,改进相似度的计算公式,实验证明,提高了分类的准确性。  相似文献   

15.
《现代电子技术》2020,(4):83-86
教学质量的评估可推动教学机构教学工作全面改进与提升,促进教学改革纵深发展。而针对以往教学质量评估大多通过学生单方面反馈来判定,评估结果较为片面,且评估精度不高。将网页设计作为评估领域,设计一种基于社区搜索模块排序算法网页设计教学质量评估系统,通过数据采集模块获取有关网页主题、网页栏目规划、网页内容、网页版面设计及网页技术的数据,传输至社区搜索模块;社区搜索模块将评估数据分为教师社区评估数据、学生社区评估数据及管理员社区评估数据,从多个角度分析教学质量,并采用多因素排序算法完成网页设计教学质量评估。实验结果表明,所设计系统可有效评估多个高校网页设计教学质量,且评估精度高达99.89%。  相似文献   

16.
本文主要关于4种排序进行了一个简单的讲解,并为每一种排序使用C/C++语言给每种排序算法相应的实现,并在最后比较了每种算法的稳定性以及时间复杂度.看本文的前提是熟悉C/C++程序设计语言。  相似文献   

17.
快速排序算法研究   总被引:8,自引:1,他引:8  
排序是计算机科学中最重要的研究问题之一,2000年被列为20世纪对科学和工程计算的研究与实践影响最大的10大问题之一。文章介绍了基本的快速排序算法及三种枢轴元素的选取方法,全面深入地分析了快速排序算法最坏情况下的时间复杂度,平均情况下的时间复杂度,随机情况下的时间复杂度,并对快速排序算法和堆排序算法进行了比较,理论和实验结果表明,快速排序算法仍然是目前最好的排序算法之一。  相似文献   

18.
目前实现智能化推荐功能,通常有两种方式,一种是基于用户的协同过滤推荐系统,另一种是基于内容相似度的推荐系统。采用协同过滤的推荐系统时,通常需要较为庞大的用户群体,本文主要选择基于内容相似度的推荐系统进行论述。在使用该系统时,往往需要对文档与对应的标题或语素进行相关性评分,通过评分对每位用户提供个性化的推荐,进而达到为每位用户提供更好地体验。这就会用到TF-IDF算法和BM25算法对文档进行相关性评分,本文对这两种方法的算法原理、优缺点以及改进方案展开论述,着重强调TF-IDF与BM25算法之间的区别与联系。  相似文献   

19.
网络爬虫是互联网运行服务的重要组成部分,并为整个互联网、企业内部网和大型门户网站提供搜索和索引.为解决现有爬虫方法在效率方面的问题,本文介绍了Nutch分布式爬虫工作流程及机制,通过分析Hadoop下的Nutch网络爬虫,在Nutch分布式爬虫的参数方面、Hadoop的I/O模型和Nutch分布式爬虫小文件问题三个方面做了相关优化.实验结果表明,优化后的网络爬虫能更有效的爬取网络资源,能在较大程度上提升网络爬虫效率.  相似文献   

20.
为了实现主观题智能阅卷,本文提出了一个基于多特征融合的主观题智能阅卷算法.首先,分别设计两种算法:关键词相似度算法和语义相似度算法,计算学生答案和标准答案之间的关键词相似度和语义相似度;然后,以题目的 题型和科目作为特征值,分别计算出两相似度的权值,并利用权值计算出学生答案的得分实验表明,本文提出的算法,能有效主观题智...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号