首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
提出一种新的基于概念树的主题网络爬行方法。与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表示方法来描述主题的概念。在此基础上,本文给出锚文本和HTML页面内容与主题相关度的计算方法。在分析URL的相关度时,首先判断其锚文本的相关度是否达到一定的阈值σ,只有当锚文本的相关度达不到σ时才会去下载URL对应的页面进行分析,否则将锚文本的相关度作为URL的相关度。这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本的信息。为了比较准确合理地获得阈值σ的取值,本文采用了最小均方差(LMS)的方法。  相似文献   

2.
选择恰当的情报主题相关度预测策略,控制采集情报质量为企业的决策提供正确有效的素材是面向主题的情报采集的核心技术之一。单一依靠文本或链接的情报主题相关度预测策略,不能准确有效地预测待爬网页的价值。该文提出一种基于主题的PageRank算法—Focused PageRank算法来计算网页URL优先级。该方法考虑了页面内容的主题相关度以提高抓取页面的质量,通过网页链接关系预测网页的重要度以提高情报采集的覆盖率。从而提高情报采集的速度和效率,实现不同情报主题下页面URL优先级排序,适应企业竞争情报系统对多主题情报信息的采集。  相似文献   

3.
智能Web中文主题信息收集系统IRobot的设计   总被引:4,自引:0,他引:4  
本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性, 系统采用了对待收集URL进行相关度预测为主, 对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中, 深入考虑了Web主题信息结构和组织特性的多种因素, 综合提高了系统的性能。相比已有的研究, 系统的精度和收集效率更高, 且更为稳定, 并能够自动获得主题领域内重要资源的列表。  相似文献   

4.
在传统检索模型的基础上,结合本体的概念,提出一种基于本体语义树的主题空间向量模型,该模型能够用语义概念树描述一个主题,与传统基于关键词描述主题的方法不同,它能够描述概念之间的简单语义关系.在此基础上,给出HTML页面内容与主题相关度的计算方法.在分析URL的相关度时,不仅分析链接锚文本与主题相关度,还结合了改进的Pag...  相似文献   

5.
该文提出一种“基于高频词等级相关度的方法”来探析存疑文献的作者信息,把各份语料中的词型均按照出现频次递减排列并确定等级,然后通过计算出语料之间高频词等级的相关度,来推断语料之间语言风格的相似度,并且把这种方法与“基于词型共现率的方法”和“基于词例共现率的方法”相比较。把《红楼梦》的120回均分为12份语料,使用“基于高频词等级相关度的方法”计算这12份语料两两之间的相关度。研究发现《红楼梦》的前8份语料两两之间相关度高,后4份语料两两之间相关度也高,而前8份语料与后4份语料这两部分语料之间相关度低。推断《红楼梦》前80回应是同一人所写,后40回应是另一人所写。  相似文献   

6.
现有微博好友推荐算法使用的用户信息比较单一,不能充分利用微博用户信息来刻画用户特征,导致推荐效果不理想。为解决该问题,在综合分析用户标签信息、内容信息、交互信息以及社交拓扑信息的基础上,通过计算主题相关度、兴趣相关度、用户亲密度进行特征挖掘,并采用K最近邻分类算法为目标用户进行微博好友推荐。在新浪微博真实用户数据集上的实验结果表明,该算法的准确率、召回率、F1度量值分别为16.5%,26.8%,19.2%,推荐效果优于基于内容的推荐算法和基于社会过滤的推荐算法。  相似文献   

7.
互联网网页所形成的主题孤岛严重影响了搜索引擎系统的主题爬虫性能,通过人工增加大量的初始种子链接来发现新主题的方法无法保证主题网页的全面性.在分析传统基于内容分析、基于链接分析和基于语境图的主题爬行策略的基础上,提出了一种基于动态隧道技术的主题爬虫爬行策略.该策略结合页面主题相关度计算和URL链接相关度预测的方法确定主题孤岛之间的网页页面主题相关性,并构建层次化的主题判断模型来解决主题孤岛之间的弱链接问题.同时,该策略能有效防止主题爬虫因采集过多的主题无关页面而导致的主题漂移现象,从而可以实现在保持主题语义信息的爬行方向上的动态隧道控制.实验过程利用主题网页层次结构检测页面主题相关性并抽取“体育”主题关键词,然后以此对采集的主题网页进行索引查询测试.结果表明,基于动态隧道技术的爬行策略能够较好的解决主题孤岛问题,明显提升了“体育”主题搜索引擎的准确率和召回率.  相似文献   

8.
针对传统通用网络爬虫的自身固有的缺陷,结合本体的相关理论,提出了一种基于语义本体的网络爬虫的相关模型。该模型以本体构建领域知识概念集,结合知网,从语义的角度,利用扩展的元数据,在词的语义层次,对抓取的页面链接进行语义相关性计算,预测与主题相关的URL,提高采集的网络资源信息与设定主题的相关度。实验结果表明,该模型同其它通用网络爬虫模型相比具有较高的信息抓取准确率。  相似文献   

9.
基于贝叶斯分类器的主题爬虫研究*   总被引:4,自引:0,他引:4  
主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法。爬虫使用改进的TF-IDF算法来提取网页内容的特征,并采用贝叶斯分类器计算其主题相关度。实验结果表明,在搜索大量网络资源的情况下,贝叶斯分类器比PageRank算法更适合用于实现主题爬虫。  相似文献   

10.
现存主题爬虫算法在抓取主题网页方面,其准确性不是很高。本文提出一种基于文本内容评价与网页链接评价的主题网页抓取方法。首先计算当前网页与主题的相关度,然后将相关度值与给定阈值进行比较决定当前网页是丢弃还是存储,同时相关度值的大小也决定了待爬链接队列中URL的优先权,此模型考虑了主题网页的准确率与覆盖率之间的平衡。新设计的主题爬虫算法在抓取主题网页方面,其准确性有一定程度的提高。  相似文献   

11.
语义相关度计算作为中文信息处理领域中的一项关键技术,在信息检索、语义消岐、文本分类中起着重要的作用。利用汉语复句的句法理论和关系标记搭配理论,以汉语复句语料库以及搜索引擎获取的复句为语料,提出了一种基于汉语复句的语义相关度计算方法——SRCCS。本方法不仅能够计算词语的相关度,而且能够表明相关的性质与类别。与通过短文计算相关度的方法相比,本方法选取的计算对象范围更小,因而结果更准确,计算复杂度更低。在同一测试集上与搜索引擎方法的对比分析证明了基于汉语复句的语义相关度计算方法的有效性与优越性。  相似文献   

12.
为解决词义消歧问题,引入了语义相关度计算。研究并设计了词语相关度计算模型,即在充分考虑语义资源《知网》中概念间结构特点、概念信息量和概念释义的基础上,利用概念词与实例词间的搭配所表征的词语间强关联来进行词语相关度的计算。实验结果表明,该模型得到的语义相关度结果对于解决WSD问题提供了良好的支撑依据。  相似文献   

13.
中文语义相关度计算模型研究   总被引:3,自引:1,他引:2       下载免费PDF全文
现有的中文语义相关度计算模型对相关度的定义并不明确和统一,且计算方法多以相似度计算为基础,导致应用语义相关度存在局限。提出了一个新的语义相关的定义,认为两个词所表达的概念之间,如果存在用类似“知网”的知识描述体系所描述的语义关系,那么这两个概念之间就是语义相关的。通过挖掘这些直接或间接的关系,提出了一种新的语义相关度的计算模型,适用于所有类似知网的知识体系中语义相关度的计算。最后将该计算模型应用于词义排歧,验证了该计算模型的有效性。  相似文献   

14.
基于地理空间本体的语义检索相关度研究   总被引:1,自引:0,他引:1       下载免费PDF全文
以地理信息领域为应用背景,面向地理空间语义检索,基于地球信息科学中的空间拓扑理论,以空间本体为语义检索的概念空间,提出了一种语义相关度的算法。其特点是考虑了传统字面匹配相关度与语义关系相关度两部分的融合,同时引入了本体关系权值的机制控制在不同语义检索应用中本体的关联程度,并体现了其与语义距离的反比关系。通过所作的相关实验,验证了该语义相关度算法在地理空间语义检索应用中可以达到良好的效果,并且也为其他领域应用提供了较好的参考和借鉴价值。  相似文献   

15.
目前的搜索引擎仍然存在"重形式,轻语义"的问题,无法做到对搜索关键词和文本的深层次语义理解,因此语义检索成为当前搜索引擎中亟需解决的问题.为了提高搜索引擎的语义理解能力,该文提出一种语义相关度的计算方法.首先,标注了金融类新闻标题实体与新闻正文语义相关度语料1万条,然后建立新闻实体与正文语义相关度计算的BERTCA(B...  相似文献   

16.
基于框架语义标注的自由文本信息抽取研究   总被引:1,自引:0,他引:1       下载免费PDF全文
信息抽取是从自由文本语料库构建数据库,实现信息自动收集的有效途径之一。提出了一种以框架语义标注为基础构建信息抽取规则的信息抽取方法。基于框架语义标注的信息抽取是用统一的方法来指导信息抽取过程。这种方法具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于框架语义的BAIE(图书内容简介信息抽取)系统,并对图书的内容简介试行信息抽取。抽取结果表明,基于框架语义的信息抽取方式有一定的可行性和适用性。  相似文献   

17.
基于Wikipedia的语义相关度计算   总被引:1,自引:0,他引:1       下载免费PDF全文
刘军  姚天昉 《计算机工程》2010,36(19):42-43
在意见挖掘中,为实现特殊领域知识的语义相关度计算,提出基于Wikipedia的语义相关度计算方法。在构建Wikipedia类别树的基础上,通过Wikipedia类别向量表示Wikipedia中的词汇,形成一部包含各种领域知识的Wikipedia词典,利用该词典计算语义相关度。实验结果表明,该方法的斯皮尔曼等级相关系数可达到0.77。  相似文献   

18.
结合规则与语义的中文人称代词指代消解   总被引:1,自引:1,他引:0  
指代消解是一种为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术,在海量信息文本智能处理中具有重要的作用,而人称代词在各种指代词集合中占有相当一部分比例。本文采用规则与语义相结合的方法对中文人称代词进行指代消解,在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项;提出更精确的同义词距离计算方法,利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算,选择关联度最高的候选先行词作为最终的指代结果。通 过不同方法的对比实验和在真实语料数据集上的实验表明,本文所提方法获得了较好的效果。  相似文献   

19.
属性坐标系是由n个不相关的属性组成的一个n—1维坐标系。第n+1个属性,可以由这n个属性做合取运算得到;这样在这个n-1维坐标系中,就形成一个唯一点来表示这第n+1个属性。2007年Freebase数据库的建立,使得该属性坐标系理论得以验证,并为属性坐标系的建立提供可能,而且将在语义相关度计算中发挥重要作用。  相似文献   

20.
基于Wikipedia的语义元数据生成   总被引:1,自引:0,他引:1  
语义元数据提供数据的语义信息,在数据的理解、管理、发现和交换中起着极为重要的作用。随着互联网上数据爆炸式的增长,对自动元数据生成技术的需求也就变得更加迫切。获得目标语义元数据及得到足够的训练语料是使用自动生成技术的两个基本问题。由于获得目标语义元数据需要专家知识,而获得足够的训练语料需要大量的手工工作,这也就使得这两个问题在构建一个成功的系统时至关重要。该文基于Wikipedia来解决这两个问题通过分析一个类别中条目的目录表(table-of-contents)来抽取目标语义元数据,通过对分析文档结构和赋予目标结构正确的语义元数据来构建训练语料库。实验结果表明,该文的方法能够有效地解决这两个问题,为进一步的大规模的语义元数据应用系统打下了坚实的基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号