首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
传统人名消歧算法中,每类特征仅反映人物实体的部分信息,且不同聚类算法各有优缺点。本文提出了一种基于聚类集成的人名消歧算法。首先,从文本中提取上下文特征、实体特征、社会关系特征得到三个相似度矩阵,并对这三个相似度矩阵进行融合得到一个融合相似度矩阵;然后,把这四个相似度矩阵作为输入,利用不同的聚类算法得到不同的划分;最后,采用基于均方误差邻接矩阵聚类(Squared Error Adjacency Matrix Clustering,SEAM)算法对这些划分进行集成,实现人名消歧。在CLP2010人名消歧训练语料上进行实验,结果表明,新算法有效地提高了人名消歧的准确性和鲁棒性。  相似文献   

2.
双语人名对齐方法研究直接影响到跨语言信息处理的效果,由于泰语与汉语的发音差异大,汉泰双语平行语料库资源有限,基于统计的音译人名对齐模型难以解决汉泰双语人名对齐问题,提出一种在音译特征基础上融合人名知识分布特征相似性的汉泰双语人名对齐方法。计算双语人名音译相似度特征,通过卡方检验等计算汉语人名与泰语人名的知识分布相似度特征,借助支持向量机学习汉泰人名翻译对的两种特征生成人名翻译对分类器,对分类器分类结果调优生成对齐结果。实验结果表明该方法在汉泰人名发音差异大和缺少双语语料资源支持的情况下取得了较好效果。  相似文献   

3.
目前,脑网络分类是研究热点,研究者采用不同的方法从标签数据中提取并选择特征,以实现对数据的自动分类,但是从大量的标签数据中提取和选择最优的特征很费时。针对以上问题,提出一种脑网络相似度计算方法并构建基于无偏脑网络的聚类模型。首先,使用余弦相似度和子网络核来度量脑网络的属性相似度和结构相似度,然后将结构相似度和属性相似度集成为一个相似度矩阵,最后利用谱聚类实现脑网络聚类。对openfMRI数据库中的50名精神分裂症患者与49名正常对照组进行了聚类测试,结果显示,Rand指数为0.91,精确率为0.86,召回率为0.98,F1为0.92。研究表明提出的模型能较准确地计算脑网络相似性,表现出较高聚类性能。  相似文献   

4.
该文针对题录信息中的人名、地址、机构名和公司名的不同特征,分别设计了不同的翻译方法,并依靠词典和翻译规则,实现了大部分内容的翻译。对于人名翻译,该文设计了拼音转换、假名转换和同音转换的翻译方法;对于地址、机构名和公司名的翻译,该文提出了先切分、再翻译、最后调序的翻译流程。实验表明,利用该文的方法翻译人名、地址、机构名及公司名,能够取得不错的翻译效果。  相似文献   

5.
该文使用熵模型来对中英文双语语料进行人名对齐。熵模型综合利用双语人名词典、双语姓氏词典、词汇对齐概率、中英文人名的共现特征、基于最小编辑距离的音译相似度和基于语音匹配的音译相似度。实验结果表明,基于熵模型的中英文人名对齐在大规模语料库的实验中达到了较好的人名对齐正确率和召回率。我们分析了人名对齐存在的主要错误,并针对主要错误给出了可能的解决方案。
  相似文献   

6.
采用基于统计的方法实现日本人名的识别和翻译系统。将人名的识别转换成序列标注问题,采用条件随机场方法训练识别模型。训练语料在标注时使用S/E(Start/End)标注风格;利用人名在上下文中的关系、人名称呼后缀词和人名字典来设计特征模板。人名翻译时将日本人名分为假名人名和汉字人名,汉字人名的翻译通过建立日本人名常用汉字翻译字典实现;假名人名的翻译通过Moses系统训练翻译模型实现。该系统在人名的识别和翻译测试中都取得了不错统计结果。  相似文献   

7.
针对三维模型语义检索应用,提出一种三维模型语义自动标注方法,建立三维模型内容特征和语义特征之间的映射关系。首先,利用基于深度信息的特征提取方法计算三维模型形状特征描述符,在单位立方体的六个面上正交投影后获取六幅深度缓存图像,提取图像二维傅立叶变换后的270维低频系数作为三维模型内容特征。其次,针对语义词汇之间相似度计算需要,提出一种语义相似度计算方法,采用本体层次结构的深度、宽度、同义词集密度信息计算词汇信息量,定义语义词汇间的信息量关系,得到语义相似度。再次,利用语义排歧策略消除语义词汇二义性,提高语义词汇相似度计算的准确性。最后,融合三维模型内容特征相似度计算和本体语义相似度计算方法,利用样本库中相似模型包含的词汇概率信息和模型内容相似度值,计算待标注模型的语义描述信息。通过模型标注实验,验证了该方法的准确性。  相似文献   

8.
该文根据中国人名的形成方式,总结和统计了人名的用字特征和边界模板特征,通过计算人名内聚度、人名区分度和边界模板可信度的综合概率作为人名可信度,对文本中人名进行识别或对已识别的人名进行纠正。该文将可信度检测模块嵌入到一个简易的命名实体平台中,在MSRA的语料上进行测试,实验结果说明可信度模型使得平台的人名识别F值提高了2.27%,整个系统的人名识别F值达到了91.72%。  相似文献   

9.
针对OAI-PMH存在大量相似的元数据,结合元数据内容的结构特性,提出了一种基于向量空间模型的OAIPMH元数据相似度的计算方法.为了较好地反映特征项在元数据内容不同层次的重要程度,采用了结构层次权重系数改进的TF-IDF方法来计算特征项权重.实验分析表明,使用该方法对元数据之间相似度的计算是有效的、可行的.为用户在搜索查询时提供了基于元数据的相似资源,方便了用户,提高了信息服务质量.  相似文献   

10.
微博是常用的社交媒体,但对于微博图片和文本相关性的研究还很少。为研究中文图文微博相关性,使用了三种方法计算图文微博相似度特征,并将其与图文微博文本特征、社会特征组合起来,采用三种机器学习方法进行相关性分类。实验结果表明,针对三种图文相似度特征计算方法,基于WordNet的方法与基于Word-Embedding的方法效果较好,基于余弦相似度的方法效果较差,而加入文本特征和社会特征后,相关关系识别结果在三种机器学习算法上都有提高。综合考虑三种因素,使用Word-Embedding方法计算图文微博相似度特征,将其与文本特征和社会特征相组合,采用BP神经网络进行相关关系识别效果最好。  相似文献   

11.
本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细地划分。基于该模型,本文设计了一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度一起用支持向量机进行整合,形成报道模型间的相似度。本文选用TDT4中文语料作为测试语料,将上述模型及模糊匹配技术用于话题关联识别。实验表明,多向量模型能够改进话题关联识别的性能,模糊匹配技术也在一定程度上弥补了精确匹配带来的性能损失。  相似文献   

12.
传统词向量训练模型仅考虑词共现而未考虑词序,语义表达能力弱。此外,现有实体消歧方法没有考虑实体的局部特征。综合实体的全局特征和局部特征,该文提出一种基于上下文词向量和主题模型的实体消歧方法。首先,在传统词向量模型上增加上下文方向向量,用于表征语序,并利用该模型与主题模型训练主题词向量;其次,分别计算实体上下文相似度、基于实体上下文主题的类别主题相似度以及基于主题词向量的实体主题相似度;最后,融合三种相似度,选择相似度最高的实体作为最终消歧实体。实验结果表明,相比于现有的主流消歧方法,新方法是有效的。  相似文献   

13.
该文针对中文实体消歧中的特征项部分匹配和协同消歧问题,提出基于特征加权重叠度的中文实体协同消歧方法。该方法利用实体指称上下文中多种特征的加权重叠度计算实体指称相似度,针对实体链接与消歧聚类约束,分类定义实体指称相似度计算方法,构建待消歧实体相似度矩阵,采用近邻传播聚类算法实现中文实体协同链接与消歧。基于CLP-2012评测数据的实验表明,提出的方法取得了较好的消歧效果,准确率、召回率和F值分别达到了84.01%、87.75%和85.65%。  相似文献   

14.
面向对象的土地覆被变化检测研究   总被引:1,自引:0,他引:1  
运用面向对象的方法进行土地覆被变化检测,利用遥感数据光谱信息、纹理特征、拓扑关系,在多尺度分割获得对象的基础上,构建了变化矢量方法和向量相似性的检测方法,两种检测方法均成功检测出了所选取实验区的土地覆被变化信息。结果表明:对于同一区域同一时相的两期影像的面向对象变化检测,两种方法的总体精度都在80%以上,但变化矢量方法(CVA)精度要高于向量相似性方法。因此,在进行土地覆被变化检测时可以优先考虑变化矢量方法(CVA)。  相似文献   

15.
针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体的向量形式,结合上下位关系领域知识库,进行上下文相似度和类别指称相似度计算,利用潜在狄利克雷分布(LDA)主题模型和Skip-gram词向量模型获取多义词不同含义的词向量表示,抽取主题领域关键词,进行领域主题关键词相似度计算.最后融合三类特征,选择相似度最高的候选实体作为最终的目标实体.实验表明,相比现有消歧方法,文中方法消歧结果更优.  相似文献   

16.
数据更新中要素变化检测与匹配方法   总被引:4,自引:0,他引:4  
吴建华  傅仲良 《计算机应用》2008,28(6):1612-1615
在要素类之间缺乏同名实体关联关系的情况下,通过空间分析自动识别出当前要素的同名实体及它们之间的变化信息。在查询当前要素的候选匹配集时,设计了一种基于自定义空间拓扑关系的空间查询方法,缩小了的空间查询范围并减少了查询次数,提高了空间分析的效率;在确定当前要素的同名实体时,提出了基于权重的空间要素相似性计算模型,基于该模型有效地对复杂空间关系下的要素进行了匹配,提高了匹配的准确性。  相似文献   

17.
实体链接是指将文本中具有歧义的实体指称项链接到知识库中相应实体的过程。该文首先对实体链接系统进行了分析,指出实体链接系统中的核心问题—实体指称项文本与候选实体之间的语义相似度计算。接着提出了一种基于图模型的维基概念相似度计算方法,并将该相似度计算方法应用在实体指称项文本与候选实体语义相似度的计算中。在此基础上,设计了一个基于排序学习算法框架的实体链接系统。实验结果表明,相比于传统的计算方法,新的相似度计算方法可以更加有效地捕捉实体指称项文本与候选实体间的语义相似度。同时,融入了多种特征的实体链接系统在性能上获得了达到state-of-art的水平。  相似文献   

18.
Entity linking is a fundamental task in natural language processing. The task of entity linking with knowledge graphs aims at linking mentions in text to their correct entities in a knowledge graph like DBpedia or YAGO2. Most of existing methods rely on hand‐designed features to model the contexts of mentions and entities, which are sparse and hard to calibrate. In this paper, we present a neural model that first combines co‐attention mechanism with graph convolutional network for entity linking with knowledge graphs, which extracts features of mentions and entities from their contexts automatically. Specifically, given the context of a mention and one of its candidate entities' context, we introduce the co‐attention mechanism to learn the relatedness between the mention context and the candidate entity context, and build the mention representation in consideration of such relatedness. Moreover, we propose a context‐aware graph convolutional network for entity representation, which takes both the graph structure of the candidate entity and its relatedness with the mention context into consideration. Experimental results show that our model consistently outperforms the baseline methods on five widely used datasets.  相似文献   

19.
在云计算平台下需要读取大量数据进行分析,数据中大量指代同一实体的重复数据给数据的分析和处理带来了困难。基于数据记录间的相似度进行聚类分析是目前实体识别的主要方法之一,但其耗时较长,而且不适用于云计算环境。给出了一种能够很好地利用云计算特点的基于字符串波形的实体识别方法。该方法首先统计字符频率,按照字符频率的大小生成字符串的波形,再利用基于波形的过滤性质加快相似度的计算,进行基于相似度的聚类。理论分析和通过真实数据得出的实验结果都表明了这种方法的正确性和有效性。  相似文献   

20.
问答系统应用于人工智能、自然语言处理和信息检索领域获得了较好的效果,知识图谱问答(KBQA)作为其中的重要组成部分,是一项极具挑战性的自然语言处理任务。然而,目前常见的中文KBQA系统对于实体链接的实体消歧部分并没有给出很好的解决方法。提出一种基于多特征实体消歧的中文KBQA系统,通过结合实体自身的知名度特征、问句与实体关系的语义相似度特征、问句与实体的字符相似度特征和语义相似度特征,构建多特征实体消歧模型,提高实体链接准确率,为系统的问句分类和最优路径选取部分提供更准确的主题实体,从而提升系统性能。实验结果表明,该系统在CCKS2019-CKBQA评测数据的验证集上平均F1值为72.08%,其中采用多特征消歧模型的实体链接准确率达到90.84%,较使用知名度消歧模型和评测大赛第1名分别提升6.35和0.11个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号