首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
生物医学命名实体识别的研究与进展*   总被引:12,自引:0,他引:12  
为直接高效地获取文献中的知识,命名实体识别用来识别文本中具有特定意义的实体。这是应用文本挖掘技术自动获取知识的关键的第一步,因此受到日益广泛的关注。主要从评测方法、特征选择、机器学习方法和后期处理等方面介绍了近年来生物医学命名实体识别方面的主要研究方法及成果,并对目前各方面存在的问题进行了分析和讨论,最后对该领域的研究前景进行了展望。  相似文献   

2.
文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤 。很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人,往往能够在很大程度上影响着文本所属的类别。然而,现阶段的文本特征方法都只利用关键词
词的统计意义,而没有考虑关键词作为命名实体所含有的分类特征。针对这一问题,本文提出了一种将命名实体识别方法NER集成到文本分类特征选择中的方法,在保留关键 词统计特征之外,还保留了单词作为命名实体的分类特征。实验结果表明,相对于其他特征选择方法而言,本文提出的方法在一定程度上提高了文本分类的分类准确率。  相似文献   

3.
科学技术的进步,推进着军事武器装备的快速更新. 在高度信息化的时代,急需智能化军事信息处理技术. 本文针对飞行器、坦克车辆、火炮弹炮、导弹武器等军事文本中的武器命名实体,提出了基于词向量、词状态的特征,利用深度神经网络模型的识别方法. 实验表明:在测试语料上取得F-1值0.9102的效果.  相似文献   

4.
5.
命名实体识别是文本信息处理的重要基础,也是自然语言处理的一项关键技术.近几年来微博迅速发展成为人们进行信息交流的平台,微博文本俨然已经成为进行命名实体抽取的新载体.论文利用微博内容和结构的特点,提出了一种基于统计与规则相结合的命名实体识别的方法.微博文本较短并且文本中含有标签、话题等内容,论文在考虑这些特点基础上,利用微博评论和转发进行词频统计,通过规则筛选,完成命名实体识别.在新浪微博数据上的实验结果表明该方法可以有效地提高微博中命名实体识别效果.  相似文献   

6.
实验提出了一种基于词频统计的蛋白质关系知识发现方法,该方法首先通过生物命名实体识别技术识别出蛋白质实体,然后统计共出现频率,形成候选实体对,从而发现最有可能的实体关联。  相似文献   

7.
实验提出了一种基于词频统计的蛋白质关系知识发现方法,该方法首先通过生物命名实体识别技术识别出蛋白质实体,然后统计共出现频率,形成候选实体对,从而发现最有可能的实体关联。  相似文献   

8.
基于条件随机域的生物命名实体识别   总被引:1,自引:1,他引:0       下载免费PDF全文
提出一种基于条件随机域模型的生物命名实体识别方法,结合单词构词特性以及距离依赖特性,在JNLPBA的GENIAV3.02数据上进行实验,测试结果表明,引入距离依赖后,系统的识别性能比只利用单特性的条件随机域方法提高2.54%,可获得较好的识别效果,提高了系统的识别效率。  相似文献   

9.
已有的大量生物医学文本为人们提供了充足的资料,但却没有足够好的工具来帮助人们从中获取信息和知识。而命名实体识别则在信息检索、信息抽取及知识发现等这样的应用中起着很重要的作用。本文基于JNLPBA生物命名实体识别任务,简要介绍了目前几种在生物医学文本中常用的基于机器学习的命名实体识别模型,并进行比较及常规讨论,同时也提供了一些相关的背景信息。  相似文献   

10.
藏文命名实体识别是藏文自然语言处理领域的一项关键技术,其目的是识别文本中的人名、地名及组织机构名。在目前的研究中,深度学习方法需要大量的标注数据是制约模型性能的主要因素,因此本文提出基于小样本学习的藏文命名实体识别方法。针对小样本数据量少导致模型无法充分学习实体特征的问题,本文提出实体特征信息融合方法,在训练过程中将实体位置信息、分词信息与藏文音节信息以维度拼接的方式进行特征融合,通过辅助信息增强实体特征,使得模型可以较好地学习藏文长实体的边界信息,并设计消融实验探究不同特征信息对模型效果的影响。实验结果表明,本文提出的方法有效提高了藏文小样本命名实体识别模型的准确率,相较于基线实验F1值总体提升了22.22~38个百分点。  相似文献   

11.
步态识别技术方法研究   总被引:1,自引:0,他引:1  
步态识别是依据人行走方式的不同对人的身份进行识别的一种生物特征识别技术。介绍了步态识别现状及实现方法,并给出了前景展望。  相似文献   

12.
提出一种针对层次分类的文本特征选择方法。先给出类别层次相关度的概念,并利用分类树和训练数据在不同层次上的概率分布进行计算,进而得到分类树中不同类别的重要性。最后基于前面的计算结果,计算每个特征对类别的识别能力,并选择识别能力大的特征组成用于分类的特征集合。实验表明该方法在选取的特征质量以及在accuracy、F1和micro-Precision等分类测度上均优于传统方法。  相似文献   

13.
基于Gabor特征的人脸表情识别系统虽具有良好的识别性能,但特征维数大、分类器复杂度高。因此,文中提出一种基于PHOG特征与聚类线性鉴别分析(CLDA)的笑脸识别方法。PHOG特征的引入在于简化系统的运算复杂度,而CLDA克服传统线性鉴别分析方法的多模态问题。实验结果表明PHOG特征免去Gabor特征在Adaboost耗时的特征选择过程,具有和Gabor特征相当或更优的识别性能,且CLDA在维数降低时,系统的识别率能得到更好保持。  相似文献   

14.
Z.  O.  A.  R.  A.  J.   《Data & Knowledge Engineering》2007,61(3):449-466
The increasing flow of digital information requires the extraction, filtering and classification of pertinent information from large volumes of texts. All these tasks greatly benefit from involving a Named Entity Recognizer (NER) in the preprocessing stage. This paper proposes a completely automatic NER system. The NER task involves not only the identification of proper names (Named Entities) in natural language text, but also their classification into a set of predefined categories, such as names of persons, organizations (companies, government organizations, committees, etc.), locations (cities, countries, rivers, etc.) and miscellaneous (movie titles, sport events, etc.). Throughout the paper, we examine the differences between language models learned by different data-driven classifiers confronted with the same NLP task, as well as ways to exploit these differences to yield a higher accuracy than the best individual classifier. Three machine learning classifiers (Hidden Markov Model, Maximum Entropy and Memory Based Learning) are trained on the same corpus in order to resolve the NE task. After comparison, their output is combined using voting strategies. A comprehensive study and experimental work on the evaluation of our system, as well as a comparison with other systems has been carried out within the framework of two specialized scientific competitions for NER, CoNLL-2002 and HAREM-2005. Finally, this paper describes the integration of our NER system in different NLP applications, in concrete Geographic Information Retrieval and Conceptual Modelling.  相似文献   

15.
摘要:该研究以蒙古文人名识别为目的,实现了基于条件随机场模型的人名自动识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中人名的存在形式以及各类人名的特点,针对蒙古语语料库中人名的特点,在词汇特征、词性特征和指示词特征等基本特征基础上引入了汉语姓氏特征、人名词典特征、兼类人名特征以及双词根特征。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的人名识别性能达到了94.56%的准确率,90.60%的召回率和92.54%的F值。该方法比起以往的基于的规则的系统取得了较好的结果。  相似文献   

16.
中文人名的识别至今还是自然语言研究领域一个比较困难的课题.因此提出一种基于条件随机场模型的文中人名识别方法。条件随机场模型是一种无向图模型.有效避免有向图在标记的过程中出现偏执的问题,并且通过二次识别.有效解决人名在上下文环境中的识别问题。通过实验分析,基于条件随机场模型的人名识别能比较准确地识别出中文的人名。  相似文献   

17.
电力调度领域命名实体识别是电力知识图谱构建步骤中的重要一环,目前存在基于机器学习和深度学习模型被用于通用领域或是其他专业领域的命名实体识别.为了解决电力调度领域命名实体识别的问题,研究Transformer-BiGRU-CRF模型,该模型可以有效的解决电力调度领域中命名实体识别的问题.通过Transformer模型得到语料的字向量,再通过BiGRU和CRF进行命名实体识别。该模型在训练过程中有两种训练方式,第1种方式是只训练BiGRU和CRF部分的参数;第2种方式是训练包括Transformer部分的整个模型的参数.最后发现,第1种方式达到模型的平稳状态需要的时间更少,但是第2种达到平稳状态准确率会高出接近5%.  相似文献   

18.
深度学习在语音识别中的研究进展综述   总被引:1,自引:0,他引:1  
在如今的大数据时代里,对于处理大量未经标注的原始语音数据的传统机器学习算法,很多都已不再适用。与此同时,深度学习模型凭借着其对海量数据的强大建模能力,能够直接对未标注数据进行处理,成为当前语音识别领域的一个研究热点。首先主要分析和总结了当前几种具有代表性的深度学习模型;其次是其在语音识别中对于语音特征提取及声学建模中的应用;最后总结了当前所面临的问题和发展方向。  相似文献   

19.
文章介绍了一个基于NN/HMM混合模型的汉语地名识别系统,该系统能自动判别并拒识词表之外的词。文中训练的基于HMM的模型,包括关键词模型、填充模型和“反关键词”模型。笔者对识别器的输出结果进行验证,把基于HMM的统计特征送到神经网络处理,由网络的输出来判断是否为词表之外的词。该文在实验中建立了一个基于传统N-Best方法的基准模型并试验了三种不同的网络拓扑结构,包括前馈后向传播网络、Elman后向传播网络以及可训练级联前导后向传播网络。实验结果表明前馈后向传播网络的性能最好,与基准模型比较平均错误率下降54.4%。  相似文献   

20.
文字识别是一种通用的图像理解技术,对信息检索、车牌识别和自动驾驶等应用的研究有着重要意义。随着神经网络的伟大复兴,场景文字识别任务得到了很大推动,近年来涌现了许多基于深度学习的文字识别算法。本文提出了一种基于特征融合的CRNN改进算法,使用三个通用的文字识别数据集从识别准确率、运行效率和模型大小三个方面进行分析。实验结果表明该算法在提高准确率的同时,运行效率也有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号