共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤 。很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人,往往能够在很大程度上影响着文本所属的类别。然而,现阶段的文本特征方法都只利用关键词
词的统计意义,而没有考虑关键词作为命名实体所含有的分类特征。针对这一问题,本文提出了一种将命名实体识别方法NER集成到文本分类特征选择中的方法,在保留关键 词统计特征之外,还保留了单词作为命名实体的分类特征。实验结果表明,相对于其他特征选择方法而言,本文提出的方法在一定程度上提高了文本分类的分类准确率。 相似文献
词的统计意义,而没有考虑关键词作为命名实体所含有的分类特征。针对这一问题,本文提出了一种将命名实体识别方法NER集成到文本分类特征选择中的方法,在保留关键 词统计特征之外,还保留了单词作为命名实体的分类特征。实验结果表明,相对于其他特征选择方法而言,本文提出的方法在一定程度上提高了文本分类的分类准确率。 相似文献
3.
5.
命名实体识别是文本信息处理的重要基础,也是自然语言处理的一项关键技术.近几年来微博迅速发展成为人们进行信息交流的平台,微博文本俨然已经成为进行命名实体抽取的新载体.论文利用微博内容和结构的特点,提出了一种基于统计与规则相结合的命名实体识别的方法.微博文本较短并且文本中含有标签、话题等内容,论文在考虑这些特点基础上,利用微博评论和转发进行词频统计,通过规则筛选,完成命名实体识别.在新浪微博数据上的实验结果表明该方法可以有效地提高微博中命名实体识别效果. 相似文献
6.
实验提出了一种基于词频统计的蛋白质关系知识发现方法,该方法首先通过生物命名实体识别技术识别出蛋白质实体,然后统计共出现频率,形成候选实体对,从而发现最有可能的实体关联。 相似文献
7.
实验提出了一种基于词频统计的蛋白质关系知识发现方法,该方法首先通过生物命名实体识别技术识别出蛋白质实体,然后统计共出现频率,形成候选实体对,从而发现最有可能的实体关联。 相似文献
8.
9.
邱莎 《数字社区&智能家居》2007,(3):1385-1387
已有的大量生物医学文本为人们提供了充足的资料,但却没有足够好的工具来帮助人们从中获取信息和知识。而命名实体识别则在信息检索、信息抽取及知识发现等这样的应用中起着很重要的作用。本文基于JNLPBA生物命名实体识别任务,简要介绍了目前几种在生物医学文本中常用的基于机器学习的命名实体识别模型,并进行比较及常规讨论,同时也提供了一些相关的背景信息。 相似文献
10.
藏文命名实体识别是藏文自然语言处理领域的一项关键技术,其目的是识别文本中的人名、地名及组织机构名。在目前的研究中,深度学习方法需要大量的标注数据是制约模型性能的主要因素,因此本文提出基于小样本学习的藏文命名实体识别方法。针对小样本数据量少导致模型无法充分学习实体特征的问题,本文提出实体特征信息融合方法,在训练过程中将实体位置信息、分词信息与藏文音节信息以维度拼接的方式进行特征融合,通过辅助信息增强实体特征,使得模型可以较好地学习藏文长实体的边界信息,并设计消融实验探究不同特征信息对模型效果的影响。实验结果表明,本文提出的方法有效提高了藏文小样本命名实体识别模型的准确率,相较于基线实验F1值总体提升了22.22~38个百分点。 相似文献
11.
12.
提出一种针对层次分类的文本特征选择方法。先给出类别层次相关度的概念,并利用分类树和训练数据在不同层次上的概率分布进行计算,进而得到分类树中不同类别的重要性。最后基于前面的计算结果,计算每个特征对类别的识别能力,并选择识别能力大的特征组成用于分类的特征集合。实验表明该方法在选取的特征质量以及在accuracy、F1和micro-Precision等分类测度上均优于传统方法。 相似文献
13.
基于Gabor特征的人脸表情识别系统虽具有良好的识别性能,但特征维数大、分类器复杂度高。因此,文中提出一种基于PHOG特征与聚类线性鉴别分析(CLDA)的笑脸识别方法。PHOG特征的引入在于简化系统的运算复杂度,而CLDA克服传统线性鉴别分析方法的多模态问题。实验结果表明PHOG特征免去Gabor特征在Adaboost耗时的特征选择过程,具有和Gabor特征相当或更优的识别性能,且CLDA在维数降低时,系统的识别率能得到更好保持。 相似文献
14.
The increasing flow of digital information requires the extraction, filtering and classification of pertinent information from large volumes of texts. All these tasks greatly benefit from involving a Named Entity Recognizer (NER) in the preprocessing stage. This paper proposes a completely automatic NER system. The NER task involves not only the identification of proper names (Named Entities) in natural language text, but also their classification into a set of predefined categories, such as names of persons, organizations (companies, government organizations, committees, etc.), locations (cities, countries, rivers, etc.) and miscellaneous (movie titles, sport events, etc.). Throughout the paper, we examine the differences between language models learned by different data-driven classifiers confronted with the same NLP task, as well as ways to exploit these differences to yield a higher accuracy than the best individual classifier. Three machine learning classifiers (Hidden Markov Model, Maximum Entropy and Memory Based Learning) are trained on the same corpus in order to resolve the NE task. After comparison, their output is combined using voting strategies. A comprehensive study and experimental work on the evaluation of our system, as well as a comparison with other systems has been carried out within the framework of two specialized scientific competitions for NER, CoNLL-2002 and HAREM-2005. Finally, this paper describes the integration of our NER system in different NLP applications, in concrete Geographic Information Retrieval and Conceptual Modelling. 相似文献
15.
摘要:该研究以蒙古文人名识别为目的,实现了基于条件随机场模型的人名自动识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中人名的存在形式以及各类人名的特点,针对蒙古语语料库中人名的特点,在词汇特征、词性特征和指示词特征等基本特征基础上引入了汉语姓氏特征、人名词典特征、兼类人名特征以及双词根特征。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的人名识别性能达到了94.56%的准确率,90.60%的召回率和92.54%的F值。该方法比起以往的基于的规则的系统取得了较好的结果。 相似文献
16.
唐钊 《电脑与微电子技术》2012,(14):3-7
中文人名的识别至今还是自然语言研究领域一个比较困难的课题.因此提出一种基于条件随机场模型的文中人名识别方法。条件随机场模型是一种无向图模型.有效避免有向图在标记的过程中出现偏执的问题,并且通过二次识别.有效解决人名在上下文环境中的识别问题。通过实验分析,基于条件随机场模型的人名识别能比较准确地识别出中文的人名。 相似文献
17.
电力调度领域命名实体识别是电力知识图谱构建步骤中的重要一环,目前存在基于机器学习和深度学习模型被用于通用领域或是其他专业领域的命名实体识别.为了解决电力调度领域命名实体识别的问题,研究Transformer-BiGRU-CRF模型,该模型可以有效的解决电力调度领域中命名实体识别的问题.通过Transformer模型得到语料的字向量,再通过BiGRU和CRF进行命名实体识别。该模型在训练过程中有两种训练方式,第1种方式是只训练BiGRU和CRF部分的参数;第2种方式是训练包括Transformer部分的整个模型的参数.最后发现,第1种方式达到模型的平稳状态需要的时间更少,但是第2种达到平稳状态准确率会高出接近5%. 相似文献
18.
19.
文章介绍了一个基于NN/HMM混合模型的汉语地名识别系统,该系统能自动判别并拒识词表之外的词。文中训练的基于HMM的模型,包括关键词模型、填充模型和“反关键词”模型。笔者对识别器的输出结果进行验证,把基于HMM的统计特征送到神经网络处理,由网络的输出来判断是否为词表之外的词。该文在实验中建立了一个基于传统N-Best方法的基准模型并试验了三种不同的网络拓扑结构,包括前馈后向传播网络、Elman后向传播网络以及可训练级联前导后向传播网络。实验结果表明前馈后向传播网络的性能最好,与基准模型比较平均错误率下降54.4%。 相似文献
20.
文字识别是一种通用的图像理解技术,对信息检索、车牌识别和自动驾驶等应用的研究有着重要意义。随着神经网络的伟大复兴,场景文字识别任务得到了很大推动,近年来涌现了许多基于深度学习的文字识别算法。本文提出了一种基于特征融合的CRNN改进算法,使用三个通用的文字识别数据集从识别准确率、运行效率和模型大小三个方面进行分析。实验结果表明该算法在提高准确率的同时,运行效率也有所提高。 相似文献