首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
命名实体的网络话题K-means动态检测方法   总被引:1,自引:0,他引:1  
针对传统的网络话题检测方法在文本特征表示方面的不足及K-means聚类算法面临的问题,提出了一种基于命名实体的网络话题K-means动态检测方法.该方法对传统话题检测的特征表示方法进行了改进,用命名实体和文本特征词相结合表示文本特征,用命名实体对文本表示的贡献大小表示命名实体的权重;另外,利用自适应技术对K-means聚类算法中的K值进行自收敛,对K-means聚类算法进行了优化,利用K值的动态选取来实现网络话题的动态检测.实验结果表明,该方法较好地区分了相似话题,有效提高了话题检测的性能.  相似文献   

2.
针对基于文本的需求跟踪方法严重依赖文本质量的问题,提出了一种利用命名实体识别技术标注制品文档关键词的需求跟踪方法。该方法通过代码实体上下文构建命名实体识别模型,解决了抽象语法树和正则表达式无法解析非源代码形式的软件制品的问题。利用命名实体识别模型标识出软件制品中的代码实体之后,方法将软件制品转换为文档集合并进行语义聚类,最后再通过映射算法创建制品间的需求跟踪关系。实验结果表明,与基于所有词项和基于高权重词项的需求跟踪方法相比,该方法能够有效提高需求跟踪结果的质量。  相似文献   

3.
为解决命名实体之间的复杂嵌套以及语料库中标注误差导致的相邻命名实体边界重叠问题,提出一种中文重叠命名实体识别方法。利用基于随机合并与拆分的层次化聚类算法将重叠命名实体标签划分到不同的聚类簇中,建立文字到实体标签之间的一对一关联关系,解决了实体标签聚类陷入局部最优的问题,并在每个标签聚类簇中采用融合中文部首的BiLSTM-CRF模型提高重叠命名实体的识别稳定性。实验结果表明,该方法通过标签聚类的方式有效避免标注误差对识别过程的干扰,F1值相比现有识别方法平均提高了0.05。  相似文献   

4.
<正>命名实体识别是文本信息处理中的一个研究热点,人名是命名实体的重要组成部分。本文主要讨论中文文本中人名识别的问题。所要识别的人名包括汉语人名、类汉语人名(如韩国人名、越南人名等)以及人名译名。在本文中,我们将其统一称为汉语人名。 由于最大熵模型具有简洁、通用和易于移植的特点,使用该模型在英文中进行命名实体识别已取得一定成效。本文结合中文文本中人名的特点,将对使用最大熵模型进行人名识别进行介绍,重点介绍特征选择方法。1 系统描述1.1 最大熵模型 对于给定的训练样本,最大熵模型应该选择一个与训练样本一致的概率分布,而对于观察不到的情况,模型赋予均匀的概率分布。满足上述特征的概率分布具有最大熵。这种分布是唯一的,并具有下述特征:  相似文献   

5.
基于ALBERT-BGRU-CRF的中文命名实体识别方法   总被引:1,自引:0,他引:1  
命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题,提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量,有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义,获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码,降低错误标签输出概率。最终得到实体标注信息,实现中文命名实体识别。实验结果表明,ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%,同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。  相似文献   

6.
在基于条件随机场的中文命名实体识别任务中,现有表示学习方法学习到的特征存在语义表示偏差,给中文命名实体识别带来噪音。针对此问题,提出了一种基于位置敏感Embedding的中文命名实体识别方法。该方法将上下文位置信息融入到现有的Embedding模型中,采用多尺度聚类方法抽取不同粒度的Embedding特征,通过条件随机场来识别中文命名实体。实验证明,该方法学习到的特征缓解了语义表示偏差,进一步提高了现有系统的性能,与传统方法进行相比,F值提高了2.85%。  相似文献   

7.
针对传统多模态命名实体识别方法无法有效融合图文模态信息且不能区分易混淆实体等问题,提出一种基于多任务学习的多模态命名实体识别方法,通过对比融合辅助任务促进图文模态信息的融合,通过实体聚类辅助任务提升模型对易混淆实体的判断能力。利用BERT预训练语言模型和ResNet模型分别对原始文本和图片进行特征映射获得相应的特征向量,并利用跨模态Transformer结构融合图文模态信息。在多模态命名实体识别任务基础上,增加对比融合辅助任务促进图文模态信息融合,增加实体聚类辅助任务学习实体类别之间的差异,提升模型对易混淆实体的区分能力。最后,利用条件随机场层学习上下文转移概率,并输出最优预测结果。实验结果显示,在国际公开数据集Twitter-2017上,所提方法相较于基线方法取得了更高的准确率、召回率和F1值,其中F1值可达85.59%,表明对比融合辅助任务和实体聚类辅助任务能够促进模型对实体的识别效果。  相似文献   

8.
法律文书命名实体识别是智慧司法领域的关键性和基础性任务。在目前法律文书命名实体识别方法中,存在实体定义与司法业务结合不紧密、传统词向量无法解决一词多义等问题。针对以上问题,该文提出一种新的法律文本命名实体定义方案,构建了基于起诉意见书的法律文本命名实体语料集LegalCorpus;提出一种基于BERT-ON-LSTM-CRF(Bidirectional Encoder Representations from Transformers-Ordered Neuron-Long Short Term Memory Networks-Conditional Random Field)的法律文书命名实体识别方法,该方法首先利用预训练语言模型BERT根据字的上下文动态生成语义向量作为模型输入,然后运用ON-LSTM对输入进行序列和层级建模以提取文本特征,最后利用CRF获取最优标记序列。在LegalCorpus上进行实验,该文提出的方法F1值达到86.09%,相比基线模型lattice LSTM F1值提升了7.8%。实验结果表明,该方法可以有效对法律文书的命名实体进行识别。  相似文献   

9.
命名实体识别是自然语言处理的基本任务之一。针对中文电子病历命名实体识别传统模型识别效果不佳的问题,提出一种完全基于注意力机制的神经网络模型。实验采用自建真实中文电子病历数据集并对数据集进行人工标注、分词等预处理;对Transformer模型进行训练优化,以提取文本特征;利用条件随机场对提取到的文本特征进行分类识别。为验证所提方法的有效性,将构建的Transformer-CRF神经网络模型与其他7种传统模型进行比较研究,实验采用精确率、召回率和[F1]值三个指标评估模型的识别性能。实验结果显示,在同一语料集下,Transformer-CRF模型对身体部位类的命名实体识别效果较好,[F1]值高达95.02%;且与其他7种传统模型相比,Transformer-CRF模型的精确率、召回率和[F1]值均较高,在一定程度上验证了所构建模型具有较好的识别性能。  相似文献   

10.
在特定领域的命名实体识别技术中,针对不同领域有各种不同的识别方法。不同领域文本具有其独特的文本特征,这导致已有领域的识别方法难以适应新的特定领域。针对该问题,提出一种基于条件随机场、半监督学习和主动学习相结合的方法,将其形成一个统一的技术框架来适应各个特定领域的命名实体识别。该方法首先选取特定文本的基本通用特征构建特征集合,训练条件随机场对特定领域进行命名实体的初步识别,再通过主动选取置信度低于选定阈值的样本进行人工标注,并迭代扩展训练样本来达到高识别效果。为验证所提方法,针对轨道交通领域文本进行了实验,实验结果表明该方法行之有效,在轨道交通领域取得了较好的识别效果。  相似文献   

11.
Product named entity recognition in Chinese text   总被引:1,自引:0,他引:1  
There are many expressive and structural differences between product names and general named entities such as person names, location names and organization names. To date, there has been little research on product named entity recognition (NER), which is crucial and valuable for information extraction in the field of market intelligence. This paper focuses on product NER (PRO NER) in Chinese text. First, we describe our efforts on data annotation, including well-defined specifications, data analysis and development of a corpus with annotated product named entities. Second, a hierarchical hidden Markov model-based approach to PRO NER is proposed and evaluated. Extensive experiments show that the proposed method outperforms the cascaded maximum entropy model and obtains promising results on the data sets of two different electronic product domains (digital and cell phone).
Feifan LiuEmail:
  相似文献   

12.
命名实体识别是信息抽取的重要研究内容,主要包括对组织机构名、地名和人名的自动识别。针对英语和汉语的命名实体识别研究开始较早,主要采用基于规则和基于统计的方法进行识别,但目前国内还少有针对越南语命名实体识别的研究。该文分析了越南语命名实体的语言学特点,对其分类并进行了形式化表达,提出了一种基于规则的越南语命名实体识别方法,实验结果显示,该方法能够达到较高的识别准确率。  相似文献   

13.
目前在中文命名实体识别的任务中经常采用有监督的字序列标注模型。我们在实际应用中发现,基于字序列标注模型的中文命名实体识别模型对于词语边界的识别错误是影响识别效果的主要因素之一,边界错误平均占错误结果中的47.5%。该文通过在平均感知机模型中引入全局的词语边界特征,使得人名、地名、机构名识别的F值平均提升了0.04并降低了边界错误占错误结果的比例。  相似文献   

14.
命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。  相似文献   

15.
面向商务信息抽取的产品命名实体识别研究   总被引:12,自引:5,他引:12  
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hidden Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7% ,86.9% ,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。  相似文献   

16.
文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤 。很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人,往往能够在很大程度上影响着文本所属的类别。然而,现阶段的文本特征方法都只利用关键词
词的统计意义,而没有考虑关键词作为命名实体所含有的分类特征。针对这一问题,本文提出了一种将命名实体识别方法NER集成到文本分类特征选择中的方法,在保留关键 词统计特征之外,还保留了单词作为命名实体的分类特征。实验结果表明,相对于其他特征选择方法而言,本文提出的方法在一定程度上提高了文本分类的分类准确率。  相似文献   

17.
Named entity recognition (NER) is the core part of information extraction that facilitates the automatic detection and classification of entities in natural language text into predefined categories, such as the names of persons, organizations, locations, and so on. The output of the NER task is crucial for many applications, including relation extraction, textual entailment, machine translation, information retrieval, etc. Literature shows that machine learning and deep learning approaches are the most widely used techniques for NER. However, for entity extraction, the abovementioned approaches demand the availability of a domain‐specific annotated data set. Our goal is to develop a hybrid NER system composed of rule‐based deep learning as well as clustering‐based approaches, which facilitates the extraction of generic entities (such as person, location, and organization) out of natural language texts of domains that lack generic named entities labeled domain data sets. The proposed approach takes the advantages of both deep learning and clustering approaches but separately, in combination with a knowledge‐based approach by using a postprocessing module. We evaluated the proposed methodology on court cases (judgments) as a use case since it contains generic named entities of different forms that are poorly or not present in open‐source NER data sets. We also evaluated our hybrid models on two benchmark data sets, namely, Computational Natural Language Learning (CoNLL) 2003 and Open Knowledge Extraction (OKE) 2016. The experimental results obtained from benchmark data sets show that our hybrid models achieved substantially better performance in terms of the F‐score in comparison to other competitive systems.  相似文献   

18.
本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征。这些特征包括单词本身的词法词态特征和上下文信息。利用这些在任何语言的文本上都极易获得的特征,我们采用最大熵分类器构建了一个基准系统。在此基础上,我们首先通过网络资源建立了实体名词典知识库;并利用词典和基准系统在未标注语料上抽取出现的实体名作为辅助的训练语料;最后再将这些语料加入训练。实验结果表明,辅助的训练语料能够在一定程度上提高系统的性能。  相似文献   

19.
命名实体识别是自然语言处理中的一个关键.在需求文档中存在过长的实体:虚功能,使得普适的传统命名实体识别方法无法有效地识别得到完整的实体.本文针对需求文档实体识别模型进行深入研究,引入深度学习方法,提出基于深度残差网络(ResNet)的CNER方法与基于规则的方法相结合,进行针对中文需求文档的分词.本文的命名实体识别模型...  相似文献   

20.
融合多特征的最大熵汉语命名实体识别模型   总被引:2,自引:0,他引:2  
最大熵模型能有效整合多种约束信息,对于汉语命名实体识别具有很好的适用性,因此,将其作为基本框架,提出一种融合多特征的最大熵汉语命名实体识别模型,该模型集成局部与全局多种特征,同时为降低搜索空间并提高处理效率,而引入了启发式知识,基于SIGHAN 2008命名实体评测任务测试数据的实验结果表明,所建立的混合模式是一种组合统计模型与启发式知识的有效汉语命名实体识别模式,基于不同测试数据的实验说明,该方法针对不同测试数据源具有一致性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号