首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
论述了近年来国内外在常规命名实体识别方面研究工作的进展状况,针对其中最为关键的产品命名实体识别技术,考虑到领域本体对产品命名实体识别的支持,提出了将本体特征融入到统计模型中,结合词性特征、上下文特征,以及本体特征的多特征模型进行产品命名实体识别实验,实验结果证明,该方法能有效地提高产品命名实体识别的性能。  相似文献   

2.
针对互联网文本形式多样化造成的有效信息提取难度增加(尤其是命名实体识别方面)的问题,提出了一种统计和规则相结合的互联网文本命名实体识别方法。首先进行文本规范化,然后使用CRF模型,以词及词性作为特征进行训练,结合互联网文本的日常性、随意性和娱乐性等特点,以及若干匹配规则对文本进行命名实体识别。实验结果表明,该方法的准确率、召回率和F值分别达到了94.76%、85.34%、89.80%,能够有效地进行命名实体识别。  相似文献   

3.
中文电子病历数据专业性强,语法结构复杂,用于自然语言处理(NLP)的命名实体识别(NER)难度大。为了从电子病历数据中精确识别出医疗实体,提出了一种融合语义及边界信息的命名实体识别算法。首先,利用卷积神经网络(CNN)结构提取汉字图形信息,并与五笔特征拼接来丰富汉字的语义信息;然后,利用FLAT模型中的Lattice将医学词典作为字符潜在词组匹配文本信息;最后,将融入语义信息的Lattice模型用于中文电子病历命名实体识别。实验结果表明,该方法在Yidu-S4K数据集上的识别性能超过现有多种算法,且在Resume数据集上F1值可达到96.06%。  相似文献   

4.
针对微博用语不规范、噪声多、更新快、缩略语多,且数据量大等相关特点,提出基于深度学习的方法进行微博命名实体的识别。首先利用大量的未标注的微博信息对自动编码器训练,获得抽象特征,随后将这些特征作为深度学习网络的输入,最后得出句子中每个字的类标。在进行自动编码器训练的过程中,使用卷积方法替代窗口移动方法,以获取句子中的长依赖信息。通过对新浪微博数据的实验结果表明,该深度学习方法能够提高微博中命名实体识别的F1值,说明了本文算法的有效性。  相似文献   

5.
医疗病历命名实体识别的主要任务是将临床电子病历中的非结构化文本转化为结构化数据,进而为面向医疗领域任务开展的数据挖掘提供基础支撑. 提出一种基于ALBERT模型融合学习的中文医疗病历命名实体识别模型. 首先,采用人工标注方式扩展样本数据集,结合ALBERT模型对数据集进行微调; 其次,采用双向长短记忆网络(BiLSTM)提取文本的全局特征; 最后,基于条件随机场模型(CRF)命名实体的序列标记. 在标准数据集上的实验结果表明,该方法进一步提高了医疗文本命名识别精度,减少了时间开销.  相似文献   

6.
提出了一种基于多特征的中文文本蕴含识别方法,首先对文本进行预处理、中文分词、词性标注、命名实体识别、依存分析等处理;然后提取字符串特征、句法特征、语义特征等,使用贝叶斯逻辑回归模型进行预测;最后再使用规则进行修正,得到最终的识别结果.该方法在2014年RITE-VAL 评测任务的CS 数据上的MacroF1为0.625,超过目前最好的研究现状(MacroF1:0.615, BUPTTeam-CS-SVBC-05).  相似文献   

7.
卷积神经网络(Convolutional Neural Networks,CNN)无法判别输入文本中特征词与情感的相关性.因此提出一种双注意力机制的卷积神经网络模型(Double Attention Convolutional Neural Networks,DACNN),将词特征与词性特征有效融合后得到本文的特征表示,确定情感倾向.本文提出局部注意力的卷积神经网络模型,改进卷积神经网络的特征提取能力,采用双通道的局部注意力卷积神经网络提取文本的词特征和词性特征.然后使用全局注意力为特征分配不同的权重,有选择地进行特征融合,最后得到文本的特征表示.将该模型在MR和SST-1数据集上进行验证,较普通卷积神经网络和传统机器学习方法,在准确率上分别取得0.7%和1%的提升.  相似文献   

8.
军事领域非结构化文本中的大量目标实体往往包含丰富的军事信息和军事知识,对其准确识别是进行军事信息抽取和军事知识组织的基础性关键任务,也是构建军事知识图谱的重要环节。针对军事领域标注数据不足以及军事实体边界模糊的问题,提出基于预训练BERT模型的深度学习识别方法。利用BERT生成基于当前输入语境特征的动态字向量来增强字的语义表示,融合字的含边界词性特征得到特征融合向量,再连接 BiLSTM-CRI神经网络。在自建的军事领域标注数据集上的实验结果表明,相较于另外两种基准方法,该方法在准确率、召回率和F值上获得了更优的表现。  相似文献   

9.
针对新闻和微博2组有代表性的语料开展实验研究,旨在发现不同词性特征及其组合对2种通用网络平台话题检测的作用及其影响.研究表明:在选择单一词性特征时,名词特征可得到最好的检测结果,命名实体可在保证准确率的情况下大大降低聚类的特征维度.在选择词性组合作为特征时,名词或命名实体、数词、时间短语、形容词以及量词的组合特征可提升新闻网络话题检测的准确率,而名词或命名实体、形容词、量词、数词以及特殊符号与网址的组合特征可在微博语料上获得较好的检测结果.  相似文献   

10.
新闻文本中的人名纠错存在以下难点:1)人名中含有错误字段会影响甚至改变文本语义表达,故无法用传统命名实体识别方法识别句中人名;2)人名字段的特殊性极易产生重名或者歧义,使得误报率增加,并提升了人名纠错的难度。为此,本文提出了一种基于上下文语义的新闻人名纠错方法。该方法使用卷积神经网络提取文本语义信息,并使用词激活力模型计算文本中其他词语与人名字段的关联程度来捕捉并使用文本上下文语义信息。同时,针对文本中人名字段中含有错误而导致的识别效果低下的问题,使用人名实体边界识别算法提高对文本中疑似含有错误人名的识别提取效果。实验结果表明,该方法能够有效地识别文本中的人名并对其中的错误内容进行纠正。  相似文献   

11.
产品质量检测 (pruduct quality inspection, PQI) 是维护市场秩序和保障健康安全的一项重要工作, 通过自然 语言处理技术对质检文本数据实体识别, 能够有效监督和控制产品质量。为了提高 PQI 文本数据命名实体识别效 果, 提出一种融合注意力机制的 CNN-BiGRU-CRF 模型, 在 CNN 层将字词向量和词长特征向量联合输入, 充分获 取文本特征。使用注意力机制重点关注目标信息特征, 抑制无用信息, 将输出序列进行加权后得到标注分数值, 以 提高识别精度。以人工构建的 PQI 数据集作为实验数据, 并与其他模型对比。实验结果表明, 该模型在 8 种实体类 型的实体识别中准确率和 F1 值达到 74.7% 以上, 优于其他传统模型, 在 PQI 数据的实体识别上达到了较好的识别 效果。  相似文献   

12.
军事实体关系抽取是军事信息抽取的主要任务之一,目的在于识别非结构化军事文本中两个命名实体的关系类别.传统的军事关系抽取方法难以解决人工特征不充分、军事领域中文分词不准确以及未能充分利用句子间的实体关系特征等问题.因此,提出了一种融合预训练语言模型(BERT)和注意力机制的军事关系识别方法.该方法能够有效学习上下文语义特...  相似文献   

13.
提出了一种融合卷积神经网络和重启随机游走的实体链接方法.该方法首先对文本中的指称进行识别,然后生成指称的候选实体集,随后使用融合卷积神经网络和重启随机游走的实体链接方法对候选实体进行选择,最后对在知识库中无对应实体的指称进行聚类.该方法在TAC-KBP2016的实体识别与链接评测数据集上的FCEAFm值为0.652,2016年评测第1名的FCEAFm为0.643,实验结果表明,使用融合卷积神经网络和重启随机游走的实体链接方法能够有效地进行实体链接.  相似文献   

14.
基于层叠条件随机场的中文病历命名实体识别   总被引:1,自引:0,他引:1  
提出了一种基于层叠条件随机场的中文病历命名实体识别新方法,该方法在第一层条件随机场模型中实现对病历中身体基本部位或组织和基本疾病名称的识别,将识别结果传递到第二层条件随机场模型(Conditional Random Field,CRF),同时定义一个由词性和实体特征结合而成的组合特征,与字符特征、词边界特征及上下文特征共同作为第二层CRF模型的特征集,为疾病名称和临床症状两类命名实体的识别提供决策支持。在利用CRF++进行的开放测试中,本文模型相比于无自定义组合特征的层叠CRF模型,F值提高了3%;相比于单层CRF模型,F值提高了7%,总体性能有显著提高。  相似文献   

15.
命名实体识别作为信息抽取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在法院判决书信息抽取系统中也得到了广泛应用。然而,已有的技术模型在文本中存在大量专有名词或术语时,实体识别的提取效果会变得很差。双向循环神经网络—条件随机场判别模型可对现有的法院判决书条件随机场模型进行优化,实现自动化特征的选取过程,准确率比已有的条件随机场模型更高。  相似文献   

16.
命名实体识别是自然语言处理的核心任务。在基于深度学习的中文命名实体识别方法中,静态字向量无法表征字的多义性。针对该问题,提出了基于XLnet嵌入的中文命名实体识别方法。该方法首先通过XLnet(Generalized Autoregressive Pretraining for Language Understanding,XLnet)模型获取字级别的上下文表示。其次,利用BiLSTM-CRF模型获取文本依赖信息和标签信息。实验结果表明,该方法在人民日报、MSRA、Boson等3种数据集上分别达到91.9%、89.8%、74%的F1值,均高于其他主流的中文命名实体识别方法。  相似文献   

17.
基于SVM的生物医学命名实体的识别   总被引:2,自引:0,他引:2  
命名实体识别是生物医学数据挖掘的基本任务.文章使用了基于支持向量机的方法对生物医学文本中的命名实体进行了识别,系统中结合了丰富的特征集,包括局部特征,全文特征和外部资源特征,对不同的特征和不同的特征组合对系统的贡献进行了评测和实验.为了进一步提高系统的性能,还引入了缩写词识别模块和过滤器模块.实验结果表明,该方法对生物医学文本中命名实体的识别取得到了较好的结果.  相似文献   

18.
癫痫病相关论文缺乏命名实体识别和关系抽取任务的标注数据,命名实体识别和关系抽取模型无法用常规方法训练。为解决该问题,针对癫痫病相关论文的数据特点,改进了命名实体识别和关系抽取模型,提出利用相近领域的医疗数据和预训练模型构建零资源癫痫病领域命名实体识别和关系抽取模型。评估了现有无监督和半监督模型在癫痫病领域论文数据集上的性能,并针对数据集特征引入域对抗网络和关系判别器,有效地提高了命名实体识别和关系抽取模型的性能。将癫痫患者的脑电特征以视觉模态嵌入知识图谱中,在提高脑电分析可解释性的同时,构建了更加直观的多模态知识图谱。  相似文献   

19.
受到空洞卷积的启发提出面向二维文本嵌入的列式空洞卷积,设计空洞卷积块架构,基于此架构提出命名实体识别模型并开展进一步试验。在命名实体识别试验中,提出的模型的精密度、召回率和F1超越了其他基线模型,分别达到了0.918 7、0.879 4和0.898 6,表明空洞卷积块架构能够获取包含更多上下文信息的文本特征,从而支持模型对上下文长距离依赖特征的捕获和处理。感受野试验表明需要适当调整空洞率以减轻空洞卷积给模型带来的“网格效应”。提出的基于空洞卷积块架构能有效执行命名实体识别任务。  相似文献   

20.
随着网络的快速普及,互联网新闻的数量剧增,在这种情况下,如何有效地找到更加符合特定主题的相关报道成为一个迫切需要解决的问题。针对这一问题,提出了基于关键实体和文本摘要多特征融合的话题匹配算法。首先,使用W2NER模型进行命名实体识别,通过词频、TF-IDF、词的合群性、词词相似度和词句相似度特征,提取关键的实体。其次,使用Pegasus模型进行文本摘要,通过BiLSTM融合关键实体特征与文本摘要特征,得到新闻文本的深层次语义特征。再次,使用交叉注意力机制对待匹配新闻进行特征交互,增进彼此的联系。最后,融合新闻文本的深层次语义特征和文本交互特征,共同参与文本话题匹配的判断。在来自于搜狐的真实数据上进行了不同算法的对比实验,结果表明:所提算法准确率和精确率均与其他算法效果相近,召回率和F1值均有所提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号