首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 531 毫秒
1.
针对互联网文本形式多样化造成的有效信息提取难度增加(尤其是命名实体识别方面)的问题,提出了一种统计和规则相结合的互联网文本命名实体识别方法。首先进行文本规范化,然后使用CRF模型,以词及词性作为特征进行训练,结合互联网文本的日常性、随意性和娱乐性等特点,以及若干匹配规则对文本进行命名实体识别。实验结果表明,该方法的准确率、召回率和F值分别达到了94.76%、85.34%、89.80%,能够有效地进行命名实体识别。  相似文献   

2.
论述了近年来国内外在常规命名实体识别方面研究工作的进展状况,针对其中最为关键的产品命名实体识别技术,考虑到领域本体对产品命名实体识别的支持,提出了将本体特征融入到统计模型中,结合词性特征、上下文特征,以及本体特征的多特征模型进行产品命名实体识别实验,实验结果证明,该方法能有效地提高产品命名实体识别的性能。  相似文献   

3.
针对商品评价信息的褒贬分析问题,提出PMI_HRV算法。算法在基于语料库的PMI算法基础上,采用最新的基于知网词典算法,解决基于语料库算法中低频词准确率差的问题;建立评价领域词语相关的基准词表,并增加否定属性表和网络用语表以扩充知网词典,使结果更为准确。实验结果表明,PMI_HRV算法具有较高的准确率和召回率。  相似文献   

4.
针对旅游领域,提出了一种基于隐马尔可夫模型(HMM)的旅游景点实体识别方法。该方法采用HMM学习算法,选取句子各态顺序遍历模型,结合词性特征和校正规则实现了旅游景点的自动识别。最后进行了旅游景点实体识别测试实验,结果表明所提方法取得了较好的效果。其中,开放测试识别准确率、召回率、F值分别达到了83.4%、95.7%、89.1%。  相似文献   

5.
受到空洞卷积的启发提出面向二维文本嵌入的列式空洞卷积,设计空洞卷积块架构,基于此架构提出命名实体识别模型并开展进一步试验。在命名实体识别试验中,提出的模型的精密度、召回率和F1超越了其他基线模型,分别达到了0.918 7、0.879 4和0.898 6,表明空洞卷积块架构能够获取包含更多上下文信息的文本特征,从而支持模型对上下文长距离依赖特征的捕获和处理。感受野试验表明需要适当调整空洞率以减轻空洞卷积给模型带来的“网格效应”。提出的基于空洞卷积块架构能有效执行命名实体识别任务。  相似文献   

6.
以微博数据为研究对象,对反语识别特征进行研究。针对微博特点和反语识别特性,构建包括情感短语、表情符号等在内的多种特征。试验表明,在不平衡数据集上反语特征的识别准确率、召回率和F值等评价标准分别比现有反语特征分别提高了0.34%、0.74%和0.18%,而在平衡数据集上反语特征的识别准确率、召回率和F值则分别提高了0.44%、2.54%和0.14%。  相似文献   

7.
为缓解远监督关系抽取中的假阳性问题并进一步提高关系抽取的准确率和召回率,提出基于实体对弱约束的远监督关系抽取模型。首先,从知识库和文本中获取实体对的约束信息,约束信息由实体对关键词和实体类型两部分组成;然后,通过训练神经网络模型自动获取不同关系所对应的实体对约束信息的特征;最后,将这些特征用作弱约束联合语句特征一起进行关系预测。在对比实验中,基于实体对弱约束的模型达到了更高的准确率和召回率,表明了实体对弱约束能有效缓解假阳性问题、加强关系抽取。  相似文献   

8.
针对中文医疗电子病历命名实体识别中,传统的字或词向量无法很好地表示上下文语义以及传统RNN并行计算能力不足等问题,提出了一个基于BERT的医疗电子病历命名实体识别模型。该模型中的BERT预训练语言模型可以更好地表示电子病历句子中的上下文语义,迭代膨胀卷积神经网络(IDCNN)对局部实体的卷积编码有更好的识别效果,多头注意力(MHA)多次计算每个字和所有字的注意力概率以获取电子病历句子的长距离依赖。实验结果表明,BERT-IDCNN-MHA-CRF模型能够较好地识别电子病历中的医疗实体,模型的精确率、召回率和F_1值相比于基线模型分别提高了1.80%,0.41%,1.11%。  相似文献   

9.
为了识别汉语实体,提出了利用模式匹配技术构造一个抽取模型。为了识别该模型的有效性,系统的测试语料采用Internet网上真实语料,语料全部来自新加坡联合早报,主要是新闻领域,经过开放测试,该系统识别实体召回率46.02%,准确率为52.94%。  相似文献   

10.
在命名实体识别的研究基础之上,论文把抽取人名实体与机构实体间的任职关系看成分类问题.即根据现代汉语句子中任职动词的类别属性将任职关系信息抽取模式分类.应用决策树的方法确定句子的抽取模式,实现人在机构中的任职关系信息抽取.并对建立的基于该决策树的任职关系抽取系统进行开放测试,平均召回率和精确率分别为91.47%和89.15%,实验结果表明,基于决策树的现代汉语中任职关系抽取是一种值得继续探讨的方法.  相似文献   

11.
为提高传统命名实体识别模型在中文电子病历上的准确性,提出一种在基线模型B E RT-BiLSTM-CRF中加入对抗训练的方法,该方法在词嵌入层添加扰动因子从而生成对抗样本,并利用对抗样本进行迭代训练,从而优化模型参数.CCKS2021评测数据集实验结果表明,加入FGM和PGD两个对抗训练模型后,其精准率、召回率以及F1...  相似文献   

12.
产品质量检测 (pruduct quality inspection, PQI) 是维护市场秩序和保障健康安全的一项重要工作, 通过自然 语言处理技术对质检文本数据实体识别, 能够有效监督和控制产品质量。为了提高 PQI 文本数据命名实体识别效 果, 提出一种融合注意力机制的 CNN-BiGRU-CRF 模型, 在 CNN 层将字词向量和词长特征向量联合输入, 充分获 取文本特征。使用注意力机制重点关注目标信息特征, 抑制无用信息, 将输出序列进行加权后得到标注分数值, 以 提高识别精度。以人工构建的 PQI 数据集作为实验数据, 并与其他模型对比。实验结果表明, 该模型在 8 种实体类 型的实体识别中准确率和 F1 值达到 74.7% 以上, 优于其他传统模型, 在 PQI 数据的实体识别上达到了较好的识别 效果。  相似文献   

13.
医疗病历命名实体识别的主要任务是将临床电子病历中的非结构化文本转化为结构化数据,进而为面向医疗领域任务开展的数据挖掘提供基础支撑. 提出一种基于ALBERT模型融合学习的中文医疗病历命名实体识别模型. 首先,采用人工标注方式扩展样本数据集,结合ALBERT模型对数据集进行微调; 其次,采用双向长短记忆网络(BiLSTM)提取文本的全局特征; 最后,基于条件随机场模型(CRF)命名实体的序列标记. 在标准数据集上的实验结果表明,该方法进一步提高了医疗文本命名识别精度,减少了时间开销.  相似文献   

14.
提出一种基于Attention-BiLSTM(attention-bidirectional long short-term memory)深度神经网络的命名实体识别方法。应用BiLSTM神经网络自动学习文本的隐含特征,可以解决传统识别方法存在长距离依赖等问题;引入注意力机制(attention mechanism)对文本全局特征做重要度计算,获取文本局部特征,解决了传统深度学习方法不能充分提取特征的问题;在预训练过程中加入维基百科知识,进一步提升了命名实体识别系统的性能。实验表明,所提方法在SIGHAN 2006 Bakeoff-3评测数据集上获得了优良的识别性能。  相似文献   

15.
命名实体识别是自然语言处理中一项非常重要的任务, 一句话中可以正确理解其中的实体, 对于是否能正确理解这句话至关重要, 而中文的命名实体识别相比英文更有难度, 原因在于中文没有英文中类似空格的边界标示词, 且存在复杂的嵌套现象。针对现有的中文命名实体识别方法中大多只利用单一层次的特征这一问题, 利用Bert中文预训练集和额外的词汇数据集的融合模型增强词意和中文上下文联系, 采用BiGRU 网络获取序列特征矩阵,通过条件随机场模型生成全局最优序列, 从而提升实体识别准确率。实验结果表明该方法在公开数据集上的效果优于现有模型。  相似文献   

16.
为了解决在中文电子病历命名实体识别任务中,基于字符粒度 NER 方法对序列信息遗漏的 问题,以及引入外部词典资源方法所带来的运算效率问题,提出一种基于 SoftLexicon 的医疗实体识别模 型。首先,将输入序列中的每个字符映射到一个稠密向量中;接下来,引入外部词典资源,为每个字符构造 SoftLexicon特征,并将其添加到对应的字向量表示中;然后,将这些增强的字符表示放入Bi-LSTM和CRF层, 以获得最终的识别结果。该模型既能有效捕捉句子序列中字符的特征,提取上下文之间的依赖关系,又能实 现标签预测的顺序性。以 CCKS-2020 医疗命名实体识别评测任务提供的电子病历数据作为实验数据集,实 验结果表明,与基于字符粒度的传统 NER 方法相比,所提方法在实体识别性能和效率上都显著提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号