期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

崇伟峰李慧李雪任禾于东王晔晗《中文信息学报》2021,35(5):86-90

临床术语标准化即对于医生书写的任一术语,给出其在标准术语集合内对应的标准词.标准词数量多且相似度高,存在Zero-shot和Few-shot等问题,给术语标准化带来了巨大的挑战.该文基于"中国健康信息处理大会"CHIP 2019评测1中提供的数据集,设计并实现了基于BERT蕴含分数排序的临床术语标准化系统.该系统由数据... 相似文献

2.

基于BERT的手术名称标准化重排序算法

陈漠沙仇伟谭传奇《中文信息学报》2021,35(3):88-93

临床术语标准化是医学文本信息抽取中不可或缺的一项任务.临床上对于同一种诊断、手术、药品、检查、化验、症状等,往往会有多种不同的写法,术语标准化(归一)要解决的问题就是为临床上各种不同的说法找到对应的标准名称.在检索技术生成候选答案的基础上,该文提出了基于BERT(bidirectional encoder repres... 相似文献

3.

一种文本相似度与BERT模型融合的手术操作术语归一化方法

杨飞洪孙海霞李姣《中文信息学报》2021,35(4):44-50

该文探究手术操作术语归一化方法的构建.首先,分析手术操作术语归一化数据集的特点;其次,调研术语归一化的相关方法;最后,结合调研知悉的技术理论方法和数据集特征,建立手术操作术语归一化模型.该文融合文本相似度排序+BERT模型匹配开展建模,在2019年中文健康信息处理会议(CHIP2019)手术操作术语归一化学术评测中,验... 相似文献

4.

CHIP2019评测任务1概述:临床术语标准化任务

黄源航焦晓康汤步洲陈清财闫峻《中文信息学报》2021,35(3):94-99

第五届中国健康信息处理会议(China Conference on Health Information Processing, CHIP2019)组织了中文临床医疗信息处理方面的三个评测任务,其中任务1为临床术语标准化任务。该任务的主要目标是对中文电子病历中挖掘出的真实手术实体进行语义标准化。评测数据集中所有手术原词均来自于真实医疗数据,并以《ICD9-2017协和临床版》手术词表为标准进行了标注。共有56支队伍报名参加了评测,最终有20支队伍提交了47组结果。该评测以准确率作为最终评估标准,提交结果中最高准确率达到94.83％。相似文献

5.

深度生成式模型在临床术语标准化中的应用

闫璟辉向露周玉孙建陈思薛晨《中文信息学报》2021,35(5):77-85

临床术语标准化任务是医学统计中不可或缺的一部分.在实际应用中,一个标准的临床术语可能有数种口语化和非标准化的描述,而对于一些应用例如临床知识库的构建而言,如何将这些描述进行标准化是必须要面对的问题.该文主要关注中文临床术语的标准化任务,即将非标准的中文临床术语的描述文本和给定的临床术语库中的标准词进行对应.尽管一些深度... 相似文献

6.

基于RoBERTa和T5的两阶段医学术语标准化

周景崔灿灿王梦迪王泽敏《计算机系统应用》2024,33(1):280-288

医学术语标准化作为消除实体歧义性的重要手段, 被广泛应用于知识图谱的构建过程之中. 针对医学领域涉及大量的专业术语和复杂的表述方式, 传统匹配模型往往难以达到较高的准确率的问题, 提出语义召回加精准排序的两阶段模型来提升医学术语标准化效果. 首先在语义召回阶段基于改进的有监督对比学习和RoBERTa-wwm提出语义表征模型CL-BERT, 通过CL-BERT生成实体的语义表征向量, 根据向量之间的余弦相似度进行召回并得到标准词候选集, 其次在精准排序阶段使用T5结合prompt tuning构建语义精准匹配模型, 并将FGM对抗训练应用到模型训练中, 然后使用精准匹配模型对原词和标准词候选集分别进行精准排序得到最终标准词. 采用ccks2019公开数据集进行实验, F1值达到了0.9206, 实验结果表明所提出的两阶段模型具有较高的性能, 为实现医学术语标准化提供了新思路. 相似文献

7.

基于BERT的民事相关问答问句分类

武钰智常俊豪《数字社区&智能家居》2021,(1):4-7

[目的]针对当前民事问句数据集不完全以及法律问答问句分类模型中存在无法利用语境信息或难以学习到复杂语句表示的问题,构建了基于BERT的问句分类模型.[方法]通过爬取的6万人工标记的民事相关问句作为分类的训练样本,构建了基于BERT-Base-Chinese的民事相关问句分类模型进行分类研究,并与SVM方法做对比基准.[... 相似文献

8.

新能源专利文本术语抽取研究

孙甜陈海涛吕学强游新冬《小型微型计算机系统》2022,(5):950-956

专业术语的自动抽取对于领域机器翻译、领域知识图谱等方面均具有重要作用．近年来,新能源领域专利文本的申请量逐年增加,我国科技文献走向世界有了更高需求,专业术语翻译质量直接影响专利文本的翻译质量．为了提高新能源领域专利文本术语抽取结果的准确率和召回率,构建新能源领域术语库以及提高新能源领域专利文本的翻译质量打下基础．本文提出了基于BERT-BiLSTM-CRF的新能源专利术语抽取方法,以自建的3002条新能源领域专利文本作为实验对象,在中文数据集上的实验结果达到了0.9211的精确率,0.9245的召回率以及0.9228的F1值．与其他经典深度学习术语抽取模型相比,基于BERT-BiLSTM-CRF的新能源专利术语抽取模型能有效地将新能源领域专利文本中字符较多的长序列术语识别出来,提高术语抽取在实际应用中的效果．相似文献

9.

基于信息增强BERT的关系分类

万莹孙连英赵平王金锋涂帅《中文信息学报》2021,35(3):69-77

关系分类是自然语言处理领域中重要的语义处理任务,随着机器学习技术的发展,预训练模型BERT在多项自然语言处理任务中取得了大量研究成果,但在关系分类领域尚有待探索.该文针对关系分类的问题特点,提出一种基于实体与实体上下文信息增强BERT的关系分类方法(EC_BERT),该方法利用BERT获取句子特征表示向量,并结合两个目... 相似文献

10.

结合RoBERTa与多策略召回的医学术语标准化

韩振桥付立军刘俊明郭宇捷唐珂轲梁锐《计算机系统应用》2022,31(10):245-253

针对传统的基于模板匹配、人工构建特征、语义匹配等解决术语标准化的方案,往往会存在术语映射准确率不高,难以对齐等问题.本文结合医疗领域的文本中术语口语化、表达多样化的特点,使用了多策略召回和蕴含语义评分排序模块来提升医学术语标准化效果.在多策略召回模块中使用了基于Jaccard相关系数、TF-IDF、历史召回方法进行召回,在蕴含语义评分模块使用了RoBERTa-wwm-ext作为判分语义模型.首次在医学专业人员标注的基于SNOMED CT标准的中文数据集上验证了可用性.实验证明,在医疗知识特征的处理中,本方法能够在医学术语标准化实际应用上达到不错的效果,具有很好的泛化性及实用价值. 相似文献

11.

基于BERT与柱搜索的中文释义生成

范齐楠孔存良杨麟儿杨尔弘《中文信息学报》2021,35(11):80-90

释义生成任务是指为一个目标词生成相应的释义。该文在中文释义生成任务中使用了目标词的上下文信息,并提出了一个基于BERT与柱搜索的释义生成模型。该文构建了包含上下文的CWN中文数据集,同时也在Oxford英文数据集上开展了实验。实验结果显示,该文模型在中英文数据集上性能均有显著提升,其中CWN数据集实验结果相比基线模型BLEU指标提升了10.47,语义相似度指标提升了0.105。语义相似度指标与人工评价结果相关性更高。最后,该文分析了中文释义生成任务仍存在的四个问题。相似文献

12.

融合BERT词嵌入和注意力机制的中文文本分类

孙红陈强越《小型微型计算机系统》2022,(1):22-26

文本分类是自然语言处理的一个重要领域.近年来,深度学习的方法被广泛应用于文本分类任务中.在处理大规模的数据时,为了兼顾分类的精度和处理效率,本文使用BERT训练词向量作为嵌入层,进一步优化输入语句的词向量,然后用双层的GRU网络作为主体网络,充分提取文本的上下文特征,最后使用注意力机制,将目标语句重点突出,进行文本分类... 相似文献

13.

基于藏文BERT的藏医药医学实体识别

朱亚军拥措尼玛扎西《计算机与现代化》2023,(1):43-48

藏医药文本字符嵌入对藏医药医学实体识别有着重要意义,但目前藏文缺少高质量的藏文语言模型。本文结合藏文结构特点使用普通藏文新闻文本训练基于音节的藏文BERT模型,并基于藏文BERT模型构建BERT-BiLSTM-CRF模型。该模型首先使用藏文BERT模型对藏医药文本字符嵌入进行学习,增强字符嵌入对藏文字符及其上下文信息的表示能力,然后使用BiLSTM层进一步抽取藏医药文本中字符之间的依赖关系,最后使用CRF层强化标注序列的合法性。实验结果表明,使用藏文BERT模型初始化藏医药文本字符嵌入有助于提高藏医药医学实体识别效果,F1值达96.18%。相似文献

14.

基于BERT的古文断句研究与应用

俞敬松魏一张永伟《中文信息学报》2019,33(11):57-63

古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号,现代读者难以理解。人工断句有助于缓解上述困境,但需要丰富的专业知识,耗时耗力。计算机自动断句有助于加速对古文的准确理解,从而促进古籍研究以及中华文化的弘扬。除自动断句,该文还尝试了自动标点任务。该方案自行预训练古汉语BERT(Bidirectional Encoder Representations from Transformers)模型,并针对具体任务进行微调适配。实验表明,该方案优于目前深度学习中的主流序列切割BiLSTM+CRF模型,在单一文本类别和复合文本类别测试集上的F₁值分别达到89.97%和91.67%。更重要的是,模型表现出了很强的泛化能力,未参与任何训练的《道藏》测试集上的F₁值依然可达到88.76%。自动标点任务仅使用少量较为粗糙的带标点文本训练集时F₁值为70.40%,较BiLSTM+CRF模型提升12.15%。两任务结果均达到当前最佳,相关代码和模型已经开源发布。相似文献

15.

基于BERT的中文医疗问答系统

王志明郑凯《计算机系统应用》2023,32(6):115-120

现如今,互联网中存在海量的医疗领域知识可以用于医疗病情诊断,但传统的搜索引擎并无法根据病人的实际情况做出合理的判断,无法满足使用需求.因此,本文主要开发基于知识图谱问答系统.该系统面向医疗领域,采用爬虫技术获取了大量医疗数据并将其存储在Neo4j图数据库构建医疗知识图谱中.同时,为了使系统能够进一步理解用户的医疗询问问句,本文提出了基于BERT以及BERT-BiLSTM-CRF模型分别用于识别问句中的意图信息和实体信息的方法.最后,系统利用意图和实体信息在知识图谱中进行查询并为用户提供合适的回答,完成了医疗问答系统的构建. 相似文献

16.

基于BERT的嵌入式文本主题模型研究

下载免费PDF全文

王宇晗林民李艳玲赵佳鹏《计算机工程与应用》2023,59(1):169-179

主题模型能够从海量文本数据中挖掘语义丰富的主题词,在文本分析的相关任务中发挥着重要作用。传统LDA主题模型在使用词袋模型表示文本时,无法建模词语之间的语义和序列关系,并且忽略了停用词与低频词。嵌入式主题模型（ETM）虽然使用Word2Vec模型来表示文本词向量解决上述问题,但在处理不同语境下的多义词时,通常将其表示为同一向量,无法体现词语的上下文语义差异。针对上述问题,设计了一种基于BERT的嵌入式主题模型BERT-ETM进行主题挖掘,在国内外通用数据集和《软件工程》领域文本语料上验证了所提方法的有效性。实验结果表明,该方法能克服传统主题模型存在的不足,主题一致性、多样性明显提升,在建模一词多义问题时表现优异,尤其是结合中文分词的WoBERT-ETM,能够挖掘出高质量、细粒度的主题词,对大规模文本十分有效。相似文献