期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘旭利金季豪阮彤高大启殷亦超葛小玲《中文信息学报》2021,34(11):37-48

基于电子病历观察性数据的真实世界研究成为目前临床科研的热点。然而关系数据模型无法直接支撑起科研应用中医疗事件的时序关系表示以及知识融合的查询需求。针对上述问题,该文提出了一种新的基于RDF的医疗观察性数据表示模型,该模型可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。对来源于医院的电子病历数据,经过数据预处理、数据模式转换、时序关系构建以及知识融合4个步骤建立事件图谱。具体地,使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173 395个医疗事件以及501 335个事件时序关系的医疗数据集,并融合了5 313个中文医疗知识库概念。基于临床文献与医生科研需求,该文根据公共卫生流行病学的病因研究、治疗研究等类型,分别提供了针对本数据集的40个问题示例,并将其中的部分问题与传统关系数据库在查询的构建与执行方面进行了实验比对,论证了该事件图谱的优越性。该数据集遵循开放链接标准,在OpenKG上发布并提供了在线访问的SPARQL站点,链接为 https://peg.ecustnlplab.com/dataset.html。相似文献

2.

深度生成式模型在临床术语标准化中的应用

闫璟辉向露周玉孙建陈思薛晨《中文信息学报》2021,35(5):77-85

临床术语标准化任务是医学统计中不可或缺的一部分.在实际应用中,一个标准的临床术语可能有数种口语化和非标准化的描述,而对于一些应用例如临床知识库的构建而言,如何将这些描述进行标准化是必须要面对的问题.该文主要关注中文临床术语的标准化任务,即将非标准的中文临床术语的描述文本和给定的临床术语库中的标准词进行对应.尽管一些深度... 相似文献

3.

融合术语信息的新能源专利机器翻译研究

游新冬杨海翔陈海涛孙甜吕学强《中文信息学报》2021,35(12):76-83

传统的神经机器翻译模型是一个黑盒子,并不能有效把术语信息添加进去。而利用用户提供的术语词典来联合训练神经机器翻译模型具有实际意义。据此,该文提出融入术语信息的新能源领域Transformer专利机器翻译模型,使用将源端术语替换为目标端术语以及在源端术语后增添目标端术语两种手段进行术语信息融合,实验表明,在构建的新能源领域专利汉英平行语料库和术语库上,提出的专利翻译模型优于Transformer基准模型。并评测了其在人工构建的数据集、中国专利信息中心的数据集及世界知识产权局的数据集上的翻译效果。相似文献

4.

电子病历检索中基于词权调整的查询重构

《计算机应用与软件》2016,(4)

电子病历EMR(Electronic Medical Records)检索是信息检索研究中的一个新领域。医学术语在电子病历检索中占有重要地位,通常用来限定检索条件、表达用户的检索意图。针对这种情况,提出一种基于医学术语权重调整的查询重构方法,以提高电子病历检索的性能。该方法首先从原始查询语句中筛选出医学术语,然后使用自信息来度量每个医学术语的权重,最后将加权的医学术语与原始查询语句按照一定的权重比例结合,构造出新的查询语句。将该方法在TREC数据集上进行实验,结果表明与原始查询结果相比,重构后的查询结果在MAP、bpref和P10这三项指标上,分别提高了14.2%、10.1%和9.6%,验证了该方法的有效性。相似文献

5.

基于统计方法的教育术语特征分析研究

闫琪琪张海军《计算机光盘软件与应用》2014,(24):109-110

领域术语特征研究是领域术语自动抽取的基础。研究抽取词典词条和领域高频术语集构建教育术语库,使用中科院分词软件和统计方法对教育术语的特征进行分析。分析结果表明教育术语字长为2-11,词长为1-6词,单词术语占教育术语库28%。对比教育、科技和法律的术语特征发现其具有显著区别,对领域术语自动抽取及信息处理相关研究具有重要理论意义。相似文献

6.

基于图神经网络的多信息优化实体对齐模型

陈富强寇嘉敏苏利敏李克《计算机科学》2023,(3):34-41

实体对齐是知识融合中的一个关键步骤，旨在发现知识图谱间存在对应关系的实体对。知识图谱融合后可以为下游提供更加广泛而准确的服务。现有的实体对齐模型对实体名称和关系的利用往往不足，在得到实体的向量表示后通过单一的迭代策略或者直接计算得出实体的对齐关系，忽略了部分有用信息，导致实体对齐的结果欠佳。针对上述问题，提出了一种基于图神经网络的多信息优化实体对齐模型。首先，模型的输入融合了实体名称中的单词信息和字符信息，通过注意力机制学习关系的向量表示并利用关系传递信息。在利用实体和关系的预对齐结果修正实体对齐矩阵的基础上，使用延迟接受算法修正部分错误对齐的结果。所提模型在DBP15K的3个子数据集上进行了对比和消融实验。结果表明，相比基线模型，其Hits@1指标分别提高了4.47%,0.82%和0.46%,Hits@10和MRR指标也取得了良好的结果。通过消融实验进一步验证了所提模型的有效性，总体上可以获得更加准确的实体对齐结果。相似文献

7.

基于知识图谱的项目文档智能管理与应用系统

王志刚吴士泓李孟全李向《现代计算机》2023,(3):111-120

针对企业现有招投标文档价值信息挖掘不足、文档知识难以应用等问题，设计一种基于知识图谱的招标项目文档智能管理系统。系统核心功能模块包括项目管理、模板管理、知识图谱和统计查询。项目管理和模板管理模块分别对项目文档进行分类管理和提供知识抽取模板。知识图谱模块实现文档知识抽取，并将抽取的知识与元数据构建知识图谱，实现文档的语义互联。对于文档知识抽取分别提出预训练模型结合规则配置的文字知识抽取模型和图片分类与光学字符识别融合的图片知识提取模型。统计查询模块基于构建的文档知识图谱实现多维统计分析、语义检索与智能问答等应用。该文档管理系统以智能化技术支持文档知识深度挖掘和反馈，能够实现文档价值充分利用。相似文献

8.

融合文本概念化与网络表示的观点检索

廖祥文刘德元桂林程学旗陈国龙《软件学报》2018,29(10):2899-2914

观点检索是自然语言处理领域中的一个热点研究课题.现有的观点检索模型在检索过程中往往无法根据上下文将词汇进行知识、概念层面的抽象,在语义层面忽略词汇之间的语义联系,观点层面缺乏观点泛化能力.因此,提出一种融合文本概念化与网络表示的观点检索方法.该方法首先利用知识图谱分别将用户查询和文本概念化到正确的概念空间,并利用网络表示将知识图谱中的词汇节点表示成低维向量,然后根据词向量推出查询和文本的向量并用余弦公式计算用户查询与文本的相关度,接着引入基于统计机器学习的分类方法挖掘文本的观点.最后利用概念空间、网络表示空间以及观点分析结果构建特征,并服务于观点检索模型,相关实验表明,本文提出的检索模型可以有效提高多种检索模型的观点检索性能.其中,基于统一相关模型的观点检索方法在两个实验数据集上相比基准方法在MAP评价指标上分别提升了6.1%和9.3%,基于排序学习的观点检索方法在两个实验数据集上相比于基准方法在MAP评价指标上分别提升了2.3%和14.6%. 相似文献

9.

基于多策略融合的专利术语自动抽取

周绍钧吕学强李卓都云程《计算机应用与软件》2015,(2):28-32

专利术语自动抽取是知识抽取与文本挖掘的关键环节。在构建专利文献停用词表以及提取特定规则的基础上,抽取候选专利术语;通过分析专利术语与其所在句子的关联关系、相邻专利术语之间的影响以及常识性词语对专利术语抽取的干扰,分别提出基于PageRank思想的STRank权重计算方法、专利术语区别度计算方法以及知网义原信息降权方法,并融合上述方法对专利术语进行抽取。采用传感器领域的专利文献进行实验,在top-1400、top-1600级别上正确率为80.5%、79.7%,相对比CS+CC+CD方法分别提高了11.4%、9.5%。实验结果证明该多策略融合方法的有效性。相似文献

10.

基于混淆网络解码的机器翻译多系统融合 总被引：1，自引：1，他引：0

杜金华魏玮徐波《中文信息学报》2008,22(4):48-54

在对当前几种较流行的统计机器翻译多系统融合方法分析的基础上,提出了一种改进的多系统融合框架,该框架集成了最小贝叶斯风险解码和多特征混淆网络解码两种技术。融合过程如下(1) 从多个翻译系统输出的 -best结果中,利用最小贝叶斯风险解码器选择一个风险最小的假设作为对齐参考;(2) 将其余的 -best假设结果与该参考对齐,从而构建混淆网络。多特征混淆网络基于对数线性模型,引入了更多有效的知识源参与最优路径选择,融合后的BLEU得分比融合前最好的单系统BLEU得分提高了2.19%。在对齐方法上,我们提出了一种改进的翻译错误率(Translation Error Rate, TER)准则——GIZA-TER准则,该准则可以对CN网络进行更有效的短语调序。实验中的显著性检验证明了本文方法的有效性。相似文献

11.

基于RoBERTa和T5的两阶段医学术语标准化

周景崔灿灿王梦迪王泽敏《计算机系统应用》2024,33(1):280-288

医学术语标准化作为消除实体歧义性的重要手段, 被广泛应用于知识图谱的构建过程之中. 针对医学领域涉及大量的专业术语和复杂的表述方式, 传统匹配模型往往难以达到较高的准确率的问题, 提出语义召回加精准排序的两阶段模型来提升医学术语标准化效果. 首先在语义召回阶段基于改进的有监督对比学习和RoBERTa-wwm提出语义表征模型CL-BERT, 通过CL-BERT生成实体的语义表征向量, 根据向量之间的余弦相似度进行召回并得到标准词候选集, 其次在精准排序阶段使用T5结合prompt tuning构建语义精准匹配模型, 并将FGM对抗训练应用到模型训练中, 然后使用精准匹配模型对原词和标准词候选集分别进行精准排序得到最终标准词. 采用ccks2019公开数据集进行实验, F1值达到了0.9206, 实验结果表明所提出的两阶段模型具有较高的性能, 为实现医学术语标准化提供了新思路. 相似文献

12.

CHIP2019评测任务1概述:临床术语标准化任务

黄源航焦晓康汤步洲陈清财闫峻《中文信息学报》2021,35(3):94-99

第五届中国健康信息处理会议(China Conference on Health Information Processing, CHIP2019)组织了中文临床医疗信息处理方面的三个评测任务,其中任务1为临床术语标准化任务。该任务的主要目标是对中文电子病历中挖掘出的真实手术实体进行语义标准化。评测数据集中所有手术原词均来自于真实医疗数据,并以《ICD9-2017协和临床版》手术词表为标准进行了标注。共有56支队伍报名参加了评测,最终有20支队伍提交了47组结果。该评测以准确率作为最终评估标准,提交结果中最高准确率达到94.83％。相似文献

13.

An integrated pipeline model for biomedical entity alignment

Yu HU Tiezheng NIE Derong SHEN Yue KOU Ge YU 《Frontiers of Computer Science》2021,15(3):153321

Biomedical entity alignment, composed of two subtasks: entity identification and entity-concept mapping, is of great research value in biomedical text mining while these techniques are widely used for name entity standardization, information retrieval, knowledge acquisition and ontology construction.Previous works made many efforts on feature engineering to employ feature-basedmodels for entity identification and alignment. However, the models depended on subjective feature selection may suffer error propagation and are not able to utilize the hidden information.With rapid development in healthrelated research, researchers need an effective method to explore the large amount of available biomedical literatures.Therefore, we propose a two-stage entity alignment process, biomedical entity exploring model, to identify biomedical entities and align them to the knowledge base interactively. The model aims to automatically obtain semantic information for extracting biomedical entities and mining semantic relations through the standard biomedical knowledge base. The experiments show that the proposed method achieves better performance on entity alignment. The proposed model dramatically improves the F1 scores of the task by about 4.5% in entity identification and 2.5% in entity-concept mapping. 相似文献

14.

电子病历文本挖掘研究综述 总被引：1，自引：0，他引：1

吴宗友白昆龙杨林蕊王仪琦田英杰《计算机研究与发展》2021,58(3):513-527

电子病历是医院信息化发展的产物,其中包含了丰富的医疗信息和临床知识,是辅助临床决策和药物挖掘等的重要资源.因此,如何高效地挖掘大量电子病历数据中的信息是一个重要的研究课题.近些年来,随着计算机技术尤其是机器学习以及深度学习的蓬勃发展,对电子病历这一特殊领域数据的挖掘有了更高的要求.电子病历综述旨在通过对电子病历研究现状... 相似文献

15.

一种粗糙概念格的电子病历挖掘模型研究与设计

丁卫平董建成王斌施佺石振国《计算机工程与应用》2010,46(18):215-219

电子病历挖掘（EPRM）指的是在电子病历数据库中提取有用的医疗信息,并挖掘隐含其中医学诊断规则和模式,为疾病诊断和治疗提供科学的、准确的辅助决策等。在研究粗糙集和概念格基本理论的基础上,结合电子病历数据库中医学数据的特征,提出了基于粗糙概念格电子病历挖掘模型设计方法,该模型采用条件熵对病历大量属性进行约简和粗糙决策规则格的构造算法（EPRM）,实验表明该模型在决策规则挖掘效率、运行速度和适应性等方面都具有较好的性能。相似文献

16.

Analysis by data mining in the emergency medicine triage database at a Taiwanese regional hospital

W.T. Lin Y.C. Wu J.S. Zheng M.Y. Chen 《Expert systems with applications》2011,38(9):11078-11084

“Emergency medicine” is the front line of medical service a hospital provides; also it is the department people seek medical care from immediately after an emergency happens. The statistics by the Department of Health, Executive Yuan, indicate that over years, the number of people at the emergency department has been increasing. The US has introduced and practiced the triage system in the emergency medicine in 1960, whereby to aid the emergency department in allocating the patients, to give them appropriate medical care by the fast decision of the nurses and doctors in case of the patients’ seriousness through their judgment.This study takes on the knowledge contained in the massive data of unknown characteristics in the triage database at a Taiwanese regional hospital, using the cluster analysis and the rough set theory as tools for data mining to extract, with the analysis software ROSE2 (Rough Sets Data Explorer) and through rule induction technique, the imprecise, uncertain and vague information of rules from the massive database, and builds the model that is capable of simplifying massive data while maintaining the accuracy in classifying rules. After analyzing and evaluating the knowledge obtained from relevant mining in the hospitals past medical data for the consumption of emergency medical resources, this thesis proposes suggestions as reference for the hospitals in subsequent elevation of medical quality and decrease in operative costs. 相似文献

17.

面向服务的上海医保基金风险防控平台的研究

秦德霖高臻耀《计算机应用与软件》2011,28(4):248-251

从分析医保基金风险因素和控制框架入手,研究上海医保基金风险防控平台的技术和实现,采用面向服务架构、动态数据仓库和数据挖掘技术,基于医保基金风险防控模型库、方法库和规则库.该平台实现实时数据抽取、海量数据的整合、异构平台的集成.上海医保基金风险防控平台的研究,为控制医保基金的风险、保障基本医疗、促进医疗保险可持续发展提供... 相似文献

18.

面向国防科技领域的技术和术语语料库构建方法

冯鸾鸾李军辉李培峰朱巧明《中文信息学报》1986,34(8):41-50

互联网存在海量的文献和科技信息,隐含着大量高价值情报。识别国防科技领域中的技术和术语可以为构建国防科技知识图谱奠定基础。该文基于此领域的海量军事文本,以维基百科中军事领域的新技术为基点采集语料,涵盖了新闻、文献和维基百科三种体裁。在分析军事技术文本特点的基础上制定了一系列标注规范,开展了大规模语料的标注工作,构建了一个面向国防科技领域的技术和术语语料库。该语料库共标注了479篇文章,包含24 487个句子和33 756个技术和术语。同时,该文探讨了模型预标注策略的可行性,并对技术和术语类别在不同体裁上的分布以及语料标注的一致性进行了统计分析。基于该语料库的实验表明,技术和术语识别性能F₁值达到70.40%,为进一步的技术和术语识别研究提供了基础。相似文献

19.

结合RoBERTa与多策略召回的医学术语标准化

韩振桥付立军刘俊明郭宇捷唐珂轲梁锐《计算机系统应用》2022,31(10):245-253

针对传统的基于模板匹配、人工构建特征、语义匹配等解决术语标准化的方案,往往会存在术语映射准确率不高,难以对齐等问题.本文结合医疗领域的文本中术语口语化、表达多样化的特点,使用了多策略召回和蕴含语义评分排序模块来提升医学术语标准化效果.在多策略召回模块中使用了基于Jaccard相关系数、TF-IDF、历史召回方法进行召回,在蕴含语义评分模块使用了RoBERTa-wwm-ext作为判分语义模型.首次在医学专业人员标注的基于SNOMED CT标准的中文数据集上验证了可用性.实验证明,在医疗知识特征的处理中,本方法能够在医学术语标准化实际应用上达到不错的效果,具有很好的泛化性及实用价值. 相似文献