共查询到9条相似文献,搜索用时 15 毫秒
1.
术语抽取从非结构化文本中自动抽取专业术语。该工作在中文分词、信息抽取、知识库构建中发挥着重要的作用。当前术语抽取方法很大程度上依赖于词的统计信息,由于基础教育学科中术语具有极强的长尾特性,导致基于统计的术语抽取方法很难抽取出处于尾端的术语。该文结合基础教育的学科特点,提出了DRTE: 一种利用术语定义与术语关系挖掘,综合构词规则与边界检测的术语抽取方法。该文以初高中的数学课本为数据源进行术语抽取,实验结果表明我们的术语抽取方法F1值达到82.7%,相比目前的方法提高了40.8%,能够有效地在中文基础教育领域进行自动化的术语抽取。 相似文献
2.
3.
为消除医疗卫生机构间医疗术语的差异性,实现对医疗术语的统一管理,综合考虑医疗术语词库信息可以通过本体进行完整保存的因素,提出一套本体存储模型.在遵循MDA框架下依照CTS规范,实现医疗术语本体的有效存储.利用JAVA EE架构设计一套基于本体的通用医疗术语服务系统,通过对系统的实际部署与应用,验证了医疗本体能够通过本体存储模型持久化于关系型数据库;该服务系统能够提供面向医疗领域术语的统一管理及检索服务. 相似文献
4.
5.
6.
7.
采用术语定义模式和多特征的新术语及定义识别方法 总被引:1,自引:0,他引:1
新术语及其定义抽取是信息抽取的重要研究内容之一.研究结果表明,在科技文献中,一个新术语往往伴随其定义出现,通过考察,在真实文本中,术语定义存在显著的语言表述特征,从大规模真实语料库中,通过考察术语定义构成的语言学模式、定义中词汇和术语周边的统计特征,提出了以术语定义的语言学模式(LPTD)作为待识别候选新术语集,同时考虑到有关新术语出现的上下文统计特征,用SVM分类器方法完成科技语料中新术语及其定义的识别.在大规模科技期刊上进行方法验证,开放性评测结果的精确率为90.5%、召回率达78.1%. 相似文献
8.
针对传统的基于模板匹配、人工构建特征、语义匹配等解决术语标准化的方案,往往会存在术语映射准确率不高,难以对齐等问题.本文结合医疗领域的文本中术语口语化、表达多样化的特点,使用了多策略召回和蕴含语义评分排序模块来提升医学术语标准化效果.在多策略召回模块中使用了基于Jaccard相关系数、TF-IDF、历史召回方法进行召回,在蕴含语义评分模块使用了RoBERTa-wwm-ext作为判分语义模型.首次在医学专业人员标注的基于SNOMED CT标准的中文数据集上验证了可用性.实验证明,在医疗知识特征的处理中,本方法能够在医学术语标准化实际应用上达到不错的效果,具有很好的泛化性及实用价值. 相似文献
9.
医学术语标准化作为消除实体歧义性的重要手段, 被广泛应用于知识图谱的构建过程之中. 针对医学领域涉及大量的专业术语和复杂的表述方式, 传统匹配模型往往难以达到较高的准确率的问题, 提出语义召回加精准排序的两阶段模型来提升医学术语标准化效果. 首先在语义召回阶段基于改进的有监督对比学习和RoBERTa-wwm提出语义表征模型CL-BERT, 通过CL-BERT生成实体的语义表征向量, 根据向量之间的余弦相似度进行召回并得到标准词候选集, 其次在精准排序阶段使用T5结合prompt tuning构建语义精准匹配模型, 并将FGM对抗训练应用到模型训练中, 然后使用精准匹配模型对原词和标准词候选集分别进行精准排序得到最终标准词. 采用ccks2019公开数据集进行实验, F1值达到了0.9206, 实验结果表明所提出的两阶段模型具有较高的性能, 为实现医学术语标准化提供了新思路. 相似文献