首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
首先介绍文献术语的重要性和分布情况,归纳常用的文献术语抽取方法,进而提出一种从英汉平行语料库中自动抽取术语的算法.主要采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐,并对英文语料和中文语料分别进行词性标注.统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集.然后对每个英文候选术语计算与其相关的中文翻...  相似文献   

2.
本以一个包括136351条术语的数据库抽取的术语用字数据库为基础,分析了术语用字的数量及使用情况。并将术语用字和“现代汉语常用字表”的3500个汉字进行比较,同时将术语用字的使用情况和真实语料中汉字的使用频度进行比较,在此基础上分析出术语常用字和术语专用字。章还统计了信息技术领域术语用字的首字和尾字的特点及使用情况。这些属性会对术语的自动提取及术语学相关的研究有一定的帮助。  相似文献   

3.
文章基于术语数据库,分别考察了包含命名实体、数词、标点符号的术语以及字母词术语,采用统计的方法获取有效的术语内部词性序列以及高频术语内部词性序列,该研究有助于术语的语言学研究,以及术语识别与抽取等应用领域的研究。  相似文献   

4.
提出了一种基于句法模式的语义关系抽取方法,用于从术语词典中抽取语义关系.该方法以句法模式为中心,结合了自然语言处理技术和统计的思想,充分利用术语词典文档中的句法信息,通过抽取包含着语义关系信息的句法模式,并将其与词典文本进行近似匹配以达到抽取语义关系的目的.实验结果表明,该方法可以有效地从术语词典中抽取多种语义关系.  相似文献   

5.
信息领域汉英术语的特征及其在语料中的分布规律   总被引:2,自引:0,他引:2  
在对 725万字的信息领域专业文献中带英文注释的术语(汉英术语)进行了人工标记,然后利用程序提取汉英术语及其前界环境(前至少 4个汉字)的工作基础上 ,本文对汉英术语的自身特征和前界环境进行了分析,目的是为术语的自动抽取提供规则及相关统计数据。  相似文献   

6.
针对中医领域,提出了一种基于条件随机场的术语抽取方法,该方法将中医领域术语抽取看作一个序列标注问题,将中医领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语模型,然后利用该模型进行术语抽取.选择<名医类案>作为中医领域文本进行术语抽取实验,取得了较好的效果,准确率为83.11%,召回率为81.04...  相似文献   

7.
设计了一种中韩科技信息综合平台中的翻译辅助系统.首先,依据关键词确定的组词特证获取候选术语,并使用互信息评估候选术语以实现术语自动提取.其次,将已有术语、抽取到的新术语、术语译文和历史翻译记录等信息存储到系统数据库中建立术语库.最后,设计翻译工作者的用户接口,使其通过该接口获取已有术语的译文信息、新术语的相似译文信息和译文记忆库为基础的历史翻译数据.测试结果表明,本文设计的术语自动抽取功能和辅助译文生成功能达到了预定的设计目标,术语自动抽取算法召回率达到61.8%,结合优化方法进行优化后达到66.9%;辅助译文生成平均延时为0.031s,MRR为0.951,测试结果满足用户需求.  相似文献   

8.
术语定义提取研究   总被引:3,自引:0,他引:3  
本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模型有效结合起来,提出了一种术语智能匹配算法。实验取得了较好的效果,有效地解决了术语定义的提取问题。  相似文献   

9.
一种基于Bootstrapping的本体学习方法   总被引:1,自引:0,他引:1  
提出了一种基于自扩展的本体学习方法用于获取领域术语.该方法只需提供少量种子术语和一个未标注语料库作为输入,由种子术语开始学习抽取模式,再由学习到的模式发现新的术语,进一步由新发现的术语学习新的抽取模式,如此循环迭代.实验结果表明,该算法能够产生较高质量的领域术语集合和抽取模式集合,这样的集合可用于相关领域的信息抽取.  相似文献   

10.
提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。  相似文献   

11.
为了提高中文领域本体概念抽取的准确率和召回率,提出一种多策略的中文领域本体概念抽取方法。该方法使用模式匹配法改进原有的单字合并法,经词性过滤和缺陷检测筛选出概念集组成用户词典,并送入概念抽取系统进行二次分词获得候选概念集;利用词频-逆向文本频率(TFIDF)方法和信息熵融合得到TFIDFE方法,计算概念权重以获得领域概念集。实验结果表明,该方法在领域术语抽取的准确率、召回率和F值上均有较好的效果。  相似文献   

12.
该文通过深入分析术语的语言学特点和领域特点,引入了能充分刻画术语译文流利度、紧密度和忠实度的三类特征,即术语构词、互信息和术语实例库,将其与基础特征进行组合,采用机器学习方法中的排序学习算法将列表排序问题分解成二分类问题,最后利用最大熵分类器预测多个翻译系统的术语译文质量。实验结果表明,在评价英汉术语翻译任务上的多个系统的输出译文质量时,该文引入的特征,可以进一步提高术语译文质量评价结果和人工评价结果的一致性。  相似文献   

13.
为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。  相似文献   

14.
术语与术语词典   总被引:1,自引:1,他引:1  
术语是语言词汇体系中的一个广泛的词层。术语是传递信息的载体,由于当今科技高速发展而不断涌现新的术语词,以及术语在现代语言中的重要作用,应运而生了术语学,包括描写性术语学和规范性术语学。其研究内容甚为广泛,包括术语词的功能语义、释义、变体、转换以及规范化、标准化、语料库建设、术语词典编纂等问题。术语词典既有别于语文性词典,也有别于专科、百科性词典。此外,单语术语词典与双(多)语术语词典也都有自己的特点。  相似文献   

15.
科技术语是专利文献的重要组成部分,集中承载着特定领域的核心知识,对于科技信息的传播与交流有着重要的作用,也是专利文献内容深层次理解的基础。本文深入分析了术语的特点,围绕术语获取、术语翻译和术语分析等术语自动处理领域的关键技术,对当前的主流方法以及其中存在的难点问题进行了讨论。提出了一套术语自动处理方法,取得了较好的效果。  相似文献   

16.
针对细分领域实体识别所面临的实体规模受限、语料样本相对缺乏的挑战,提出了一种融合领域相关度与上下文信息的、无监督的窄域实体识别方法.首先,融合词频及上下文信息,设计了术语-语料库相关性假设,并利用对数似然比计算假设的可能性,获得候选实体的领域区分度;在此基础上,基于候选实体的中心词在语料库中的相对领域占比,构建领域依存度函数,识别候选实体的领域倾向性;最后,绑定领域区分度和领域依存度,计算候选实体的领域相关度,选择领域相关度大于阈值的候选实体作为被识别的窄域实体.实验结果表明:该方法在减少识别过程人工干预的同时能有效提升窄域实体识别的准确率.  相似文献   

17.
所谓术语,就是准确地标志某种科学、技术、艺术、社会生活等专门领域的一定概念并抢劫感情色彩的词语,它是反映科学技术发展和社会文化历史关系的的特殊标记,因而具有科学情报性和文化历史、社会情报性。随着社会生活和生产的发展,术语在不断充实语言宝库。术语诞生于科学、技术和生产的各个领域并且用于记录、表达科学知识、技能技巧、生产经验和操作规程。由于不断出现新的科学概念和同一概念和现象的不同表达方法,客观上要求术语担负起新事物、新概念的称名的职责。……语言在不断  相似文献   

18.
法律英语术语教学是法律英语教学中的重点和难点,传统的法律英语术语教学大多采用“语法-翻译”法、联想法和语境法。上世纪八十年代产生的“整体语言教学”理论冲击了传统教学理念,在该理论的影响下法律英语术语教学引入了新的“比较教学法”,使得教学过程变得生动活泼,学生易于掌握并灵活运用法律英语术语。  相似文献   

19.
信息技术领域术语提取的初步研究   总被引:10,自引:0,他引:10  
本文介绍了对信息技术领域术语自动提取方法进行的一项实验,所采用的是“领域相减”的术语提取方法,即根据流通度理论,利用术语在不同领域中的不同流通度值进行术语提取,并对此项实验的结果作出了评价。  相似文献   

20.
为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型. 实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号