共查询到20条相似文献,搜索用时 78 毫秒
1.
随着数字化转型时代的到来,语料库已日益成为支撑各领域文本挖掘的重要基础资源。它既能为不同领域提供丰富的语言素材,也能为该领域的研究和应用作出一定的贡献。标准是重要的基础性战略资源,在核心产业的高质量发展中发挥支撑性和引领性的作用,因此构建面向核心产业的国家标准语料库具有重大的战略意义。在众多产业中,集成电路是信息时代的“心脏”。本研究构建了面向集成电路国家标准的单模态多粒度语料库(ICNSC),并对其开展初步分析,为集成电路产业的科技智库建设提供了一定的基础资源。 相似文献
2.
建立了一个将离散情感标签与维度情感空间结合起来的汉语情感语音数据库。该数据库由16名母语为汉语的说话人对情感语音进行表演型录制。语音样本是根据中性、愉悦、高兴、沮丧、愤怒、哀伤,以及悲伤等七种离散的情感标签采集而得,每名说话人有336条语音样本。随后由三名标注人在维度空间上对每条语音样本进行标注。最后,根据标注所得的数据来研究这七种情感在维度空间的分布情况,并分析了情感在一致性、集中性和差异性方面的性能。除此以外,还计算了这七种情感的情感识别率。结果显示,三名标注人对该数据库标注的一致性都达到了80%以上,情感之间的可区分度较高,并且七种情感的情感识别率均高于基线水平。因此,该数据库具有较好的情感质量,能够为离散情感标签到维度情感空间的转化提供重要的研究依据。 相似文献
3.
语料库是利用大数据技术进行语言信息搜集、整理、处理分析,为语言学研究和语言教学服务的一种数据化信息资源库.当前,世界范围内,通用型大规模语料库的建设和运用已经达到成熟阶段,极大地便利了各领域的语言教学和研究,而行业型、专业化的小型专门用途语料库的建设进展则不尽如人意,这阻碍了专业化、行业化语言教学研究的深入发展.化工英语作为专业英语中的一种,对化工行业的学术交流和化工经济的国际化发展起着重要支撑作用,在优秀化工英语人才相对缺乏、化工英语教学模式僵化、化工英语翻译效率低下的背景下,构建语料充实、术语专业、智能化程度高的化工英语语料库,对助推化工英语的教学和翻译研究,以及化工经济的发展都具有现实意义. 相似文献
4.
中文电子病历命名实体标注语料库构建 总被引:1,自引:0,他引:1
针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上。该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义。 相似文献
5.
基于专家内省方法获取领域知识已无法满足要求,试图发挥内省和统计两种方法的优势,提出包含生语料级、词汇级、句子级和篇章级4个层级的领域语料库设计框架,使每一个层级的语料可以独立地进行NLP分析和服务高一个层级语料.在此设计框架下,建立了大规模的石油化工领域语料库,为石油化工行业的知识获取和分析提供基础资源和素材,支撑石化领域知识工程项目的研究与应用. 相似文献
6.
《中国新技术新产品》2021,(9)
命名实体识别NER是自然语言处理NLP领域中重要的基础任务之一。BIOE序列标注一般采用间接标注实体的方法,难以解决实体嵌套的问题;实体位置和实体类别两阶段的识别存在误差传播问题。针对该问题,根据实体在文中始末位置2个维度构建棋盘,再结合类别维度构建三维棋盘空间来标注实体,棋盘空间中的一个标注点即代表一个实体,是一种在高维空间直接标注实体的方法。该文在预训练模型BERT/NEZHA的基础上设计了一种NER模型,在CLUENER2020数据集上进行试验,棋盘空间标注的NER的F1指标分别为80.43和80.71,相比于BERT-CRF等模型略有提升,表明该标注方法和模型具备可行性和先进性。 相似文献
7.
关于机械图样中表面粗糙度标注方法 总被引:2,自引:0,他引:2
零件的表面粗糙度是衡量零件表面加工质量的一项重要指标,也是机械图样中广泛使用的一种标注符号,而其完整的自动化和智能化的标注方法在大多数绘图软件中几乎没有提供。因此,探讨方便快速的绘图技术,对提高绘图的效率和质量尤为重要。分析了国家标准GB/T131-1993对表面粗糙度标注的要求,从表面粗糙度符号的绘制、标注位置、方向以及表面粗糙度数值的注写,提出了一种简便可行的算法,并给出了在Auto CAD2000/2002环境下,运用Visual Lisp语言实现该算法的标注实例。 相似文献
8.
我国国内高校材料专业通过加强学生对于材料专业英语的学习,可以更好地提高学生对于相关行业的了解,并提高其实际工作中所需的英语运用能力.语料库是一种语言学习资源,可帮助人们对语言进行研究,是研究经验主义语言学的重要方法和资源,语料库的类型有很多,通常依据用途和研究目的来进行分类,大致可分为异质语料库、同质语料库、系统语料库和专用语料库. 相似文献
9.
10.
简述线性预测倒谱系数(LPCC)、Teager能量算子(TEO)、梅尔频率倒谱系数(MFCC)和过零峰值幅度(ZCPA)特征提取方法,并将这四种方法应用于情感识别。设计两种实验,第一种是使用TYUT和Berlin语料库的单语言实验,这种实验证明,以上四种特征在单一的语料库单一语言条件下均能够有效地表征语音的情感特征,其中MFCC特征对情感的识别率最高。第二种实验是混合语料库的单一语言实验。之前大多数关于情感特征的研究都是基于某一种语料库中某种特定语言的,但在实际中,说话人的背景环境总是多种多样。因此,对特征的混合语料库研究是有现实意义的。第二种实验证明这四种特征都是语料库依赖性的,其中 ZCPA特征的识别率下降最少。 相似文献
11.
JJF1070-2005《定量包装商品净含量计量检验规则》中,对样本平均实际含量的判定规则是:样本平均实际含量应大于或等于标注净含量减去样本平均实际含量修正值λs,也就是样本平均实际含量加上样本平均实际含量修正值λs应大于或等于标注净含量。 相似文献
12.
体裁分析是语篇分析研究的新发展,是深层次语篇分析的有效方法,旨在研究语篇的交际目的和语言使用策略。本文首先建立了一个小型语料库,包括15篇中文投诉信和15篇英文投诉信。然后运用体裁分析理论对和对比分析方法,从语篇宏观结构和微观语言技巧策略两方面对所收集的语料进行分析。研究表明中英文投诉信之间在宏观语篇构建和微观语言策略上存在共性和差异,证实了交际目的是体裁分析的核心。 相似文献
13.
针对三维标注存在的“刺猬”现象,提出了一种基于关联关系图的三维标注信息管理思想.通过将标注信息关联的零件特征用图结构进行表示,以关联关系图为单位对标注信息进行显示和分类.研究了标注信息图的定义、建立方法和关联关系图的搜索算法,基于UG/NX7.5平台和VC++语言开发了原型软件,通过实例验证了该方法的可行性和实用性. 相似文献
14.
15.
16.
短语学作为语言学各个领域的附属研究项目在过去的几十年中一直是语言学研究领域的擦边球,对其研究也大都沿用了传统的基于语言模式的词汇语法研究方法,通过词根、意义、语法句法限制等对短语现象界定和研究,并且传统的研究多基于直觉.J.R.Firth最早提出用语料库的研究方法对词项共现现象进行研究,之后韩礼德和辛克莱(1996)继承并发展了弗思的理论,并提出了包括节点词、搭配词等一整套的概念和方法从语料库提取搭配例证.本世纪80年代短语学正式独立为一门系统的学科领域后,其研究方法仍是传统理论驱动和语料库数据驱动两大类,然而由于短语学自身的广泛性和多样性使得对其研究方法遭遇瓶颈,WillyMartin(2008)提出的整合分析法则使得短语学研究柳暗花明.本文将旨在对传统研究方法和语料库研究方法在短语学研究中的发展演化以及各自特点优劣势进行概述,并探讨分析Willy Martin所提出的整合分析法的合理性和发展趋势. 相似文献
17.
18.
针对蛋白质交互作用关系(PPI)抽取研究中已标注语料有限而未标注生物医学自由文本易得的问题,进行了基于直推式支持向量机(TSVM)与主动学习融合的蛋白质交互作用关系抽取研究.通过自主选择最优的未标注样本加入到TSVM的训练过程中,最大程度地提高了系统的性能.实验结果表明,TSVM与主动学习融合的算法在少量已标注样本和大量未标注样本组成的混合样本集上取得了较好的学习效果,与传统的支持向量机(SVM)和TSVM算法相比,能有效地减少学习样本数,提高分类精度,在AImed语料上取得了F测度为64.12%的较好性能. 相似文献