首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 105 毫秒
1.
汉语共时语料库与追踪语料库语料库语言学的新方向   总被引:1,自引:0,他引:1  
随着信息技术的不断提升、互联网的普及,汉语自然语言处理的难题不断得到解决,汉语语料库的发展和语料库语言学的应用也面临着新的契机。如何持续充分应用庞大的多种语料库,并协同与配合语言学和人文、社会科学多个领域,来追踪了解各种语言现象及其背后的社会文化深层含义,是语料库语言学可以承担的新任务。LIVAC汉语共时语料库持续处理和分析泛华语七个地区十七年四亿字的语料,可真正起到“时间锦囊”的作用,为紧密追踪、科学观察泛华地区语言现象及有关社会文化演变,提供了坚实的基础和科学依据。该文介绍LIVAC如何由汉语“共时语料库”演变为“追踪语料库”。  相似文献   

2.
现阶段,平行语料库被广泛应用于社会各行业中,特别是在计算机语言学领域中蓬勃发展,平行语料库作为语料库的一种表达形式,不仅具备语料库的共性特征,也能够为实证研究、对比语言学与翻译理论等提供便利,还能够充分发挥其优势。因此,将装备制造业专业技术与应用语言学有机结合,有利于对装备制造业工业汉语语料库的架构、语料入库来源、语料分词模型、语料数据挖掘软件等技术等深入探索与研究,为构建装备制造业工业汉语语料库奠定坚实基础。以此实现装备制造业工业汉语语料库应用价值的有效发挥,拓展应用语言学研究领域。所以,在开展装备制造业工业时,应该借助科学技术与科技力量构建装备制造工业汉语平行语料库,并对其进行深入的探索与分析,从而保障装备制造工业的可持续发展。  相似文献   

3.
语料库语言学是借助大规模语料库对语言现象进行发现、挖掘的学科,目前已经存在很多在线语料库辅助语言学的研究。该文提供了一个按时间分片进行管理的语料库,并基于此提出了一个由社区维护的在线词典编纂系统,该系统将语料库查询结果动态结合在被编辑的词条中。该文还介绍了一个多义词词义发现和层次化聚类算法,用以自动生成一个默认的词条框架。该文概述了词典编纂系统的总体情况,重点介绍系统的设计和使用方法。  相似文献   

4.
朗读语料与自然口语的差异分析   总被引:4,自引:1,他引:4  
本文通过对朗读语音语料库ASCCD、自然口语独白语音语料库CASS和自然口语对话语音语料库CADCC的统计分析,试图说明朗读语料与自然口语的主要差异。文章主要对二者在音节、声韵、副语言学和非语言学现象、语篇话题、话轮转换、基频变化以及音段音变现象等几个方面作了一些统计分析,并由此归纳出朗读语料与自然口语的几点不同。  相似文献   

5.
索引软件的工作原理、主要功能以及索引软件在计算机语料库中的应用,包括在语言学、英语教学研究中的应用。  相似文献   

6.
该文从研究背景、设计思路、标注体系和方法、加工步骤等方面介绍了汉语语义倾向语料库的建设过程。该语料库是一个以研究语言主观性表达为目的的共时、非平衡、单语标注语料库,依据语言主观性多维度描述体系而设计,规模为100万字,配备有集检索与统计、结果检查与可视化于一体的专用语料库工具箱系统,具有可用性大、标注质量高、语言学理据强等特点。  相似文献   

7.
杨政  马延周 《软件》2023,(2):150-152
在经济全球化发展趋势下,世界各国对语言的研究越发深入,语言研究方法也越来越多,比如说定性研究、定量研究、两者相结合的研究方法等。现如今建设应用大型语料库作为国内外语言学研究的核心内容,不仅能为自然语言处理领域发展提供基础依据,还可以充分展现人工智能、信息提取、人机对话等技术优势。因此本文研究在了解智能化语音语料库设计原则的基础上,根据语音语料库的核心需求和属性扩张,深层探索智能化语音语料库的设计步骤,以电力行业的语音语料库设计构建情况为例,根据实证分析明确智能化语音语料库的设计应用价值。  相似文献   

8.
语料库语言学的兴起使得语言学专业的研究生也有必要掌握一种程序设计语言。分析影响语言学专业研究生程序设计课程教学质量和教学效果的3个因素:学校、学生与教师,提出几种具有针对性的教学改革措施,如情境引入、DIY、节目化教学、因材施教、强化上机练习等方法。实践证明,这些改革措施具有较好的教学效果。  相似文献   

9.
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术。最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库。  相似文献   

10.
运用语料库语言学的基本观点,探讨了陕北民歌语料库构建原则及WEB管理系统的设计实现,研制了陕北民歌ACCESS语料数据库,其中包含全文语料数据表、句子语料数据表、陕北民歌词表数据表共三个数据表,介绍了语料库的在线检索和管理功能,提出了字词频统计功能和WEB在线检索功能实现的方法,开发了基于ASP的陕北民歌开放性语料库WEB管理系统,用户可以方便的通过IE浏览器进行语料检索、词频统计、语料提取等操作.  相似文献   

11.
中文网络聊天语言的奇异性与动态性研究   总被引:1,自引:0,他引:1  
随着互联网走入社会生活,网络聊天逐渐成为一种新的沟通渠道,网络聊天语言便应运而生。这类语言的日益丰富,给语言信息处理带来了新的挑战。研究发现,困难主要来自网络聊天语言的奇异性和动态性。本文借助真实网络聊天语言文本,对网络聊天语言的奇异性和动态性进行详细分析和归纳,并设计了面向解决奇异性和动态性问题的网络聊天语言文本识别与转换方法。我们先以网络聊天语言语料库为基础建立网络聊天语言模型和语言转换模型,通过信源–信道模型实现网络聊天语言向标准语言的转换。但该方法过于依赖网络聊天语言语料库,虽然能较好解决奇异性问题,但不能处理动态性问题。因此,我们进而以标准汉语语料库为基础建立文字语音映射模型,对信源–信道模型进行改进,最终有效解决了网络聊天语言的动态性问题。  相似文献   

12.
传统的自然语言处理方法是将大量手工制定的特征输入到统计学习模型中,以完成文本的加工处理。目前,条件随机场模型在多种自然语言处理任务中都取得了较好的效果,但手工特征制定的方式以及庞大的特征数量增加了模型建立的难度,降低了模型运算的速度,同时易使模型“过拟合”。为了解决上述问题,提出一种张量扩展的条件随机场模型,利用张量变换自动构建出复杂的特征,减少了手工特征制定的工作量,并使用Tucker分解算法加速模型,得到的模型可用于多种自然语言处理任务。实验表明,在提取相同基本特征的前提下,与传统的条件随机场模型相比,文中的模型在多种自然语言处理任务中的性能都有所提高,具有一定的使用价值。  相似文献   

13.
自然语言处理作为人工智能的一个分支,在日常生活中有着广泛的应用。随着循环神经网络在自然语言处理领域的应用以及循环神经网络的不断演进与迭代,自然语言处理有了很大的飞跃。循环神经网络也因此迅速成为自然语言处理领域的主流算法,但是其具有结构复杂和训练时间漫长的缺点。提出一种基于一维扩展卷积和Attention机制的自然语言处理模型,利用一维扩展卷积提取语言文本的深层特征,再通过Attention机制给深层特征分配权重以整合各个时序特征。实验结果表明,该模型只需循环神经网络约30%的训练时间,就能达到与循环神经网络相近的性能,验证了该模型的有效性。  相似文献   

14.
基于深度学习的语言模型研究进展   总被引:1,自引:0,他引:1  
王乃钰  叶育鑫  刘露  凤丽洲  包铁  彭涛 《软件学报》2021,32(4):1082-1115
语言模型旨在对语言的内隐知识进行表示,作为自然语言处理的基本问题,一直广受关注.基于深度学习的语言模型是目前自然语言处理领域的研究热点,通过预训练-微调技术展现了内在强大的表示能力,并能够大幅提升下游任务性能.本文围绕语言模型基本原理和不同应用方向,以神经概率语言模型与预训练语言模型作为深度学习与自然语言处理结合的切入点,从语言模型的基本概念和理论出发,介绍了神经概率与预训练模型的应用情况和当前面临的挑战,对现有神经概率、预训练语言模型及方法进行对比和分析.我们又从新型训练任务和改进网络结构两方面对预训练语言模型训练方法进行详细阐述,并对目前预训练模型在规模压缩、知识融合、多模态和跨语言等研究方向进行概述和评价.最后总结语言模型在当前自然语言处理应用中的瓶颈,对未来可能的研究重点做出展望.  相似文献   

15.
自然语言处理是计算语言学研究的方向之一,通常借助计算机技术进行自然语言的分析和解读。NS 流程图具有选择算法剖析的结构性特点。良构子串表具有保存剖析过程多种结构的特性。花园幽径句是句法加工过程中能产生行进式错位且对前期模式破旧立新的特殊句式。基于NS 流程图算法的良构子串表可用于对自然语言中的特殊现象(如花园幽径句)进行程序剖析,最终使这种程序分析法在语言学中得到应用成为可能。  相似文献   

16.
近年来,随着深度学习的快速发展,面向自然语言处理领域的预训练技术获得了长足的进步。早期的自然语言处理领域长期使用Word2Vec等词向量方法对文本进行编码,这些词向量方法也可看作静态的预训练技术。然而,这种上下文无关的文本表示给其后的自然语言处理任务带来的提升非常有限,并且无法解决一词多义问题。ELMo提出了一种上下文相关的文本表示方法,可有效处理多义词问题。其后,GPT和BERT等预训练语言模型相继被提出,其中BERT模型在多个典型下游任务上有了显著的效果提升,极大地推动了自然语言处理领域的技术发展,自此便进入了动态预训练技术的时代。此后,基于BERT的改进模型、XLNet等大量预训练语言模型不断涌现,预训练技术已成为自然语言处理领域不可或缺的主流技术。文中首先概述预训练技术及其发展历史,并详细介绍自然语言处理领域的经典预训练技术,包括早期的静态预训练技术和经典的动态预训练技术;然后简要梳理一系列新式的有启发意义的预训练技术,包括基于BERT的改进模型和XLNet;在此基础上,分析目前预训练技术研究所面临的问题;最后对预训练技术的未来发展趋势进行展望。  相似文献   

17.
复杂文字在显示输出的过程中,表现出极为复杂的语言特征.为此提出了一种基于谓词规则的复杂文字处理模型,模型以谓词规则的方法给出了复杂文字字形布局特征的形式化描述,按照复杂文字处理的过程,设计了实现该模型的软件体系结构,将复杂文字的语言特征从程序控制逻辑中隔离出来,提高了系统的灵活性,便于增加新的复杂文字的支持.在研制蒙古文、藏文、维吾尔文办公套件的应用中表明,该模型是实用有效的.  相似文献   

18.
自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示的技术分类,对主流技术和方法,包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文...  相似文献   

19.
自然语言时间信息的模拟与计算   总被引:1,自引:0,他引:1  
杜津  杨一平  曾隽芳 《计算机工程与设计》2006,27(13):2419-2422,2471
从自然语言语义处理研究角度出发构建了一种比较完全的时间语义表达模型,在此模型之上,研究了现代汉语时间表达的特征,对句子时体关系分别进行研究并提出了一种时间语义信息自动提取的方法,对典型汉语句子的时间信息进行挖掘以及抽取,取得了良好的效果。这为自然语言语义层次上的信息提取和处理提供了一种方法借鉴。  相似文献   

20.
提出了一个基于语义、面向自然语言处理的多文种信息处理平台的模型SMIPP.该模型主要由应用程序/用户接口层、文字输入层和文字输出层、信息处理服务层、语料库层、多文种代码体系SemaCode层和语言Ontology层组成,该平台把各种语言文字统一用具有自描述能力的SemaCode表示,并通过语言Ontology来表示词汇的语义以及在各个文种间的联系,再通过服务形式提供各种基于语料库的文字信息处理功能,是一个全新的多文种信息处理模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号