首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
汉语共时语料库与追踪语料库语料库语言学的新方向   总被引:1,自引:0,他引:1  
随着信息技术的不断提升、互联网的普及,汉语自然语言处理的难题不断得到解决,汉语语料库的发展和语料库语言学的应用也面临着新的契机。如何持续充分应用庞大的多种语料库,并协同与配合语言学和人文、社会科学多个领域,来追踪了解各种语言现象及其背后的社会文化深层含义,是语料库语言学可以承担的新任务。LIVAC汉语共时语料库持续处理和分析泛华语七个地区十七年四亿字的语料,可真正起到“时间锦囊”的作用,为紧密追踪、科学观察泛华地区语言现象及有关社会文化演变,提供了坚实的基础和科学依据。该文介绍LIVAC如何由汉语“共时语料库”演变为“追踪语料库”。  相似文献   

2.
语料库语言学是借助大规模语料库对语言现象进行发现、挖掘的学科,目前已经存在很多在线语料库辅助语言学的研究。该文提供了一个按时间分片进行管理的语料库,并基于此提出了一个由社区维护的在线词典编纂系统,该系统将语料库查询结果动态结合在被编辑的词条中。该文还介绍了一个多义词词义发现和层次化聚类算法,用以自动生成一个默认的词条框架。该文概述了词典编纂系统的总体情况,重点介绍系统的设计和使用方法。  相似文献   

3.
无意识行为是人类感情最自然的流露,"无意识设计"是一种以人为核心的设计方式,从人们的日常行为习惯出发,观察并记录一些别人没有意识到的细节,并将这些细节放大,将其很好地注入到新的产品中去,赋予产品新的生命,使得产品能更好地与用户交流,满足用户的情感诉求,进而优化人们的生活。  相似文献   

4.
藏语语料库加工方法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,利用分词标注软件对大规模藏语语料库进行切分和标注,最终实现藏语语料库的多级加工。  相似文献   

5.
在自然语言处理领域各项任务中,模型广泛存在性别偏见。然而,当前尚无中文性别偏见评估和消偏的相关数据集,因此无法对中文自然语言处理模型中的性别偏见进行评估。首先,该文根据16对性别称谓词,从一个平面媒体语料库中筛选出性别无偏的句子,构建了一个含有20 000条语句的中文句子级性别无偏数据集SlguSet(Sentence-Level Gender Unbiased Dataset)。随后,该文提出了一个可衡量预训练语言模型性别偏见程度的指标,并对5种流行的预训练语言模型中的性别偏见进行评估。结果表明,中文预训练语言模型中存在不同程度的性别偏见,该文所构建数据集能够很好地对中文预训练语言模型中的性别偏见进行评估。  相似文献   

6.
关联词语的出现在汉语文章中占有很大的比重,它们可以在复句分析中起到非常重要的作用。该文主要讨论如何在语料库中提取反映关联词语用法的各种特征信息,再通过数据挖掘算法将这些信息整理为关联词语的知识库,作为关联词识别的依据,并对有歧义的关联词语提出了基于决策树的消歧方法。最后,通过开放测试证明了该方法的有效性。  相似文献   

7.
针对传统语料库的缺陷,提出了基于本体的语料库,并设计分析了这个具有语义的语料库系统.系统不仅能够建立和维护基于本体的语料库,并且使得建立的语料库具有动态的、开放的、基于语义的等多种特点.对系统的架构作出了较为详细的分析,并设计了系统的框架,最后对系统作了较为客观的评价.系统不仅具有广阔的应用前景,也具有重大的理论价值.  相似文献   

8.
基于语料库的英语从句识别研究   总被引:2,自引:0,他引:2  
为改善英汉机译系统复杂句的翻译效果,针对英语复杂句中从句的边界界定问题,本文提出一种基于语料库的方法识别从句,该方法利用词性信息,将规则方法和统计方法结合用于识别从句的边界,获得良好的实验结果,封闭测试的精确率为92.69% ,召回率91.04%;开放测试的精确率为80.34% ,召回率83.93%。  相似文献   

9.
基于复句语料库分词系统研究   总被引:2,自引:0,他引:2  
复句在书面语中具有举足轻重的地位,如何让计算机正确理解复句是中文信息处理中一个值得重视的问题。现有的分词系统对复句关系词的正确切分与标注上不足以满足对复句进行层次分析和语义分析的需要。建立的分词系统在复句中关系词的切分和标注上做出了必要的改进。  相似文献   

10.
研究性别优化识别问题,在当前的性别识别方法中,大部分依靠的是一些明显的人体第二性征作为识别依据,当人脸上性别特征不明显的时候,识别成功率不高。为了提高准确率,提出了一种性别模型的性别识别判定方法。利用摄像设备采集单帧人脸图像,首先采集人脸关键部位的有效特征点,建立有效的性别识别模型,运用模型进行性别的判定。实验结果表明,方法相对于以人体性别特征为参数的性别识别方法,识别的准确率有了明显改进,取得了不错的识别效果。  相似文献   

11.
该文收集了自晚清到21世纪间长达144年的连续历时报刊语料,通过统计分析和词语分布式表示两类方法展开研究,计算并辅助识别汉语词语的词义历时演变现象。采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共现实词及其重合度挖掘出现词义演变的词语。针对历时语料上不同时间段的词向量对齐,采用SGNS训练词向量加正交矩阵投影、SGNS递增训练和“锚点词”二阶词向量表示三种方法,其中以SGNS递增训练效果最佳。针对自动发现的词义演变现象,采用目标词历时自相似度和锚点词历时相似度的分析方法,并利用近邻词来明确目标词变迁前后的词义。  相似文献   

12.
基于语料库与层次词典的自动文摘研究   总被引:2,自引:1,他引:1  
宋今  赵东岩 《软件学报》2000,11(3):308-314
自动文摘研究作为自然语言处理研究的一个重要且实用的分支,目前逐渐成为Internet信息检索等应用领域的重要研究课题之一.该文提出的基于语料库的文摘试图将传统的基地语言学分析的文摘方法和基于统计的文摘方法的优点结合在一起.基于语料库的文摘方法的实质即以系统外的分析代价换取系统内的算法效率.该文描述的算法给出了基于层次词典的关键字提取和基于语料库的自动文摘的实现.  相似文献   

13.
对文本中人物进行性别识别时除了利用其人名本身的用字特征外,可以从整个篇章出发,考虑篇章中描述不同性别时的两性特征差异。该文根据描述男女人物不同方面时存在的两性差异自动获取大量具有明显性别差异的性别倾向性特征词:性别倾向性描述词和性别倾向性称谓词。通过性别识别实验发现,性别倾向性描述词相对于性别倾向性称谓词具有更好的性别指示作用。另外,性别倾向性描述词结合性别倾向性称谓词和姓名的用字特征相对于仅利用人名进行性别识别的效果更好。  相似文献   

14.
藏语语料库TEI标记规范探讨   总被引:1,自引:0,他引:1  
在语言信息处理过程中,大规模真实文本处理已成为一个研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中文本的属性信息和结构信息标记做了系统而全面的探讨。  相似文献   

15.
大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选。区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方法。通过少数句对特征构造差异较大的分类器训练句对,在该训练句对上使用更多的句对特征对分类器进行训练,然后对其他未分类句对进行分类。相比于基准系统,我们的方法不仅缩减40%训练语料规模,同时在NIST测试数据集合上将BLEU值提高了0.87个百分点。  相似文献   

16.
统计与规则并举的汉语句法分析模型   总被引:6,自引:0,他引:6  
在自然语言分析中,传统的基于规则的方法和近年兴起的基于统计的方法各有利弊,如何把二者有机的结合起来,以提高分析器的处理能力,是当前计算语言学的重要课题。本文采用依存文法,提出了一种基于依存文法的融合语料库,规则方法和统计方法的汉语分析模型。该模型的特点是将汉语依存文法分析看作是与词性标注过程等价的一个基于统计的标注过程。文中首先介绍了CRSP的设计思想,然后讨论了从标注过的语料中获取知识的方法,叙  相似文献   

17.
基于Web的大规模语料库构建方法   总被引:2,自引:0,他引:2       下载免费PDF全文
低成本、短周期构建大规模语料库是目前研究工作的难点之一。该文提出一种建设大规模语料库的新方法,主要解决如何基于Web构建大规模的语料库及对语料库纠错,从而提高其质量。该方法利用网格技术的大规模计算能力与Wiki的开放编辑环境去收集和处理语料,根据可信度模型挑选出不可信的语料并由人工进行校对,计算校对后结果的可信度,选择出最可信的结果作为正确语料存储到语料库中。  相似文献   

18.
刘冬霞  刘建国  林凯  陈曼倩  陈晨 《软件》2021,42(1):8-11
现阶段,平行语料库被广泛应用于社会各行业中,特别是在计算机语言学领域中蓬勃发展,平行语料库作为语料库的一种表达形式,不仅具备语料库的共性特征,也能够为实证研究、对比语言学与翻译理论等提供便利,还能够充分发挥其优势。因此,将装备制造业专业技术与应用语言学有机结合,有利于对装备制造业工业汉语语料库的架构、语料入库来源、语料分词模型、语料数据挖掘软件等技术等深入探索与研究,为构建装备制造业工业汉语语料库奠定坚实基础。以此实现装备制造业工业汉语语料库应用价值的有效发挥,拓展应用语言学研究领域。所以,在开展装备制造业工业时,应该借助科学技术与科技力量构建装备制造工业汉语平行语料库,并对其进行深入的探索与分析,从而保障装备制造工业的可持续发展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号