排序方式: 共有31条查询结果,搜索用时 62 毫秒
1.
杨尔弘 《术语标准化与信息技术》2010,(2):38-43
基于大规模语料库进行语言监测是近年来国家语言资源监测与研究中心实施的一个项目,其目的是对语言使用的实际状况进行记录、调查,调查的内容包括年度字词语的使用情况、年度流行语、新词语等。本文介绍了支持这些调查项目的海量数据的处理技术,包括语料的获取方法,年度字、词语表的提取,流行语、新词语的提取技术。最后对语言监测中存在的问题和需要继续深入的研究进行了探讨。 相似文献
2.
基于上下文词语同现向量的词语相似度计算 总被引:3,自引:0,他引:3
词语的语义相似度是词语间语义相似紧密的一种数量化表示。提出一种词语的语义相似度计算方法 ,利用上下文词语同现向量来描述词语的语义知识 ,在此基础上 ,使用 min/ max的方法计算词语之间的语义相似度。实验结果表明 ,该方法能够比较准确地反映词语之间的语义关系 ,为词语间的语义关系提供一种有效度量。 相似文献
3.
4.
汉语中介语是伴随着汉语国际教育产生的,随着汉语学习在全球的不断开展,汉语中介语的规模不断增长,由于这些语料在语言使用上有其独特性,使得中介语成为语言信息处理和智能语言辅助学习的独特资源。依存语法分析是语言信息处理的重要步骤,英语中介语的依存语法标注语料已经有很好的应用,目前汉语中介语语料库对句法的关注度较低,缺乏一个充分考虑汉语中介语特点的依存句法标注规范。该文着眼于汉语中介语的依存句法标注语料库的建构,探讨依存标注规范,在充分借鉴国际通用依存标注体系(Universal Dependencies)的基础上,制定了汉语中介语的依存标注规范,并进行了标注实践,形成了一个包括汉语教学语法点的中介语依存语料库。 相似文献
5.
该文通过考察事件词在文本篇章结构中的分布方式,指出突发事件新闻报道文本中包含主线信息链和副线信息链。主线信息链中包含了文本的事件信息,是事件信息提取重点考虑的文本内容部分;副线信息链则由文本结构中的“评价”、“背景”以及“情节”部分的细节信息等组成,是事件信息提取时可以忽略的文本内容部分。事件信息的结构可以进一步分解为前核心事件链、核心事件链、次生事件链和后次生事件链。该文通过定义事件词,以其为触发,探索了事件信息结构的识别与获取,并借助《知网》(HowNet)提高了事件词对信息刻画的有效性和区分度。 相似文献
6.
语法纠错任务是自然语言处理领域的一项重要任务,近年来受到了学术界广泛关注。该任务旨在自动识别并纠正文本中所包含的语法、拼写以及语序错误等。该文将语法纠错任务看作是翻译任务,即将带有错误表达的文本翻译成正确的文本,采用基于多头注意力机制的Transformer模型作为纠错模型,并提出了一种动态残差结构,动态结合不同神经模块的输出来增强模型捕获语义信息的能力。受限于目前训练语料不足的情况,该文提出了一种数据增强方法,通过对单语语料的腐化从而生成更多的纠错数据,进一步提高模型的性能。实验结果表明,该文所提出的基于动态残差的模型增强以及腐化语料的数据增强方法对纠错性能有着较大的提升,在NLPCC 2018中文语法纠错共享评测数据上达到了最优性能。 相似文献
7.
在当前信息暴涨的时代,网络信息正在面临着各取所需的要求,信息检索、话题检测、信息推荐等应用技术都逐渐开始面向个性化的发展趋势。然而目前的个性化技术大都依赖于对用户行为的了解,根据用户的历史行为,判断和预测用户的目的,没有同用户的当前所具有的知识结合起来。提出一种用户个性化知识的粗略表示方法--词形关系图,作为个性化应用技术的基础。具体内容包括:词形关系图表示知识的方式,结合遗忘规律从用户语料库中获取个性化词形关联的方法,以及结合实验结果对该表示方法应用可行性的初步分析。 相似文献
8.
9.
<正>命名实体识别是文本信息处理中的一个研究热点,人名是命名实体的重要组成部分。本文主要讨论中文文本中人名识别的问题。所要识别的人名包括汉语人名、类汉语人名(如韩国人名、越南人名等)以及人名译名。在本文中,我们将其统一称为汉语人名。 由于最大熵模型具有简洁、通用和易于移植的特点,使用该模型在英文中进行命名实体识别已取得一定成效。本文结合中文文本中人名的特点,将对使用最大熵模型进行人名识别进行介绍,重点介绍特征选择方法。1 系统描述1.1 最大熵模型 对于给定的训练样本,最大熵模型应该选择一个与训练样本一致的概率分布,而对于观察不到的情况,模型赋予均匀的概率分布。满足上述特征的概率分布具有最大熵。这种分布是唯一的,并具有下述特征: 相似文献
10.