共查询到19条相似文献,搜索用时 78 毫秒
1.
2.
3.
在互联网上用户评价内容中很多比较句的比较结果反映了语句陈述者对比较对象的倾向性态度。根据已有的10类比较句句型总结了它们的常见概念搭配,在基于语义块的语句倾向性分析方法的基础上构建了比较句自动识别系统和比较句倾向性自动分析系统。采用第四届中文倾向性分析评测的语料进行实验,对语料中的比较句进行了识别,对比较句中的要素进行了抽取并且分析了比较句的倾向性,识别结果和倾向性分析结果均好于所有参评系统的平均值。 相似文献
4.
一种面向汉英口语翻译的双语语块处理方法 总被引:3,自引:2,他引:3
基于语块的处理方法是近年来自然语言处理领域兴起的一条新思路。但是,要将其应用于口语翻译当中,还需按照口语特点对涉及双语的语块概念做出合理界定。本文在已有单语语块定义的基础上,根据中、英文差异和口语翻译特性,从句法和语义两个层次提出了一种汉英双语语块概念,并对其特点进行了分析。同时,针对中、英文并行语料库,建立了一套计算机自动划分与人工校对相结合的双语语块加工方法。应用该方法,对汉英句子级对齐的口语语料进行双语语块划分和对整,并以此为基础进行了基于双语语块的口语统计机器翻译实验。结果表明,本文提出的双语语块定义符合口语翻译的实际需要,使用基于双语语块的语料处理方法,能有效地提高口语系统的翻译性能。 相似文献
5.
句群是HNC对段落,篇章处理时在句子和段落之间加上的一个过渡层次,句群的理解结果直接影响篇章理解的准确率.本文结合HNC理论对现代汉语句群处理的最新研究成果,对句群的形式化框架进行了详细地阐述,最终形成了句群处理结果的新方式.最后,通过真实语料的验证,证明这一表述方式有效且可行. 相似文献
6.
英语语句的语义分析是英语考试主观题计算机自动评分、英语机器翻译、英语自动应答、英文文章摘要自动获取等课题的研究基础.基于语句成分的英语语义分析算法可以从英语语句中提取主语成份、谓语成分、宾语成分和其他成分,从而分析英语语义,该算法成功实现了英语汉译英主观题的自动评分. 相似文献
7.
语义角色对自然语言的语义理解和分析有着重要的作用,其自动标注技术依赖良好的语义角色标注训练数据集。目前已有的大部分语义角色数据集在语义角色的标注上都不够精确甚至粗糙,不利于语义解析和知识抽取等任务。为了满足细粒度的语义分析,该文通过对实际语料的考察,提出了一种改进的汉语语义角色分类体系。在此基础上,以只有一个中枢语义角色的语料作为研究对象,提出了一种基于半自动方法的细粒度的汉语语义角色数据集构建方法,并构建了一个实用的语义角色数据集。截至目前,该工程一共完成了9 550条汉语语句的语义角色标注,其中含有9 423个中枢语义角色,29 142个主要周边语义角色,3 745个辅助周边语义角色,172条语句被进行了双重语义角色标注,以及104条语句被进行了不确定语义事件的语义角色标注。我们采用Bi-LSTM+CRF的基线模型在构建好的汉语语义角色数据集和公开的Chinese Proposition Bank数据集进行了关于主要周边语义角色的基准实验。实验表明,这两个语义角色数据集在主要周边语义角色自动识别方面存在差异,并且为提高主要周边语义角色的识别准确率提供了依据。 相似文献
8.
针对目前基于白名单过滤技术在海量文本中恶意域名提取的漏报、误报等问题,提出了一种基于上下文语义的恶意域名语料提取模型。该模型分别从恶意域名所在语句的上下文单词、短语进行语义分析,并利用自然语言处理技术自动生成描述恶意域名的语料。通过该模型对公开的APT(Advanced Persistent Threat)分析文档数据提取了大量恶意域名语料数据。利用安全博客文章数据并结合基于随机森林算法的机器分类模型对论文提取的恶意语料的有效性进行了验证。 相似文献
9.
块扩句是一类概念预期知识十分明确的句子。基于概念层次网络理论介绍了块扩句对应的块扩句类,总结了能够激活块扩句类的典型块扩动词。根据块扩动词的概念知识得到句子的特征语义块及块扩句类,依据块扩句类的知识对句子进行检验后可给出句子句类的分析结果。在已有的句类分析系统的基础上对真实语料中的块扩句进行了自动分析,实验表明正确率达到了71.29%,错误主要来自特征语义块动词辨识、动词多句类代码等。正确分析块扩句将有助于解决汉语句子的多动词处理难点。 相似文献
10.
口语理解在口语自动翻译和人机对话系统中具有非常重要的作用。本文面向口语自动翻译提出了一种统计和规则相结合的汉语口语理解方法,该方法利用统计方法从训练语料中自动获取语义规则,生成语义分类树,然后利用语义分类树对待解析的汉语句子中与句子浅层语义密切相关的词语进行解析,最后再利用统计理解模型对各个词语的解析结果进行组合,从而获得整个句子的浅层语义领域行为。实验结果表明,该方法具有较高的准确率和鲁棒性,适合应用在限定领域的汉语口语浅层语义理解。 相似文献
11.
汉语句型自动分析和分布统计算法与策略的研究 总被引:8,自引:1,他引:8
汉语句型的自动分析与分布统计是继我国汉字字频统计和词频统计之后的又一重要的基础性研究课题。本文就以结构特征为标准的句型系统,提出以谓语为中心的句型成分分析与句型匹配相结合的分析算法与策略,讨论了句型成分及其短语边界的识别与判定方法,给出了有关歧义结构的处理策略,以及实验模型的测试结果与分析。 相似文献
12.
iSpreadRank: Ranking sentences for extraction-based summarization using feature weight propagation in the sentence similarity network 总被引:2,自引:0,他引:2
Sentence extraction is a widely adopted text summarization technique where the most important sentences are extracted from document(s) and presented as a summary. The first step towards sentence extraction is to rank sentences in order of importance as in the summary. This paper proposes a novel graph-based ranking method, iSpreadRank, to perform this task. iSpreadRank models a set of topic-related documents into a sentence similarity network. Based on such a network model, iSpreadRank exploits the spreading activation theory to formulate a general concept from social network analysis: the importance of a node in a network (i.e., a sentence in this paper) is determined not only by the number of nodes to which it connects, but also by the importance of its connected nodes. The algorithm recursively re-weights the importance of sentences by spreading their sentence-specific feature scores throughout the network to adjust the importance of other sentences. Consequently, a ranking of sentences indicating the relative importance of sentences is reasoned. This paper also develops an approach to produce a generic extractive summary according to the inferred sentence ranking. The proposed summarization method is evaluated using the DUC 2004 data set, and found to perform well. Experimental results show that the proposed method obtains a ROUGE-1 score of 0.38068, which represents a slight difference of 0.00156, when compared with the best participant in the DUC 2004 evaluation. 相似文献
13.
14.
主谓谓语句是汉语特有的语言现象,主谓结构做谓语的格式也是汉语最常见、最重要的句式,也是汉语区别于印欧语的重要句式之一。现代汉语语法对这种特殊句式进行了深入的研究,在语法、语义等方面取得了长足进展。本文尝试在HNC理论的总体框架下,对这一特殊句式展开全面、系统的解释,并从计算语言学的角度形成特有的处理规则,便于计算机在原始语料中发现这类语句,最终形成针对主谓谓语句的专家处理系统。 相似文献
15.
基于疑问句句型识别的问题理解研究 总被引:1,自引:0,他引:1
问题理解是问答系统中的一个关键步骤.问题理解的过程包括疑问词分类、问句分词及词性标注、疑问句句型识别、问题分类及问题中心的识别等.提出了对疑问句句型的识别方法,即通过对疑问句的短语句法树的分析,得到疑问句的句型结构,通过计算句型结构与句型模式之间的相似度来识别句子的句型.结合疑问句的语法分析,通过识别疑问句的句型实现了问题理解.实验结果表明,该方法提高了问题理解的准确度. 相似文献
16.
基于图的篇章内外特征相融合的评价句极性识别 总被引:1,自引:1,他引:0
评价句的极性识别是情感分析领域一个重要的研究任务. 它旨在将评价句的极性分为褒义、贬义或是中性三种类别. 一般而言, 评价句的极性识别可以看作一个文本分类任务. 然而, 判断一个评价句的极性不仅需要关注句子内部的特征, 而且还需要一些句子外部特征相配合, 尤其对于一些内部特征极性模糊的评价句而言. 因此, 在本文中, 我们提出了两种句子外部特征: 篇章内部特征和篇章外部特征, 并使用了基于图的算法来融合这两种特征. 在数码相机领域语料上的实验结果表明, 本文提出的方法不仅优于仅使用评价句内部特征的方法, 而且还优于前人有代表性的工作. 相似文献
17.
受信息抽取工作的驱动,利用事件相关文档的特点,在分析各种文本特征的基础上,综合利用词语、语义和词串信息进行句子相似度计算,并在此基础上进行句子聚类,提出了基于特征选择的句子聚类方法,为抽取事件侧面信息提供更好的基础资源.实验表明,采用多特征后,句子聚类的效果得到明显提高. 相似文献
18.
19.
为了适应语言中惯常出现的SVO表达语序,HNC理论对原有语句格式代码表(98版)进行了大幅度的调整,重点是重新界定基本格式的范围,扩充基本格式代码,使所有SVO语序的表达都可以用基本格式表示。同时,为了便于计算机处理和人类专家使用,新格式代码对代码中的每一数字都做了更加细致的约定,可以直接从代码得到具体的格式信息,而不用查阅格式代码表。本文详细说明了新版格式代码的设计思路及其带来的新变化,指出了新版格式代码与98版格式代码表的不同。 相似文献