共查询到18条相似文献,搜索用时 359 毫秒
1.
离合触发词的构词语素可能因插入、颠倒、省略而产生多种合法分离形式,这些分离形式与原形一样也能表征事件。为完整抽取事件,提出一种基于依存分析的离合触发词合法分离形式判定算法。该方法首先借助依存分析考察离合触发词合法分离形式在句中所受的依存约束,然后将这些约束转化为可计算的判定规则,最后利用判定规则对离合触发词的合法分离形式进行判定。实验结果显示,排除稀疏数据前,此方法的正确率、召回率、F值分别为82.2%、88.3%、85.1%;排除稀疏数据后,正确率、召回率、F值提升到82.4%、88.7%、85.4%。方法已基本具备应用潜质。 相似文献
2.
该文提出一种统计与规则相结合的时间表达式识别方法。首先,通过分析中文文本中时间表达式的词形、词性和上下文信息,采用条件随机场识别时间单元而非时间表达式整体,避免了中文时间表达式边界定位不准确的问题;然后,从训练语料中自动获取候选触发词,并依据评价函数对候选触发词打分,筛选出正确的触发词完善触发词库;最后,根据时间触发词库与时间缀词库,制定规则对时间表达式边界进行定位。实验结果显示开式测试F1值达到98.31%。 相似文献
3.
基于语义角色的中文时间表达式识别* 总被引:1,自引:0,他引:1
提出了一种中文时间表达式识别方案。该方案在抽取传统特征的同时,根据中文时间表达式的特点,新加入语义角色(semantic roles,SR)特征构建特征向量,然后采用CRFs(条件随机场)进行识别。在SemEval-2010评测的TempEval-2任务数据上进行实验,该方案识别中文时间表达式的F1(F1-measure)值达到85.6%,与未加入语义角色特征相比提高了5.2%。实验表明提出的方案在解决中文时间表达式识别问题上有较好的效果。 相似文献
4.
5.
6.
事件检测与分类是事件抽取的关键环节,触发词抽取是完成事件检测与分类的主流方法。提出了一种事件触发词抽取方法,该方法针对单一触发词抽取方法没有充分利用依存句法分析信息且召回率不高的问题,通过综合利用依存句法分析信息和其他信息抽取触发词-实体描述对的方法来提高触发词抽取的召回率,然后将触发词-实体描述对抽取结果与单一触发词抽取结果相融合以避免召回率提高所带来的准确率下降问题。在ACE2005中文语料上进行实验,该方法在事件检测与分类任务中取得较好效果,F值分别达到了69.0%和66.2%。 相似文献
7.
研究中文微博情感分析中的观点句识别及要素抽取问题。在观点句识别方面,提出了一种利用微博中的情感词和
情感影响因子计算微博语义情感倾向的新算法;在观点句要素抽取方面,利用主题词分类及关联规则,辅以一系列剪枝、筛选和定界规则抽取评价对象。通过观点句识别和观点句要素抽取结果的相互过滤,进一步提高召回率。实验数据采用第六届中文倾向性分析评测所发布的数据,结果表明,本文方法在观点句识别和要素抽取方面能够取得较好的效果,观点句识别的精确率、召回率入F值分别为95.62%,54.10%及69.10%;观点句要素抽取的精确率、召回率以及F值分别为22.07%,12.66%和16.09%。 相似文献
8.
9.
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。 相似文献
10.
11.
12.
为了提高句法分析器的分歧能力和分析准确率,结合上下文无关概率模型PCFG和头驱动概率模型HDSM各自的优点,提出了一种新型的概率模型PCFG_HDSM,并基于GLR算法,实现了一个新型的汉语句法分析器。在词性标注阶段,通过对助词的详细标注使部分歧义在规则阶段就被去除掉,提高了系统消歧的能力。经过开放测试,准确率和回归率分别达到82.8%、74.7%,与其他分析器分析结果比较有了较大提高,证明新模型PCFG_HDSM确实提高了分析器的分歧能力。 相似文献
13.
句法分析是自然语言处理的基础技术,主流的由数据驱动的神经网络句法分析模型需要大规模的标注数据,但是通过人工标注扩展树库成本很高,因此如何利用现有标注树库进行数据增强成为研究焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件: 第一,要求生成句具有多样化且完整的句法树结构;第二,要求生成句具有合理的语义。对此,我们首次提出基于词汇化树邻接语法的数据增强方法。针对第一个需求,该文设计实现基于词汇化树邻接语法的词汇化树抽取算法与句法树合成算法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且用语言学的知识保证生成句符合语法规则且具有完整的句法树结构。针对第二个需求,该文利用语言模型对生成句进行语义合理性评估,选取语义合理的句子作为最终的增强数据,从而获取高质量的标注树库。我们以汉语为例开展研究,在汉语树库CTB5上进行句法分析的数据增强评测实验。实验结果显示,在小样本(CTB5的20%)实验中,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.39%和2.14%。在鲁棒性实验中,该文通过构建扩展测试集进行评测实验,在扩展测试集上,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.43%和0.44%,表现出更好的鲁棒性。 相似文献
14.
引入标点处理的层次化汉语长句句法分析方法 总被引:6,自引:1,他引:6
在分析汉语标点符号用法和句法功能的基础上,本文提出了一种新的面向汉语长句的层次化句法分析方法。这种方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级来进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句或短语之间的句法关系以及子句和短语内部成分的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的一遍图表(chart)分析方法相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。 相似文献
15.
16.
该文提出一种基于汉语依存句法信息来构建维维吾尔语依存句法树库的方法。首先对维吾尔语进行形态分析,之后进行汉维词对齐、中文依存分析,然后根据词对齐信息以及汉语依存信息得到维吾尔语依存信息,最终对结果进行优化,获得维吾尔语依存句法库。在此基础上训练得到的依存句法分析器在CoNLL 2017 Shared Task 测试集上进行实验,带标记依存正确率LAS(Labeled Attachment Score)和无标记依存正确率UAS(Unlabeled Attachment Score)分别为34.38%和52.53%。 相似文献
17.
面向特定领域的汉语句法主干分析 总被引:3,自引:3,他引:3
本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节,形成用模板表示的句法主干。在浅层句法分析中,本文使用了级联的隐马尔可夫模型进行了短语的归并;而后以已有的汉语句子模板为基础,进行模板匹配以达到句法主干分析的目标。在针对体育新闻领域语料的开放测试中,模板匹配的精确率和召回率分别达到了98.04%和81.43% ,句子级的精确率和召回率分别达到了96.97%、84.85% ,实验表明该方法在特定领域是有效的。 相似文献
18.
格语法理论中一般动词带有必须格,而汉语中右侧带必须格的动词映射到依存句法中该动词一般带有宾语。基于该理论识别依存句法分析结果中缺失动宾关系依存弧的现象,针对该类错误,提出了一种基于知识约束的算法,寻找缺失依存弧以改进依存句法分析。实验结果表明,利用语言学知识能有效地识别依存句法分析结果中缺失动宾关系依存弧的动词,识别准确率达到93.80%,改进后的系统UAS值提升了0.21%,动宾关系UAS值提升了2.14%,说明利用语言学知识能够改善依存句法分析效果。 相似文献