共查询到20条相似文献,搜索用时 187 毫秒
1.
现有领域本体概念上下位关系抽取方法受到手工标注和特定模式的限制。针对该问题,提出一种基于层叠条件随机场的领域本体概念上下位关系抽取方法。以自由文本为抽取对象,采用两层条件随机场算法,将训练数据处理成条件随机场能识别的线性结构。低层条件随机场模型考虑词之间的长距离依赖,对词进行建模,识别出领域概念并对概念进行顺序组合,结合模板定义特征得到概念对;高层模型对成对概念进行上下位语义标注,识别出领域本体概念之间的上下位关系。采用真实语料进行实验,结果表明,该方法具有较好的识别效果。 相似文献
2.
语义角色标注研究对自然语言处理具有十分重要的意义。英汉语语义角色标注研究已经获得了很多成果。然而藏语语义角色标注研究不管是资源建设,还是语义角色标注的技术探讨都鲜有报道。藏语具有比较丰富的句法标记,它们把一个句子天然地分割成功能不同的语义组块,而这些语义组块与语义角色之间存在一定的对应关系。根据这个特点,该文提出规则和统计相结合的、基于语义组块的语义角色标注策略。为了实现语义角色标注,文中首先对藏语语义角色进行分类,得到语义角色标注的分类体系;然后讨论标注规则的获得情况,包括手工编制初始规则集和采用错误驱动学习方法获得扩充规则集;统计技术上,选用了条件随机场模型,并添加了有效的语言特征,最终语义角色标注的结果准确率、召回率和F值分别达到82.78%、85.71%和83.91%。 相似文献
3.
传统的事件因果关系抽取方法只能覆盖文本中的部分显式因果关系。针对这种不足,提出一种基于层叠条件随机场模型的事件因果关系抽取方法。该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系。第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界。实验表明,本文方法不仅可以覆盖文本中的各类显式因果关系,并且均能取得较好的抽取效果,总体抽取效果的F1值达到85。3%。 相似文献
4.
5.
采用融合自注意力机制的双向长短期记忆模型(SelfAtt-BILSTM)和条件随机场模型(CRF),构建一种SelfAtt-BILSTM-CRF模型,对政策文本进行语义角色标注,以提取政策主要内容。采用某高校政策文件为实验数据集,利用BILSTM模型自动学习序列化语句上下文特征,融合自注意力机制增加重要特征元素的权重,通过CRF层利用特征进行序列标注,提取语义角色,以实现政策文件的主要内容挖掘。经过对比验证,该模型能够有效地提取政策文本内容,在标注数据集上F1值达到78.99%。实验结果同时表明,自注意力机制能够有效提高神经网络模型的语义角色标注效果。 相似文献
6.
7.
8.
9.
线性链条件随机场模型难以处理Web对象与各个标注属性之间的特征关系,为解决此问题,提出一种增强约束条件随机场模型。通过将约束条件引入推理过程,改进线性链条件随机场模型的Viterbi算法;运用最大间隔理论的思想训练条件随机场模型,提高模型标注的正确率;将该模型与条件随机场模型及层次条件随机场模型进行对比。实验结果表明该模型能在提高标注正确率的基础上有效地解决Web对象信息抽取问题。 相似文献
10.
在给定目标词及其所属框架的条件下,汉语框架语义角色标注可以分为语义角色识别和角色分类两个步骤。该文将此任务通过IOB2标记策略形式化为词序列标注问题,以词为基本标注单元,采用条件随机场模型进行自动标注实验。先对语料使用清华大学的基本块自动分析器进行分析,提取出15个块层面的新特征,并将这些特征标记形式化到词序列上。以文献[20]已有的12个词层面特征以及15个块层面特征共同构成候选特征集,采用正交表方法来选择模型的最优特征模板。在与文献[20]相同的语料上,相同的3组2折交叉验证实验下,语义角色标注的总性能的F1-值比文献[20]的F1-值提高了近1%,且在显著水平0.05的t-检验下显著。实验结果表明: (1)基于词序列模型,新加入的15个块层面特征可以显著提高标注模型的性能,但这类特征主要对角色分类有显著作用,对角色识别作用不显著;(2) 基于词序列的标注模型显著好于以基本块为标注单元以及以句法成分为标注单元的标注模型。 相似文献
11.
Semantic annotation of Web objects is a key problem for Web information extraction. The Web contains an abundance of useful
semi-structured information about real world objects, and the empirical study shows that strong two-dimensional sequence characteristics
and correlative characteristics exist for Web information about objects of the same type across different Web sites. Conditional
Random Fields (CRFs) are the state-of-the-art approaches taking the sequence characteristics to do better labeling. However,
as the appearance of correlative characteristics between Web object elements, previous CRFs have their limitations for semantic
annotation of Web objects and cannot deal with the long distance dependencies between Web object elements efficiently. To
better incorporate the long distance dependencies, on one hand, this paper describes long distance dependencies by correlative
edges, which are built by making good use of structured information and the characteristics of records from external databases;
and on the other hand, this paper presents a two-dimensional Correlative-Chain Conditional Random Fields (2DCC-CRFs) to do
semantic annotation of Web objects. This approach extends a classic model, two-dimensional Conditional Random Fields (2DCRFs),
by adding correlative edges. Experimental results using a large number of real-world data collected from diverse domains show
that the proposed approach can significantly improve the semantic annotation accuracy of Web objects. 相似文献
12.
提出一种新的基于条件随机域和隐马尔可夫模型(HMM)的人类动作识别方法——HMCRF。目前已有的动作识别方法均使用隐马尔可夫模型及其变型,这些模型一个最突出的不足就是要求观察值相互独立。条件模型很容易表示上下文相关性,且可使用动态规划做到有效且精确的推论,它的参数可以通过凸函数优化训练得到。把条件图形模型应用于动作识别之上,并通过大量的实验表明,所提出的方法在识别正确率方面明显优于一般线性结构的CRF和HMM。 相似文献
13.
针对高棉语分词及词性标注问题,提出一种基于层叠条件随机场模型的自动分词及词性标注方法。该方法由三层条件随机场模型构成: 第一层是分词模型,该模型以字符簇为粒度,结合上下文信息与高棉语的构词特点构建特征模板,实现对高棉语句子的自动分词;第二层是分词结果修正模型,该模型以词语为粒度,结合上下文信息与高棉语中命名实体的构成特点构建特征模板,实现对第一层分词结果的修正;第三层是词性标注模型,该模型以词语为粒度,结合上下文信息与高棉语丰富的词缀信息构建特征模板,实现对高棉语句子中的词语进行自动标注词性。基于该模型进行开放测试实验,最终准确率为95.44%,结果表明该方法能有效解决高棉语的分词和词性标注问题。 相似文献
14.
15.
该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F值大小顺序处理类型冲突。实验结果表明,基于CRFs的分布式策略及错误驱动方法识别汉语组块是有效的,系统开放式测试的精确率、召回率、F值分别达到94.90%、91.00%和92.91%,好于单独的CRFs方法、分布式策略方法及其他组合方法。 相似文献
16.
17.
藏语句法功能组块分析旨在识别出藏语句子的句法成分,为后续句子级深入分析提供支持。根据藏语的语言特点,该文在藏语句法功能组块描述体系基础上,提出基于错误驱动学习策略的藏语功能组块边界识别方法。具体思路为,首先基于条件随机场(Conditional Random Fields,CRFs)识别组块,然后分别基于转换规则的错误驱动学习(Transformation-based Error-driven Learning,TBL)及基于新特征模板的CRFs错误驱动学习进行二次识别,并对初次结果进行校正,F值分别提高了1.65%、 8.36%。最后通过实验分析,进一步将两种错误驱动学习机制融合,在18073词级的藏语语料上开展实验,识别性能进一步提高,准确率、召回率与F值分别达到94.1%、94.76%与94.43%,充分验证了本文提出方法的有效性。 相似文献
18.
19.