首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
针对线性条件随机场模型不能清楚表达语义角色内部结构关系的问题,提出一种基于树状条件随机场模型的语义角色标注方法。对句法依存树上的层次依赖关系和兄弟依赖关系进行标注,处理状态变量之间的长距离依赖,利用CRFs模型能添加任意特征的优点,在系统中添加新的组合特征和介词短语角色。在CoNNL 2008 Shared Task语料库上进行实验,结果证明该方法能有效提高系统的准确率和召回率。  相似文献   

2.
Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种约束条件随机场模型(CCRF).该模型通过引入可信约束和逻辑约束,有效利用了已有的Web数据库信息和Web数据元素之间的逻辑关系.为了克服现有条件随机场模型Viterbi推理方法无法综合利用这2类约束的不足,该模型采用整数线性规划推理方法,将两类约束同时引入推理过程.通过在多个领域的真实数据集上的实验结果表明,所提出的模型能够显著提高Web数据语义标注的性能,并且为Web信息抽取奠定了良好的基础.  相似文献   

3.
卓林  杨舟  赵朋朋  崔志明 《计算机工程》2011,37(5):59-61,64
提出一种基于混合二维条件随机场的Web记录抽取模型,以克服线性链条件随机场不能充分利用Web实体间二维依赖关系的缺点,且训练条件随机场模型时无需大量手工标注的样本数据。对当当网上的742个数据记录进行抽取,对比同等情况下的其他模型。实验结果表明,混合二维条件随机场模型在抽取TDS数据集时展现了更优越的性能。  相似文献   

4.
提出一种基于层次关联边条件随机场(HCC-CRFs)模型的Web对象抽取方法.将数据块检测和属性标注合并为标签分配问题,避免误差传播现象.通过在数据块之间增加条件依赖关系,使HCC-CRFs模型能充分利用Web页面的内容层次结构.实验结果表明,该方法具有较好的抽取效果.  相似文献   

5.
线性链条件随机场模型难以处理Web对象与各个标注属性之间的特征关系,为解决此问题,提出一种增强约束条件随机场模型。通过将约束条件引入推理过程,改进线性链条件随机场模型的Viterbi算法;运用最大间隔理论的思想训练条件随机场模型,提高模型标注的正确率;将该模型与条件随机场模型及层次条件随机场模型进行对比。实验结果表明该模型能在提高标注正确率的基础上有效地解决Web对象信息抽取问题。  相似文献   

6.
音节是泰语构词和读音的基本单位,泰语音节切分对泰语词法分析、语音合成、语音识别研究具有重要意义。结合泰语音节构成特点,提出基于条件随机场(Conditional Random Fields)的泰语音节切分方法。该方法结合泰语字母类别和字母位置定义特征,采用条件随机场对泰语句子中的字母进行序列标注,实现泰语音节切分。在InterBEST 2009泰语语料的基础上,标注了泰语音节切分语料。针对该语料的实验表明,该方法能有效利用字母类别和字母位置信息实现泰语音节切分,其准确率、召回率和F值分别达到了99.115%、99.284%和99.199%。  相似文献   

7.
为了构建汉语功能块自动识别系统,该文利用条件随机域模型对经过正确词语切分和词性标注处理的汉语句子进行功能块边界识别和功能信息标注处理,通过在特征提取阶段优化组合丰富的上下文特征,得到功能块识别的精确率、召回率和F1-measure值分别为85.84%、85.07%和85.45%。在此基础上,该文引入由词义聚合关系将汉语单词组织起来的《同义词词林》作为语义资源,把其中的语义信息作为特征加入到功能块的识别过程,缓解了数据稀疏以及歧义问题对识别结果造成的影响,使得上述三个性能指标分别提高到86.21%、85.31%和85.76%。  相似文献   

8.
针对高棉语分词及词性标注问题,提出一种基于层叠条件随机场模型的自动分词及词性标注方法。该方法由三层条件随机场模型构成: 第一层是分词模型,该模型以字符簇为粒度,结合上下文信息与高棉语的构词特点构建特征模板,实现对高棉语句子的自动分词;第二层是分词结果修正模型,该模型以词语为粒度,结合上下文信息与高棉语中命名实体的构成特点构建特征模板,实现对第一层分词结果的修正;第三层是词性标注模型,该模型以词语为粒度,结合上下文信息与高棉语丰富的词缀信息构建特征模板,实现对高棉语句子中的词语进行自动标注词性。基于该模型进行开放测试实验,最终准确率为95.44%,结果表明该方法能有效解决高棉语的分词和词性标注问题。  相似文献   

9.
基于CRFs和领域规则的业务名称识别   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于条件随机场(CRFs)和领域规则的业务名称识别方法。通过实验词及词性的不同组合选择特征集合,由该特征训练得到CRFs模型,利用该模型测试得到业务术语,采用2-gram及编辑距离2种度量方式进行相似度计算,利用领域规则和相似度计算方法得到业务名称。实验结果证明了该方法的有效性。  相似文献   

10.
提出一种新的基于条件随机域和隐马尔可夫模型(HMM)的人类动作识别方法——HMCRF。目前已有的动作识别方法均使用隐马尔可夫模型及其变型,这些模型一个最突出的不足就是要求观察值相互独立。条件模型很容易表示上下文相关性,且可使用动态规划做到有效且精确的推论,它的参数可以通过凸函数优化训练得到。把条件图形模型应用于动作识别之上,并通过大量的实验表明,所提出的方法在识别正确率方面明显优于一般线性结构的CRF和HMM。  相似文献   

11.
传统的事件因果关系抽取方法只能覆盖文本中的部分显式因果关系。针对这种不足,提出一种基于层叠条件随机场模型的事件因果关系抽取方法。该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系。第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界。实验表明,本文方法不仅可以覆盖文本中的各类显式因果关系,并且均能取得较好的抽取效果,总体抽取效果的F1值达到85。3%。  相似文献   

12.
现有领域本体概念上下位关系抽取方法受到手工标注和特定模式的限制。针对该问题,提出一种基于层叠条件随机场的领域本体概念上下位关系抽取方法。以自由文本为抽取对象,采用两层条件随机场算法,将训练数据处理成条件随机场能识别的线性结构。低层条件随机场模型考虑词之间的长距离依赖,对词进行建模,识别出领域概念并对概念进行顺序组合,结合模板定义特征得到概念对;高层模型对成对概念进行上下位语义标注,识别出领域本体概念之间的上下位关系。采用真实语料进行实验,结果表明,该方法具有较好的识别效果。  相似文献   

13.
该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F值大小顺序处理类型冲突。实验结果表明,基于CRFs的分布式策略及错误驱动方法识别汉语组块是有效的,系统开放式测试的精确率、召回率、F值分别达到94.90%、91.00%和92.91%,好于单独的CRFs方法、分布式策略方法及其他组合方法。  相似文献   

14.
在电商网站评论文本中,评价对象和评价属性的缺省识别对文本情感分析具有重要地作用。针对电商网站评论文本中评价对象和评价属性缺省问题,该文提出了一种基于条件随机场的评价对象缺省项识别方法。首先利用情感词典识别观点句,将缺省项识别问题转换成序列标注问题,综合词法特征和依存句法特征,使用条件随机场模型进行训练,并在测试集上对待识别的观点句进行序列标注,通过标注结果判定缺省项的位置。实验结果表明,该方法具有较高的准确率和召回率,验证了该方法的有效性。  相似文献   

15.
一种基于介词用法的灾难事件信息抽取方法   总被引:1,自引:0,他引:1  
为提高事件信息抽取技术的准确率,通过对文本中介词用法进行识别,采用一种条件随机场统计模型和介词用法信息相结合的事件信息抽取方法,完成抽取系统的编写,以达到理想的抽取结果。本文采用《人民日报》作为实验语料,通过大量实验,结果准确率达到90.33%,比不含介词用法信息的方法提高9.14%,证明了此方法的有效性。  相似文献   

16.
针对维吾尔语情感词汇获取难度大、人工扩充情感词汇工作量大且效率低的缺陷,结合维吾尔语主观文本语料的具体特点,分析维吾尔语情感词汇在情感语料中表现的特征,建立维吾尔语情感词汇的特征模板,利用条件随机场模型实现维吾尔语情感词汇的自动识别方法。实验结果验证该方法能有效自动识别情感词汇,降低人工识别情感词汇的工作量。  相似文献   

17.
语义角色标注研究对自然语言处理具有十分重要的意义。英汉语语义角色标注研究已经获得了很多成果。然而藏语语义角色标注研究不管是资源建设,还是语义角色标注的技术探讨都鲜有报道。藏语具有比较丰富的句法标记,它们把一个句子天然地分割成功能不同的语义组块,而这些语义组块与语义角色之间存在一定的对应关系。根据这个特点,该文提出规则和统计相结合的、基于语义组块的语义角色标注策略。为了实现语义角色标注,文中首先对藏语语义角色进行分类,得到语义角色标注的分类体系;然后讨论标注规则的获得情况,包括手工编制初始规则集和采用错误驱动学习方法获得扩充规则集;统计技术上,选用了条件随机场模型,并添加了有效的语言特征,最终语义角色标注的结果准确率、召回率和F值分别达到82.78%、85.71%和83.91%。  相似文献   

18.
和弦识别是音乐调式分析和自动标注的基础,同时在分析音乐的结构和旋律方面有着非常重要的作用。结合音乐理论和信号处理知识,提出一种基于MPCP(Mel Pitch Class Profile)特征和CRFs(Conditional Random Fields)模型的和弦识别方法。利用短时傅里叶变换(STFT)对音乐信号进行时频变换,定义了一种新的MPCP特征,最后用CRFs对和弦进行识别。实验结果表明,提出的方法在识别率上优于其他方法,具有一定的潜力。  相似文献   

19.
评价对象是情感分析中情感信息的一个重要组成部分。该文基于条件随机场模型,研究多种特征在评价对象抽取任务中的表现,并将特征归纳为词法、依存关系、相对位置、语义四大类别。其中,重点引入语义角色标注新特征。在实验中,我们在三个不同的数据集上考查了各个特征及其组合对系统性能的影响,作了详细地比较研究。另外,实验结果表明新提出的语义角色标注特征对评价对象抽取有很好地指示作用。  相似文献   

20.
藏语句法功能组块分析旨在识别出藏语句子的句法成分,为后续句子级深入分析提供支持。根据藏语的语言特点,该文在藏语句法功能组块描述体系基础上,提出基于错误驱动学习策略的藏语功能组块边界识别方法。具体思路为,首先基于条件随机场(Conditional Random Fields,CRFs)识别组块,然后分别基于转换规则的错误驱动学习(Transformation-based Error-driven Learning,TBL)及基于新特征模板的CRFs错误驱动学习进行二次识别,并对初次结果进行校正,F值分别提高了1.65%、 8.36%。最后通过实验分析,进一步将两种错误驱动学习机制融合,在18073词级的藏语语料上开展实验,识别性能进一步提高,准确率、召回率与F值分别达到94.1%、94.76%与94.43%,充分验证了本文提出方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号