首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
线性链条件随机场模型难以处理Web对象与各个标注属性之间的特征关系,为解决此问题,提出一种增强约束条件随机场模型。通过将约束条件引入推理过程,改进线性链条件随机场模型的Viterbi算法;运用最大间隔理论的思想训练条件随机场模型,提高模型标注的正确率;将该模型与条件随机场模型及层次条件随机场模型进行对比。实验结果表明该模型能在提高标注正确率的基础上有效地解决Web对象信息抽取问题。  相似文献   

2.
在利用条件随机场进行信息抽取时,单纯基于词或基于块的方法,不能充分利用上下文信息在恰当粒度上进行切分和抽取,因此提出了一种基于条件随机场的科研论文信息分层抽取方法,利用分隔符、换行符、行首字符等格式信息,结合条件随机场的特征函数,将文本切分成文本行、块或单个的词等恰当的层次,再采用L-BFGS算法学习模型参数并进行特定文本域的抽取。实验结果表明,该方法的抽取性能优于基于词或块的条件随机场模型的信息抽取方法。  相似文献   

3.
提出一种基于层次关联边条件随机场(HCC-CRFs)模型的Web对象抽取方法.将数据块检测和属性标注合并为标签分配问题,避免误差传播现象.通过在数据块之间增加条件依赖关系,使HCC-CRFs模型能充分利用Web页面的内容层次结构.实验结果表明,该方法具有较好的抽取效果.  相似文献   

4.
Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种约束条件随机场模型(CCRF).该模型通过引入可信约束和逻辑约束,有效利用了已有的Web数据库信息和Web数据元素之间的逻辑关系.为了克服现有条件随机场模型Viterbi推理方法无法综合利用这2类约束的不足,该模型采用整数线性规划推理方法,将两类约束同时引入推理过程.通过在多个领域的真实数据集上的实验结果表明,所提出的模型能够显著提高Web数据语义标注的性能,并且为Web信息抽取奠定了良好的基础.  相似文献   

5.
大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要.  相似文献   

6.
基于概率模型的Web信息抽取   总被引:1,自引:0,他引:1  
针对Web网页的二维结构和内容的特点,提出一种树型结构分层条件随机场(TH-CRFs)来进行Web对象的抽取。首先,从网页结构和内容两个方面使用改进多特征向量空间模型来表示网页的特征;第二,引入布尔模型和多规则属性来更好地表示Web对象结构与语义的特征;第三,利用TH-CRFs来进行Web对象的信息提取,从而找出相关的招聘信息并优化模型训练的效率。通过实验并与现有的Web信息抽取模型对比,结果表明,基于TH-CRFs的Web信息抽取的准确率已有效改善,同时抽取的时间复杂度也得到降低。  相似文献   

7.
自然语言处理技术已用于非结构化中文电子病历信息抽取,并且新的算法或模型不断出现,但其应用效果的证据较少。共收集北京某大型三甲综合医院呼吸专科住院电子病历38 218份,通过对数据预处理,抽象文本特征与定义语法规则,产生训练数据集和测试集,构建层叠条件随机场模型,并评估该模型的识别效果。结果表明,针对入院记录、出院记录、辅助检查报告3大类共39种非结构化文本,该模型可准确、快速地处理病历文本信息,应用效果较为理想。  相似文献   

8.
传统的事件因果关系抽取方法只能覆盖文本中的部分显式因果关系。针对这种不足,提出一种基于层叠条件随机场模型的事件因果关系抽取方法。该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系。第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界。实验表明,本文方法不仅可以覆盖文本中的各类显式因果关系,并且均能取得较好的抽取效果,总体抽取效果的F1值达到85。3%。  相似文献   

9.
一种基于条件随机场的复杂背景图像文本抽取方法   总被引:1,自引:0,他引:1  
针对复杂背景图像中的文本抽取问题,文中提出一种基于条件随机场的图像文本抽取方法.该方法在将各种特征有效结合起来的同时,考虑到上下文特征,从而能有效地从复杂图像中抽取文本信息.分析比较不同颜色空间、不同特征对文本抽取性能的影响.实验结果表明该方法的有效性.  相似文献   

10.
基于混合跳链条件随机场的异构Web记录集成方法   总被引:5,自引:1,他引:4  
黄健斌  姬红兵  孙鹤立 《软件学报》2008,19(8):2149-2158
提出了一种混合跳链条件随机场序列统计学习模型,以实现异构Web记录与关系数据库的模式匹配.该模型可以在由手工标注样本和关系数据库记录组成的联合样本集上进行训练,减少了对繁琐手工标注样本的依赖.此外,通过在线性链条件随机场模型上增加对跳边的支持,使得该模型能够有效地处理状态变量间的长距离依赖.在多个领域的真实数据集上的实验结果表明,所提出的方法能够显著提高异构Web记录语义模式匹配的性能.  相似文献   

11.
周晶 《计算机工程》2010,36(24):192-194
针对信息抽取领域中存在的抽取结果难以满足需要的问题,给出基于条件随机域模型的方法,以解决组块标注和实体关系抽取问题。通过定义中文组块和实体关系的标注方式,选择比较通用的《人民日报》语料,训练出效率较高的二阶模板来抽取文本中的实体关系。实验结果表明,该方法可以获得更好的抽取效果。  相似文献   

12.
中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工标注的413份病历数据(以中文字为特征)与4类特征模版,将条件随机场(CRF)、隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)用于中医病历命名实体抽取的实验,并进行比较分析。结果表明,结合合适的特征模版,CRF命名实体抽取方法取得了较好的性能,F1值的症状达到0.80,疾病名称达到0.74,诱因0.74。与HMM和MEMM相比,CRF有最高的准确率和召回率,是一种较为适用的中医临床病历命名实体抽取方法。  相似文献   

13.
传统时间短语识别方法存在中文文本时间短语边界定位不准确和长距离依赖的问题。为此,提出一种基于条件随机场(CRFs)的时间短语识别方法。采用基于机器学习的方法识别时间短语,分析中文文本中时间短语的词法、句法和上下文信息等语言学特征,将时间短语分为日期型和事件型2种类型,并半自动构建3个常用词表作为外部特征。在此基础上,引入能整合不同层面特征的CRFs方法,将识别问题转化为序列标注问题。实验结果表明,该方法在日期型时间短语和事件型时间短语识别上分别取得95.70%和85.75%的F1值,识别效果较好。  相似文献   

14.
基于条件随机域的词性标注模型   总被引:3,自引:0,他引:3  
词性标注主要面临兼类词消歧以及未知词标注的难题,传统隐马尔科夫方法不易融合新特征,而最大熵马尔科夫模型存在标注偏置等问题。本文引入条件随机域建立词性标注模型,易于融合新的特征,并能解决标注偏置的问题。此外,又引入长距离特征有效地标注复杂兼类词,以及应用后缀词与命名实体识别等方法提高未知词的标注精度。在条件随机域模型框架下,本文进一步探讨了融合模型的方法及性能。词性标注开放实验表明,条件随机域模型获得了96.10%的标注精度。  相似文献   

15.
基于条件随机域的生物命名实体识别   总被引:1,自引:1,他引:0       下载免费PDF全文
提出一种基于条件随机域模型的生物命名实体识别方法,结合单词构词特性以及距离依赖特性,在JNLPBA的GENIAV3.02数据上进行实验,测试结果表明,引入距离依赖后,系统的识别性能比只利用单特性的条件随机域方法提高2.54%,可获得较好的识别效果,提高了系统的识别效率。  相似文献   

16.
近年来,信息抽取成为自然语言处理的一个热点,同时也是难点。针对不同的问题,大家提出了不同的方法,而大多数的方法是基于启发式规则或者抽象成分类问题,本文将从人物百科中抽取人物信息看成是一个序列标注的问题,利用条件随机场对生语料进行序列标注。此外,文中详细介绍数据分析的方法以及特征选取方法,所提出的方法直接从生语料中抽取,节省了大部分方法的数据预处理部分,同时避开了大部分方法使用的句法分析的特征,有效地提高了信息抽取的效率。在文章的最后做了两组对比实验,实验结果表明,本方法能够非常准确地从HTML生语料中抽取出人物信息。  相似文献   

17.
针对线性条件随机场模型不能清楚表达语义角色内部结构关系的问题,提出一种基于树状条件随机场模型的语义角色标注方法。对句法依存树上的层次依赖关系和兄弟依赖关系进行标注,处理状态变量之间的长距离依赖,利用CRFs模型能添加任意特征的优点,在系统中添加新的组合特征和介词短语角色。在CoNNL 2008 Shared Task语料库上进行实验,结果证明该方法能有效提高系统的准确率和召回率。  相似文献   

18.
传统的分步骤事件抽取方法中,事件元素识别的结果无法指导事件类型识别,而事件类型识别的效果在很大程度上决定了事件抽取系统的整体性能。文中为解决事件类型识别对元素识别的后向依赖问题,将事件抽取看作序列标注,构建一个改进的条件随机域联合标注模型,将事件类型和事件元素在图模型中同时进行标注。同时,通过触发词嵌入试图解决事件抽取中的数据不平衡问题。ACE 2005中文语料上的实验表明,基于该模型的方法提高了事件类型识别的性能,最终F值达到63。53%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号