首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
在给定目标词及其所属框架的条件下,汉语框架语义角色标注可以分为语义角色识别和角色分类两个步骤。该文将此任务通过IOB2标记策略形式化为词序列标注问题,以词为基本标注单元,采用条件随机场模型进行自动标注实验。先对语料使用清华大学的基本块自动分析器进行分析,提取出15个块层面的新特征,并将这些特征标记形式化到词序列上。以文献[20]已有的12个词层面特征以及15个块层面特征共同构成候选特征集,采用正交表方法来选择模型的最优特征模板。在与文献[20]相同的语料上,相同的3组2折交叉验证实验下,语义角色标注的总性能的F1-值比文献[20]的F1-值提高了近1%,且在显著水平0.05的t-检验下显著。实验结果表明: (1)基于词序列模型,新加入的15个块层面特征可以显著提高标注模型的性能,但这类特征主要对角色分类有显著作用,对角色识别作用不显著;(2) 基于词序列的标注模型显著好于以基本块为标注单元以及以句法成分为标注单元的标注模型。  相似文献   

2.
基于条件随机场的汉语分词系统   总被引:6,自引:1,他引:6  
汉语分词是自然语言处理的首要的基本工作。本文提出了一个基于条件随机场(简称CRF)的汉语分词模型,CRF模型作为一个判别模型,可以容纳任意的非独立的特征信息。我们首先将分词看作是一个标记的过程,然后利用CRF模型对每个汉字进行标记,最后转换为相应的分词结果。系统采用感知机(Perceptron)算法进行参数训练。跟以前利用CRF进行分词的模型相比,本系统定义并使用了不同的特征函数,取得了更好的切分结果。在1st SIGHAN分词比赛PK测试集上封闭测试,F值为95.2%。  相似文献   

3.
条件随机场(CRFs)是一种十分优秀的统计学习模型,文中尝试将其引入到文本分类之中,提出了一种基于CRFs的文本分类模型.首先通过特征选择将待分类文档和文档类别分别表示成为CRFs的观察序列和状态序列,然后使用文本分类相关领域知识定义特征函数来提取序列之间的关联特征,再采用前向或后向算法评估出给定观察序列条件下各状态序列的概率,据此实现待分类文档的分类.分析表明,这种新模型语义清晰,计算直观,易于融合各种文本分类领域知识,分类效率较高.  相似文献   

4.
专利信息是集技术、经济、法律信息于一体的重要情报分析数据来源,也是支持技术创新管理的重要决策依据。由于专利使用的术语比论文更为抽象,基于统计的信息标注效果并不理想。本文利用亚洲语言信息检索测评会议提供的英文专利文摘数据,采用条件随机场模型,有针对性地标注技术及其功效信息,为专利技术功效矩阵分析奠定了基础。  相似文献   

5.
为了保留蒙古语词缀中大量的语法、语义信息和缩小蒙古语词典的规模,蒙古语词性标注需要对词干和词缀都进行词性标注。针对这一问题提出了一种基于条件随机场(CRF)的蒙古语词性标注方法。该方法利用CRF模型能够添加任意特征的特点,充分使用蒙文上下文信息,针对词素之间的相互影响添加了新的统计特征,并在3.8万句的蒙古语词性标注语料上进行了封闭测试,该方法的标注准确率达到了96.65%,优于使用隐马尔可夫模型(HMM)的词性标注模型。  相似文献   

6.
中文词性标注是中文信息处理领域的一项基础工作。提出了一种基于条件随机场CRFs(Conditional Random Fields)模型的无监督的中文词性标注方法。首先利用词典对获得的已分好词的生文本进行词性标注,得到初始标注语料,然后利用CRFs对语料进行迭代标注,逐步优化标注结果。并以宾州树库为实验语料,考察了不同规模的标注数据对模型性能的影响,在四份不同规模语料上的实验表明,词性标注正确率提高了1.88%~2.26%。  相似文献   

7.
基于条件随机场(CRFs)的中文词性标注方法   总被引:9,自引:1,他引:9  
本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98.56%和96.60%。  相似文献   

8.
提出了一种基于层叠条件随机场的CFN自动标注方法。该方法在低层条件随机场模型中解决了框架元素的识别,将识别结果传递到上层短语类型识别的条件随机场模型,再将识别结果传递到上层句法功能识别的条件随机场模型,其低层模型为上层模型提供决策支持。实验选用CFN中"陈述"框架下的句子库,实现了基于层叠条件随机场CFN自动标注的原型系统。  相似文献   

9.
刘彤  黄修添  马建设  苏萍 《计算机应用》2017,37(10):2841-2846
传统的图像标注模型通常存在两个问题:只能够对短距离的像素上下文信息进行建模和复杂的模型推理过程。为了提高图像标注的精度、简化图像标注的模型推理过程,采用完全联系的条件随机场模型进行图像标注,提出利用基于高斯kd树的平均场估计方法实现该模型的高效推理。为了更好地验证算法的有效性,实验的图片数据库不仅包含标准的图片库--剑桥大学微软研究图片库(MSRC-9),还包含作者制作的机械零件图片库(MyDataset_1)和办公桌图片库(MyDataset_2)。新算法在三个图片库上的平均标注精度分别可以达到77.96%、97.15%和95.35%,每幅图的平均运行时间为2s。实验结果表明,基于完全联系的条件随机场的图像标注能够更充分地考虑不同的像素上下文信息来提高标注精度,而基于高斯kd树的模型推理能够提高模型推理的效率。  相似文献   

10.
传统的事件因果关系抽取方法只能覆盖文本中的部分显式因果关系。针对这种不足,提出一种基于层叠条件随机场模型的事件因果关系抽取方法。该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系。第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界。实验表明,本文方法不仅可以覆盖文本中的各类显式因果关系,并且均能取得较好的抽取效果,总体抽取效果的F1值达到85。3%。  相似文献   

11.
该文对维吾尔语树库标注体系进行分析,根据组块划分原则,在短语标记集的基础上制定了维吾尔语组块标记集,从已完成标注的3 000句语料库构建组块库。根据维文语言的特点,在英汉组块识别特征基础上,增加了词干、词缀、同义词标记等特征。该文中的性能评价指标采用了国际通用的准确率,召回率和F值,3 000个标注句子作为训练和测试语料库用,实验采用了交叉验证法,训练和测试语料库的比例分别为9∶1,8∶2,2∶1,召回率分别为80.34%,76.87%,66.76%。实验表明,语料库规模对模型性能影响较大。
  相似文献   

12.
条件随机场模型是目前处理We b对象属性标注问题的最佳统计模型。为解决条件随机场模型不能充分利用We b对象和属性标签之间的特征关系这一问题,提出了一种增强约束条件随机场模型。借鉴最大间隔的思想,在原有条件随机场模型中增加约束条件和增强因子以提高模型标注正确率。使用最大似然参数估计方法估计模型特征函数的权重参数,并用Viterbi算法进行预测。在数据集中引入验证集的概念,以获得最优增强因子。实验结果表明,该模型有效地提高了We b对象属性标注正确率。  相似文献   

13.
汉语功能块描述了句子的基本骨架,是联结句法结构和语义描述的重要桥梁。本文提出了两种不同功能块分析模型: 边界识别模型和序列标记模型,并使用不同的机器学习方法进行了计算模拟。通过两种模型分析结果的有机融合,充分利用了两者分析结果的互补性,对汉语句子的主谓宾状四个典型功能块的自动识别性能达到了80%以上。实验结果显示,基于局部词汇语境机器学习算法可以从不同侧面准确识别出大部分功能块,句子中复杂从句和多动词连用结构等是主要的识别难点。  相似文献   

14.
冠词选择需要综合考虑语言知识、语义知识以及世界知识,是汉英翻译中的一个难点。针对传统的基于规则和机器学习的方法,只考虑名词短语前冠词选择的问题,该文将冠词看作一种标记,将该问题形式化地描述为一个序列标注任务,提出一种基于条件随机场的解决策略,选取特征时充分利用词、词性等多层次资源,并引入前后词的互信息。实验采用包含91 106个冠词的专利摘要做测试语料,F值达到80%。  相似文献   

15.
近些年来,条件概率模型的研究得到了很大的发展。在对序列标注类问题进行处理时,条件模型逐渐开始取代产生式模型,其应用领域相当广泛,条件概率模型可应用到图像识别、自然语言处理、入侵检测等问题上。条件随机场模型(Conditional Random Fields,CRFs)模型是条件模型中的代表模型,也是条件模型中现在研究得最多的模型之一。它避免了产生式模型的缺点,而且克服了前期最大熵模型标记偏置的缺陷,由此得到广泛的运用。在利用CRFs作具体应用研究时发现,单纯利用CRFs模型进行实际运用取得的效果并没有达到最好,所以在每个应用中均进行了改进。本文主要研究军用文书分词、军事命名实体识别、入侵检测等方面,所做的改进都在模型应用的基础上更进一步提高了系统的性能。  相似文献   

16.
文章介绍了条件随机场的基本原理,基于识别有标记联合结构的需要,根据有标记联合结构的语言学特征结合条件随机场的特性确定了条件随机场的7词位标注集、具有18个复杂特征的模板、增加4个语言学特征的模板。使用北京大学《人民日报》语料和清华大学973树库语料,基于复杂特征的特征模板和增加语言学特征的特征模板在含有嵌套的联合结构、无嵌套联合结构和最长联合结构语料上进行了实验,开放测试的调和平均值最高分别达到了88.21%, 87.85%和84.42%。  相似文献   

17.
为满足农业命名实体领域中多样而精确的需求,本文采用基于条件随机场的命名实体识别,将农业命名实体分为病虫害、作物、化肥及农药4种命名实体,并用自定义标注集对其进行标注,以ICTCLAS分词系统来对收集到的语料进行分词,通过添加多种不同的特征以提高识别率。最终训练得到的模型对各命名实体识别的准确率达到了93%以上,召回率达到了84%以上,证明对农业命名实体细致划分为多个实体是可行的。  相似文献   

18.
基于语义组块分析的汉语语义角色标注   总被引:1,自引:1,他引:0  
近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的“句法分析——语义角色识别——语义角色分类”,而是一种简化的“语义组块识别——语义组块分类”流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。  相似文献   

19.
汉语框架语义角色的自动标注   总被引:3,自引:0,他引:3  
基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列标注问题,采用条件随机场模型,研究了汉语框架语义角色的自动标注.模型以词为基本标注单元,选择词、词性、词相对于目标词的位置、目标词及其组合为特征.针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,基于统计学中的正交表,给出一种较优模板选择方法.全部实验在选出的25个框架的6 692个例句的语料上进行.对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证.在给定句子中的目标词以及目标词所属的框架情况下,25个框架交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%和61.62%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号