共查询到19条相似文献,搜索用时 78 毫秒
1.
在给定目标词及其所属框架的条件下,汉语框架语义角色标注可以分为语义角色识别和角色分类两个步骤。该文将此任务通过IOB2标记策略形式化为词序列标注问题,以词为基本标注单元,采用条件随机场模型进行自动标注实验。先对语料使用清华大学的基本块自动分析器进行分析,提取出15个块层面的新特征,并将这些特征标记形式化到词序列上。以文献[20]已有的12个词层面特征以及15个块层面特征共同构成候选特征集,采用正交表方法来选择模型的最优特征模板。在与文献[20]相同的语料上,相同的3组2折交叉验证实验下,语义角色标注的总性能的F1-值比文献[20]的F1-值提高了近1%,且在显著水平0.05的t-检验下显著。实验结果表明: (1)基于词序列模型,新加入的15个块层面特征可以显著提高标注模型的性能,但这类特征主要对角色分类有显著作用,对角色识别作用不显著;(2) 基于词序列的标注模型显著好于以基本块为标注单元以及以句法成分为标注单元的标注模型。 相似文献
2.
基于条件随机场的汉语分词系统 总被引:6,自引:1,他引:6
汉语分词是自然语言处理的首要的基本工作。本文提出了一个基于条件随机场(简称CRF)的汉语分词模型,CRF模型作为一个判别模型,可以容纳任意的非独立的特征信息。我们首先将分词看作是一个标记的过程,然后利用CRF模型对每个汉字进行标记,最后转换为相应的分词结果。系统采用感知机(Perceptron)算法进行参数训练。跟以前利用CRF进行分词的模型相比,本系统定义并使用了不同的特征函数,取得了更好的切分结果。在1st SIGHAN分词比赛PK测试集上封闭测试,F值为95.2%。 相似文献
3.
张春元 《计算机技术与发展》2011,21(7)
条件随机场(CRFs)是一种十分优秀的统计学习模型,文中尝试将其引入到文本分类之中,提出了一种基于CRFs的文本分类模型.首先通过特征选择将待分类文档和文档类别分别表示成为CRFs的观察序列和状态序列,然后使用文本分类相关领域知识定义特征函数来提取序列之间的关联特征,再采用前向或后向算法评估出给定观察序列条件下各状态序列的概率,据此实现待分类文档的分类.分析表明,这种新模型语义清晰,计算直观,易于融合各种文本分类领域知识,分类效率较高. 相似文献
4.
胡秧 《计算机光盘软件与应用》2014,(16):115-117,119
专利信息是集技术、经济、法律信息于一体的重要情报分析数据来源,也是支持技术创新管理的重要决策依据。由于专利使用的术语比论文更为抽象,基于统计的信息标注效果并不理想。本文利用亚洲语言信息检索测评会议提供的英文专利文摘数据,采用条件随机场模型,有针对性地标注技术及其功效信息,为专利技术功效矩阵分析奠定了基础。 相似文献
5.
6.
中文词性标注是中文信息处理领域的一项基础工作。提出了一种基于条件随机场CRFs(Conditional Random Fields)模型的无监督的中文词性标注方法。首先利用词典对获得的已分好词的生文本进行词性标注,得到初始标注语料,然后利用CRFs对语料进行迭代标注,逐步优化标注结果。并以宾州树库为实验语料,考察了不同规模的标注数据对模型性能的影响,在四份不同规模语料上的实验表明,词性标注正确率提高了1.88%~2.26%。 相似文献
7.
基于条件随机场(CRFs)的中文词性标注方法 总被引:9,自引:1,他引:9
本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98.56%和96.60%。 相似文献
8.
9.
传统的图像标注模型通常存在两个问题:只能够对短距离的像素上下文信息进行建模和复杂的模型推理过程。为了提高图像标注的精度、简化图像标注的模型推理过程,采用完全联系的条件随机场模型进行图像标注,提出利用基于高斯kd树的平均场估计方法实现该模型的高效推理。为了更好地验证算法的有效性,实验的图片数据库不仅包含标准的图片库--剑桥大学微软研究图片库(MSRC-9),还包含作者制作的机械零件图片库(MyDataset_1)和办公桌图片库(MyDataset_2)。新算法在三个图片库上的平均标注精度分别可以达到77.96%、97.15%和95.35%,每幅图的平均运行时间为2s。实验结果表明,基于完全联系的条件随机场的图像标注能够更充分地考虑不同的像素上下文信息来提高标注精度,而基于高斯kd树的模型推理能够提高模型推理的效率。 相似文献
10.
传统的事件因果关系抽取方法只能覆盖文本中的部分显式因果关系。针对这种不足,提出一种基于层叠条件随机场模型的事件因果关系抽取方法。该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系。第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界。实验表明,本文方法不仅可以覆盖文本中的各类显式因果关系,并且均能取得较好的抽取效果,总体抽取效果的F1值达到85。3%。 相似文献
11.
该文对维吾尔语树库标注体系进行分析,根据组块划分原则,在短语标记集的基础上制定了维吾尔语组块标记集,从已完成标注的3 000句语料库构建组块库。根据维文语言的特点,在英汉组块识别特征基础上,增加了词干、词缀、同义词标记等特征。该文中的性能评价指标采用了国际通用的准确率,召回率和F值,3 000个标注句子作为训练和测试语料库用,实验采用了交叉验证法,训练和测试语料库的比例分别为9∶1,8∶2,2∶1,召回率分别为80.34%,76.87%,66.76%。实验表明,语料库规模对模型性能影响较大。
相似文献
相似文献
12.
条件随机场模型是目前处理We b对象属性标注问题的最佳统计模型。为解决条件随机场模型不能充分利用We b对象和属性标签之间的特征关系这一问题,提出了一种增强约束条件随机场模型。借鉴最大间隔的思想,在原有条件随机场模型中增加约束条件和增强因子以提高模型标注正确率。使用最大似然参数估计方法估计模型特征函数的权重参数,并用Viterbi算法进行预测。在数据集中引入验证集的概念,以获得最优增强因子。实验结果表明,该模型有效地提高了We b对象属性标注正确率。 相似文献
13.
14.
15.
近些年来,条件概率模型的研究得到了很大的发展。在对序列标注类问题进行处理时,条件模型逐渐开始取代产生式模型,其应用领域相当广泛,条件概率模型可应用到图像识别、自然语言处理、入侵检测等问题上。条件随机场模型(Conditional Random Fields,CRFs)模型是条件模型中的代表模型,也是条件模型中现在研究得最多的模型之一。它避免了产生式模型的缺点,而且克服了前期最大熵模型标记偏置的缺陷,由此得到广泛的运用。在利用CRFs作具体应用研究时发现,单纯利用CRFs模型进行实际运用取得的效果并没有达到最好,所以在每个应用中均进行了改进。本文主要研究军用文书分词、军事命名实体识别、入侵检测等方面,所做的改进都在模型应用的基础上更进一步提高了系统的性能。 相似文献
16.
17.
18.
基于语义组块分析的汉语语义角色标注 总被引:1,自引:1,他引:0
近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的“句法分析——语义角色识别——语义角色分类”,而是一种简化的“语义组块识别——语义组块分类”流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。 相似文献
19.
汉语框架语义角色的自动标注 总被引:3,自引:0,他引:3
基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列标注问题,采用条件随机场模型,研究了汉语框架语义角色的自动标注.模型以词为基本标注单元,选择词、词性、词相对于目标词的位置、目标词及其组合为特征.针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,基于统计学中的正交表,给出一种较优模板选择方法.全部实验在选出的25个框架的6 692个例句的语料上进行.对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证.在给定句子中的目标词以及目标词所属的框架情况下,25个框架交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%和61.62%. 相似文献