首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
基于条件随机场的汉语分词系统   总被引:6,自引:1,他引:6  
汉语分词是自然语言处理的首要的基本工作。本文提出了一个基于条件随机场(简称CRF)的汉语分词模型,CRF模型作为一个判别模型,可以容纳任意的非独立的特征信息。我们首先将分词看作是一个标记的过程,然后利用CRF模型对每个汉字进行标记,最后转换为相应的分词结果。系统采用感知机(Perceptron)算法进行参数训练。跟以前利用CRF进行分词的模型相比,本系统定义并使用了不同的特征函数,取得了更好的切分结果。在1st SIGHAN分词比赛PK测试集上封闭测试,F值为95.2%。  相似文献   

2.
针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确率和自适应性,在计算机领域和医学领域的分词结果F值分别提升了7.6%和8.7%。  相似文献   

3.
基于链式条件随机场模型的序列标注中文分词方法随着中文分词评测Bakeoff的展开得到广泛应用。词位标注集和特征模板集对该模型的学习至关重要,但当前的研究大多采用单一的标注集和特征模板集进行实验,缺乏标注集和特征模板集结合的尝试,使得中文分词中未登录词识别率不高,从而影响互联网领域语料的分词效果。首次采用六词位标注集结合TMPT-10和TMPT-10`特征模板,并与常见标注集和特征模板集的组合在Bakeoff语料上进行实验对比,结果表明,改进的方法 6tag-tmpt10取得更好的未登录词召回率,在互联网领域中文分词能取得很好的效果;同时在F值上也与其他最好结果相当。  相似文献   

4.
藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场的藏语自动分词系统。实验结果表明,基于条件随机场的紧缩词识别方法快速、有效,而且可以方便地与分词模块相结合,显著提高了藏语分词的效果。  相似文献   

5.
针对高棉语分词及词性标注问题,提出一种基于层叠条件随机场模型的自动分词及词性标注方法。该方法由三层条件随机场模型构成: 第一层是分词模型,该模型以字符簇为粒度,结合上下文信息与高棉语的构词特点构建特征模板,实现对高棉语句子的自动分词;第二层是分词结果修正模型,该模型以词语为粒度,结合上下文信息与高棉语中命名实体的构成特点构建特征模板,实现对第一层分词结果的修正;第三层是词性标注模型,该模型以词语为粒度,结合上下文信息与高棉语丰富的词缀信息构建特征模板,实现对高棉语句子中的词语进行自动标注词性。基于该模型进行开放测试实验,最终准确率为95.44%,结果表明该方法能有效解决高棉语的分词和词性标注问题。  相似文献   

6.
本文提出了一种基于统计的中文人名识别方法,此方法使用最大概率分词模型对源句子进行粗切分,将粗切分信息融入到条件随机场模型中进行模型的训练。运用此方法分别对来自同一源语料的测试集和非同源语料的测试集进行了测试,F-值分别达到了91.3%和90.6%,证明了此方法的有效性。  相似文献   

7.
近些年来,条件概率模型的研究得到了很大的发展。在对序列标注类问题进行处理时,条件模型逐渐开始取代产生式模型,其应用领域相当广泛,条件概率模型可应用到图像识别、自然语言处理、入侵检测等问题上。条件随机场模型(Conditional Random Fields,CRFs)模型是条件模型中的代表模型,也是条件模型中现在研究得最多的模型之一。它避免了产生式模型的缺点,而且克服了前期最大熵模型标记偏置的缺陷,由此得到广泛的运用。在利用CRFs作具体应用研究时发现,单纯利用CRFs模型进行实际运用取得的效果并没有达到最好,所以在每个应用中均进行了改进。本文主要研究军用文书分词、军事命名实体识别、入侵检测等方面,所做的改进都在模型应用的基础上更进一步提高了系统的性能。  相似文献   

8.
传统的事件因果关系抽取方法只能覆盖文本中的部分显式因果关系。针对这种不足,提出一种基于层叠条件随机场模型的事件因果关系抽取方法。该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系。第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界。实验表明,本文方法不仅可以覆盖文本中的各类显式因果关系,并且均能取得较好的抽取效果,总体抽取效果的F1值达到85。3%。  相似文献   

9.
针对隐条件随机场(HCRF)的实时性问题和隐动态条件随机场(LDCRF)行为转换时的标记偏差问题,提出了一种基于分层分数条件随机场(SFCRF)模型的行为识别算法。该算法改进了LDCRF,并提出分数标记的概念,将人体行为的完整性和有向性具体化。实验结果表明,该算法取得了比条件随机场(CRF)、HCRF和LDCRF更好的识别效果。  相似文献   

10.
基于条件随机场模型在字粒度上识别并切分藏文人名,其优势是可以较好地利用藏文人名在文本中出现的基本特征和上下文特征来确定藏文人名在文本序列中的边界。根据藏文人名自身的特点设定特征标签集,利用条件随机场模型作为标注建模工具来进行训练和测试。从实验结果来看,该方法有较高的识别正确率,具有进一步研究的价值。下一步的改进需要扩充训练语料,并针对人名与一般词语同形现象进行特征标签集的优化。  相似文献   

11.
基于条件随机场的蒙古语词切分研究   总被引:1,自引:1,他引:1  
词干和构形附加成分是蒙古语词的组成成分,在构形附加成分中包含着数、格、体、时等大量语法信息。利用这些语法信息有助于使用计算机对蒙古语进行有效处理。蒙古语词在结构上表现为一个整体,为了利用其中的语法信息需要识别出词干和各构形附加成分。通过分析蒙古语词的构形特点,提出一种有效的蒙古语词标注方法,并基于条件随机场模型构建了一个实用的蒙古语词切分系统。实验表明该系统的词切分准确率比现有蒙古语词切分系统的准确率有较大提高,达到了0.992。  相似文献   

12.
基于条件随机场和图像分割的显著性检测   总被引:3,自引:0,他引:3  
针对当前常见的显著性方法检测得到的显著性区域边界稀疏不明确、内部不均匀致密等问题,提出了一种基于条件随机场(Condition random field, CRF)和图像分割的显著性检测方法.该方法综合利用边界信息、局部信息以及全局信息,从图像中提取出多种显著性特征;在条件随机场框架下融合这些特征,通过显著性区域与背景区域的区域标注实现显著性区域的粗糙检测;结合区域标注结果和交互式图像分割方法实现显著性区域的精确检测.实验结果表明本文提出的方法能够清晰而准确地提取出图像中的显著性区域,有效提高显著性检测精度.  相似文献   

13.
针对复杂交通场景图像中路面分割难度大和分割边缘粗糙的问题,提出了一种基于多特征融合和条件随机场的道路分割方法.首先,提取图像的纹理基元特征与颜色特征;然后,将道路分割问题视为一个基于像素的二分类问题,融合所提取的两种特征,使用SVM分类器实现对交通场景图像中路面区域与背景区域的粗糙划分;最后,利用全连接条件随机场中的颜色与位置约束,对分割结果进行优化,获得更加平滑的分割边缘,并与其他分割算法进行对比.实验结果表明,基于多特征融合与条件随机场的道路分割算法获得了95.37%的平均分割准确率和94.55%的平均像素精度.  相似文献   

14.
藏文分词问题是藏文自然语言处理的基本问题之一,该文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未分词的语料进行分词,针对基于条件随机场分词结果中存在的非藏文字符切分错误,藏文黏着词识别错误,停用词切分错误,未登录词切分错误等问题分别总结了规则,并对分词的结果利用规则进行再加工,得到最终的分词结果,开放实验表明该系统的正确率96.11%,召回率96.03%,F值96.06%。  相似文献   

15.
杨飞  王欢  金忠 《机器人》2018,40(6):803-816
为了在道路检测中结合图像的多尺度特征以及点云的空间结构特征,使检测算法能有效地排除道路场景中的阴影、光线等干扰,本文提出一种基于融合分层条件随机场的图像和点云融合的道路分割模型.首先,利用Meanshift算法产生多个尺度的超像素分割,建立基于图像的多尺度分层条件随机场.将点云数据投影到图像平面,再建立基于点云的多尺度分层条件随机场.在条件随机场的像素层和点云层之间建立连接,构造多尺度的融合模型.然后,针对多尺度融合模型中图像层的每一层和点云层的每一层,分别提取对应尺度的图像特征或点云特征.每一层用梯度提升树算法根据提取的特征训练1个分类器,利用每一层的分类器得到对应层的数据项代价.最后,使用α扩张算法对融合模型进行联合优化求解.在KITTI Road数据集上的实验结果表明,该方法具有良好的道路检测性能.  相似文献   

16.
通过对越南语词法特点的研究,把越南语的基本特征融入到条件随机场中(Condition random fields,CRFs),提出了一种基于CRFs和歧义模型的越南语分词方法。通过机器标注、人工校对的方式获取了25 981条越南语分词语料作为CRFs的训练语料。越南语中交叉歧义广泛分布在句子中,为了克服交叉歧义的影响,通过词典的正向和逆向匹配算法从训练语料中抽取了5 377条歧义片段,并通过最大熵模型训练得到一个歧义模型,并融入到分词模型中。把训练语料均分为10份做交叉验证实验,分词准确率达到了96.55%。与已有越南语分词工具VnTokenizer比较,实验结果表明该方法提高了越南语分词的准确率、召回率和F值。  相似文献   

17.
中文分词是中文信息处理领域的一项关键基础技术。随着中文信息处理应用的发展,专业领域中文分词需求日益增大。然而,现有可用于训练的标注语料多为通用领域(或新闻领域)语料,跨领域移植成为基于统计的中文分词系统的难点。在跨领域分词任务中,由于待分词文本与训练文本构词规则和特征分布差异较大,使得全监督统计学习方法难以获得较好的效果。该文在全监督CRF中引入最小熵正则化框架,提出半监督CRF分词模型,将基于通用领域标注文本的有指导训练和基于目标领域无标记文本的无指导训练相结合。同时,为了综合利用各分词方法的优点,该文将加词典的方法、加标注语料的方法和半监督CRF模型结合起来,提高分词系统的领域适应性。实验表明,半监督CRF较全监督CRF OOV召回率提高了3.2个百分点,F-值提高了1.1个百分点;将多种方法混合使用的分词系统相对于单独在CRF模型中添加标注语料的方法OOV召回率提高了2.9个百分点,F-值提高了2.5个百分点。  相似文献   

18.
针对已有算法需要采用一系列参数经验值得到最优视频分割结果的问题,提出根据视频特征自适应地计算视频邻域关系的特征强度函数,构造参数自适应的条件随机场视频分割模型。算法的核心思想是采用视频中像素之间的邻域关系自适应计算各个模型的特征函数,通过条件随机场模型对这些特征能量函数进行约束并利用Gibbs采样算法对该模型进行求解,获得全局优化的分割结果。针对不同环境下的视频分割实验表明,该算法能够很好地逼近最优经验参数所得到的视频分割结果,从而避免定义经验值所导致的算法局限性问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号