首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
基于条件随机场(CRFs)的中文词性标注方法   总被引:9,自引:1,他引:9  
本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98.56%和96.60%。  相似文献   

2.
为了保留蒙古语词缀中大量的语法、语义信息和缩小蒙古语词典的规模,蒙古语词性标注需要对词干和词缀都进行词性标注。针对这一问题提出了一种基于条件随机场(CRF)的蒙古语词性标注方法。该方法利用CRF模型能够添加任意特征的特点,充分使用蒙文上下文信息,针对词素之间的相互影响添加了新的统计特征,并在3.8万句的蒙古语词性标注语料上进行了封闭测试,该方法的标注准确率达到了96.65%,优于使用隐马尔可夫模型(HMM)的词性标注模型。  相似文献   

3.
针对高棉语分词及词性标注问题,提出一种基于层叠条件随机场模型的自动分词及词性标注方法。该方法由三层条件随机场模型构成: 第一层是分词模型,该模型以字符簇为粒度,结合上下文信息与高棉语的构词特点构建特征模板,实现对高棉语句子的自动分词;第二层是分词结果修正模型,该模型以词语为粒度,结合上下文信息与高棉语中命名实体的构成特点构建特征模板,实现对第一层分词结果的修正;第三层是词性标注模型,该模型以词语为粒度,结合上下文信息与高棉语丰富的词缀信息构建特征模板,实现对高棉语句子中的词语进行自动标注词性。基于该模型进行开放测试实验,最终准确率为95.44%,结果表明该方法能有效解决高棉语的分词和词性标注问题。  相似文献   

4.
专利信息是集技术、经济、法律信息于一体的重要情报分析数据来源,也是支持技术创新管理的重要决策依据。由于专利使用的术语比论文更为抽象,基于统计的信息标注效果并不理想。本文利用亚洲语言信息检索测评会议提供的英文专利文摘数据,采用条件随机场模型,有针对性地标注技术及其功效信息,为专利技术功效矩阵分析奠定了基础。  相似文献   

5.
6.
基于链式条件随机场模型的序列标注中文分词方法随着中文分词评测Bakeoff的展开得到广泛应用。词位标注集和特征模板集对该模型的学习至关重要,但当前的研究大多采用单一的标注集和特征模板集进行实验,缺乏标注集和特征模板集结合的尝试,使得中文分词中未登录词识别率不高,从而影响互联网领域语料的分词效果。首次采用六词位标注集结合TMPT-10和TMPT-10`特征模板,并与常见标注集和特征模板集的组合在Bakeoff语料上进行实验对比,结果表明,改进的方法 6tag-tmpt10取得更好的未登录词召回率,在互联网领域中文分词能取得很好的效果;同时在F值上也与其他最好结果相当。  相似文献   

7.
汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%.  相似文献   

8.
刘彤  黄修添  马建设  苏萍 《计算机应用》2017,37(10):2841-2846
传统的图像标注模型通常存在两个问题:只能够对短距离的像素上下文信息进行建模和复杂的模型推理过程。为了提高图像标注的精度、简化图像标注的模型推理过程,采用完全联系的条件随机场模型进行图像标注,提出利用基于高斯kd树的平均场估计方法实现该模型的高效推理。为了更好地验证算法的有效性,实验的图片数据库不仅包含标准的图片库--剑桥大学微软研究图片库(MSRC-9),还包含作者制作的机械零件图片库(MyDataset_1)和办公桌图片库(MyDataset_2)。新算法在三个图片库上的平均标注精度分别可以达到77.96%、97.15%和95.35%,每幅图的平均运行时间为2s。实验结果表明,基于完全联系的条件随机场的图像标注能够更充分地考虑不同的像素上下文信息来提高标注精度,而基于高斯kd树的模型推理能够提高模型推理的效率。  相似文献   

9.
在给定目标词及其所属框架的条件下,汉语框架语义角色标注可以分为语义角色识别和角色分类两个步骤。该文将此任务通过IOB2标记策略形式化为词序列标注问题,以词为基本标注单元,采用条件随机场模型进行自动标注实验。先对语料使用清华大学的基本块自动分析器进行分析,提取出15个块层面的新特征,并将这些特征标记形式化到词序列上。以文献[20]已有的12个词层面特征以及15个块层面特征共同构成候选特征集,采用正交表方法来选择模型的最优特征模板。在与文献[20]相同的语料上,相同的3组2折交叉验证实验下,语义角色标注的总性能的F1-值比文献[20]的F1-值提高了近1%,且在显著水平0.05的t-检验下显著。实验结果表明: (1)基于词序列模型,新加入的15个块层面特征可以显著提高标注模型的性能,但这类特征主要对角色分类有显著作用,对角色识别作用不显著;(2) 基于词序列的标注模型显著好于以基本块为标注单元以及以句法成分为标注单元的标注模型。  相似文献   

10.
大规模未标注语料中蕴含了丰富的词汇信息,有助于提高中文分词词性标注模型效果。该文从未标注语料中抽取词汇的分布信息,表示为高维向量,进一步使用自动编码器神经网络,无监督地学习对高维向量的编码算法,最终得到可直接用于分词词性标注模型的低维特征表示。在宾州中文树库5.0数据集上的实验表明,所得到的词汇特征对分词词性标注模型效果有较大帮助,在词性标注上优于主成分分析与k均值聚类结合的无监督特征学习方法。  相似文献   

11.
一种自适应词性标注方法   总被引:8,自引:0,他引:8  
王挺  陈火旺  杨谊  史晓东 《软件学报》1997,8(12):937-943
本文针对词性标注的问题,修改了经典的隐马尔可夫模型HMM(hiddenMarkovmodel)参数估算方法,使得模型参数能够随着新语料的增加而动态地进行调整.从已标注或未标注的语料中获取知识以提高模型的准确性.  相似文献   

12.
提出一种基于条件随机场的车牌字符分割算法,能够对光照不均、相机拍摄角度造成的低图像质量的车牌图像,特别是日益增多的车牌边框与字符相连接车牌图像进行有效的字符分割。算法首先进行车牌图像校正,然后利用标注车牌数据进行模型学习,对车牌图像像素列进行分类识别,最后组合成车牌字符分割结果。理论分析与实验结果验证了算法的有效性。  相似文献   

13.
英汉机译中一种基于无监督学习的词类消歧策略   总被引:1,自引:0,他引:1  
在本文,我们介绍英汉机译中使用无监督学习实现词类消歧的一种新方法,该方法以独立于语料库的手工制作的约束规则为出发点,然后合并从训练语料库中以无监督方式所学习的约束规则,从而激发手工制作的约束规则,同时不以牺牲查全率为代价而提高查准率。实验表明,在英语分析过程中通过组合这些手工制作以及所学习的信息源,可获得大约98%的查全率,89%的查准率,以及平均1.10个歧义分析/单  相似文献   

14.
基于非监督训练的汉语词性标注的实验与分析   总被引:4,自引:0,他引:4  
概率参数的获取是基于统计的词性标注的两个主要研究方向之一.侧重于研究非监督方式,利用未标注的语料进行训练获取概率参数.实现了一个非监督的训练标注模式-HMM-Basic;从不同的初始模型和训练集出发对汉语词性标注进行了实验;分析了训练集规模、初始模型的选择对系统标注性能的影响并讨论了其中所存在的问题。  相似文献   

15.
文中引入数理统计中“置信区间”的概念,提出并实现了一种基于“置信区间”评价函数的汉语词性纯概率标注算法.测试表明,本算法可以保证在具有一定召回率的同时,具有可界定的高的消歧率.当消歧率为94.8%时,召回率可达81.5%.  相似文献   

16.
We tackle the structured output classification problem using the Conditional Random Fields (CRFs). Unlike the standard 0/1 loss case, we consider a cost-sensitive learning setting where we are given a non-0/1 misclassification cost matrix at the individual output level. Although the task of cost-sensitive classification has many interesting practical applications that retain domain-specific scales in the output space (e.g., hierarchical or ordinal scale), most CRF learning algorithms are unable to effectively deal with the cost-sensitive scenarios as they merely assume a nominal scale (hence 0/1 loss) in the output space. In this paper, we incorporate the cost-sensitive loss into the large margin learning framework. By large margin learning, the proposed algorithm inherits most benefits from the SVM-like margin-based classifiers, such as the provable generalization error bounds. Moreover, the soft-max approximation employed in our approach yields a convex optimization similar to the standard CRF learning with only slight modification in the potential functions. We also provide the theoretical cost-sensitive generalization error bound. We demonstrate the improved prediction performance of the proposed method over the existing approaches in a diverse set of sequence/image structured prediction problems that often arise in pattern recognition and computer vision domains.  相似文献   

17.
基于Kohonen神经网络的分形图像编码   总被引:2,自引:0,他引:2  
本文提出利用Kohonen自组织神经网络把母块分类与特征抽取结合起来有助于改善分形编码的时间。因为特征抽取减少了问题的维数并且使网络能够在一幅和实验图像分离的图像上得到训练。自组织网络为分类引入了一个领域拓扑结构,并且不需要事先指定一组适当的图像类。网络按照在训练期间观测的图像特征的分布来组织自己。结果表明,该分类方法可以将编码时间减少两个数量级并保持可观的精度和压缩性能。  相似文献   

18.
本文提出了一种快速学习算法,它解决了Brill基于变换的学习方法中规则获取时间过长的问题.在每次迭代过程中,该算法仅需调整受到影响的小部分变换模式,而无需遍历所有变换模式,大大节省了学习时间.应用这一快速学习算法,以SUSANNE英语语料库作为训练文本,获得300条英语词性标注规则和生词处理的概率知识,实现了一个英语词性标注系统,系统封闭测试和开放测试的正确率分别达到了98.2%和96.6%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号