共查询到18条相似文献,搜索用时 31 毫秒
1.
基于统计的分词方法在中文分词领域能取得较好的分词效果,利用条件随机场进行中文分词时能够充分考虑每个词状态前、后的各种不同状态,更加符合实际应用。但是通过已有的标注语料训练得到的模型,应用于具有专有名词的分词场合时,专有名词会被不合理的分为不同的单词,进而影响分词的准确度。基于专有名词被错误分开,考虑在条件随机场的基础上,通过人工添加一个或多个专有名词的形式,使专有名词以单字成词的形式存在,确保专有名词在分词过程中被视为完整的词,不会被错误分开,提高带有专有名词的文本进行分词时的准确率。 相似文献
2.
基于层叠条件随机场模型的中文机构名自动识别 总被引:39,自引:1,他引:38
中文机构名的自动识别是自然语言处理中的一个比较困难的问题.本文提出了一种新的基于层叠条件随机场模型的中文机构名自动识别算法.该算法在低层条件随机场模型中解决对人名、地名等简单命名实体的识别,将识别结果传递到高层模型,为高层的机构名条件随机场模型实现对复杂机构名的识别提供决策支持.文中为机构名条件随机场模型设计了有效的特征模板和特征自动选择算法.对大规模真实语料的开放测试中,召回率达到90.05%,准确率达到88.12%,性能优于其它中文机构名识别算法. 相似文献
3.
命名实体识别在自然语言处理实践中具有高度重要的作用,而且也是信息提取等各种自然语言方式的基础工具.本文采用条件随机场模型(Conditional Random Fields,CRF)对维吾尔语音乐实体识别进行初步的探讨.首先维吾尔语网站上收集数据,进行一系列预处理后得到纯文本,然后制定语料标注规则对实体进行人工标注,再利用上下文、关键字、词典等一系列特征进行训练,制定一个适合的模板来进行音乐实体的识别.实验结果证明,此方法在维吾尔语音乐领域不仅可行、而且有效. 相似文献
4.
5.
近年来,显著性检测与图像处理有着密不可分的关系,图像处理依赖于高质量的显著图才能得到较好的处理结果。因此为提高图像显著性检测的准确性,提出了一种新的基于条件随机场(CRF)的显著性融合算法。将显著性检测看做一个图像标注问题,运用多尺度对比,中央—周围直方图和颜色空间分布这三种不同的显著度计算得到显著图。通过CRF学习计算各个显著度的权重,采用最大似然估计方法获取模型参数估计,得到最优解。最后利用CRF检测测试图像。通过大量的实验结果表明,此算法可以对显著目标得到更加精确地检测。 相似文献
6.
针对传统中文地址分词工作中存在的准确率差,识别率低的问题,提出了一种基于BERT的中文地址分词方法.同时,将非行政级别的地址标签进行重新设计,并通过构建BERT-BiLSTM-CRF模型,将中文地址分词任务转换为命名实体识别任务.利用大量全国地址数据对BERT进行训练,获取文本抽象特征;利用双向长短时记忆网络将文本序列... 相似文献
7.
基于条件随机场的汉语词性标注 总被引:1,自引:0,他引:1
近年来条件随机场广泛应用于各类序列数据标注中,汉语词性标注中应用条件随机场对上下文建模时会扩展出数以亿计的特征,在深入分析特征产生机理的基础上对特征模板集进行了优化,采用条件随机场进一步研究了汉语词性标注中设定的特征模板集、扩展出的特征数、训练后模型大小、词性标注精度等指标之间的关系.实验结果表明,优化后的特征模板集在模型训练时间、训练后模型大小、标注精度等指标上达到了整体最优. 相似文献
8.
《现代电子技术》2019,(1):95-99
当前主流的中文分词方法是基于有监督的学习算法,该方法需要大量的人工标注语料,并且提取的局部特征存在稀疏等问题。针对上述问题,提出一种双向长短时记忆条件随机场(BI_LSTM_CRF)模型,可以自动学习文本特征,能对文本上下文依赖信息进行建模,同时CRF层考虑了句子字符前后的标签信息,对文本信息进行了推理。该分词模型不仅在MSRA,PKU,CTB 6.0数据集上取得了很好的分词结果,而且在新闻数据、微博数据、汽车论坛数据、餐饮点评数据上进行了实验,实验结果表明,BI_LSTM_CRF模型不仅在测试集上有很好的分词性能,同时在跨领域数据测试上也有很好的泛化能力。 相似文献
9.
鉴于自动语音识别(ASR)中置信度估计困难的问题,该文提出一种基于多知识源融合的策略来提高置信度的鉴别能力。具体做法是,首先选择关于识别结果的声学层、语言层和语义层等不同层次的信息,然后通过实验确定这些信息不同的组合方式,并以此为特征在隐藏单元条件随机场(Hidden-units Conditional Random Fields, HuCRFs)框架下计算识别结果的条件概率。最后将HuCRFs条件概率作为语音识别结果置信度的新的估计。实验首先证明了HuCRFs条件概率是比归一化的网格后验概率鉴别能力更强的一种置信度估计方法。同时基于HuCRFs条件概率置信度,对解码器一遍识别得到的网格重新搜索最佳候选序列,取得了相对一遍识别最佳候选序列绝对近2%的字错误率(CER)下降。同时,该文也对比了基于HuCRFs条件概率搜索的最佳候选序列和基于长语言模型网格重估的最佳候选序列的性能,进一步证明了使用HuCRFs条件概率作为置信度估计是一种更好的选择。 相似文献
10.
11.
Wang Haochang Zhao Tiejun Li Sheng Yu Hao 《电子科学学刊(英文版)》2007,24(6):838-844
Named entity recognition is a fundamental task in biomedical data mining. In this letter, a named entity recognition system based on CRFs (Conditional Random Fields) for biomedical texts is presented. The system makes extensive use of a diverse set of features, including local features, full text features and external resource features. All features incorporated in this system are described in detail, and the impacts of different feature sets on the performance of the system are evaluated. In order to improve the performance of system, post-processing modules are exploited to deal with the abbrevia- tion phenomena, cascaded named entity and boundary errors identification. Evaluation on this system proved that the feature selection has important impact on the system performance, and the post-processing explored has an important contribution on system performance to achieve better re- sults. 相似文献
12.
弱监督语义分割任务常利用训练集中全体图像的超像素及其相似度建立图模型,使用图像级别标记的监督关系进行约束求解。全局建模缺少单幅图像结构信息,同时此类参数方法受到复杂度限制,无法使用大规模的弱监督训练数据。针对以上问题,该文提出一种基于纹元森林和显著性先验的弱监督图像语义分割方法。算法使用弱监督数据和图像显著性训练随机森林分类器用于语义纹元森林特征(Semantic Texton Forest, STF)的提取。测试时,先将图像进行过分割,然后提取超像素语义纹元特征,利用朴素贝叶斯法进行超像素标记的概率估计,最后在条件随机场(CRF)框架下结合图像显著性信息定义了新的能量函数表达式,将图像的标注(labeling)问题转换为能量最小化问题求解。在MSRC-21类数据库上进行了验证,完成了语义分割任务。结果表明,在并未对整个训练集建立图模型的情况下,仅利用单幅图像的显著性信息也可以得到较好的分割结果,同时非参模型有利于规模数据分析。 相似文献
13.
基于信息网格的分词服务的研究 总被引:2,自引:4,他引:2
文章首先分析了信息网格的体系结构,然后基于开放网格服务结构的核心思想提出了一个构筑在信息网格上的中文分词服务,并重点介绍了该服务基于OGSA的架构的设计技术以及面向服务的应用. 相似文献
14.
A new joint decoding strategy that combines the character-based and word-based conditional random field model is proposed. In this segmentation framework, fragments are used to generate candidate Out-of-Vocabularies (OOVs ). After the initial segmentation, the segmentation fragments are divided into two classes as “combination ”(combining several fragments as an unknown word) and “segregation冶(segregating to some words ). So, more OOVs can be recalled. Moreover, for the characteristics of the cross-domain segmentation, context information is reasonably used to guide Chinese Word Segmentation (CWS). This method is proved to be effective through several experiments on the test data from Sighan Bakeoffs 2007 and Bakeoffs 2010. The rates of OOV recall obtain better performance and the overall segmentation performances achieve a good effect. 相似文献
15.
16.
中文分词技术的研究现状与困难 总被引:10,自引:1,他引:9
中文分词技术是中文信息处理领域的基础研究课题.而分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分.首先对中文分词的基本概念与应用,以及中文分词的基本方法进行了概述.然后分析了分词中存在的两个最大困难.最后指出了中文分词未来的研究方向. 相似文献
17.
在分析传统FMM分词算法的原理与特点的基础上,利用词频统计结果,提出了一种改进的FMM算法,通过分析,改进的FMM算法可以进一步提高分词的效率. 相似文献