首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 359 毫秒
1.
针对隐马尔可夫模型无法融合分类结果权值的问题,文中提出加权观测隐马尔可夫模型(WOHMM),并给出模型中概率计算、参数学习、序列标注三个基本问题的解决算法.使用公开数据集对参数学习和序列标注问题进行仿真实验,结果表明,WOHMM的参数学习算法能得到更接近真实值的模型参数,序列标注算法的效果较优.  相似文献   

2.
引入混合特征的最大名词短语双向标注融合算法   总被引:1,自引:0,他引:1  
李业刚  黄河燕  鉴萍 《自动化学报》2015,41(7):1274-1282
最大名词短语的识别对机器翻译等诸多自然语言处理任务有着重要的意义. 以汉语最大名词短语识别为研究任务,在分析现有方法的基础上,从汉语的语言学 特殊性以及基于支持向量机的序列标注算法的特点出发,考查了基于混合特征的融合算法的适应性. 实验证明,采用词和基本组块混合标注单元的标注方法对汉语最大名词短语的识别 是有效的,并且其正反向识别结果具有一定的互补性, 在此基础上提出的基于"边界分歧"的双向序列标注融合算法恰能发 掘双向识别的互补性,并达到较高的融合精度.  相似文献   

3.
数据分类的准确性依赖于数据标注的质量和数量,当训练数据被错误标注时,数据分类的准确性会受到很大的影响。针对这种情形,提出一种基于稀疏重构权的错误标注数据检测方法。首先,对含有错误标注数据集采用k近邻的方法求取其近邻点;然后,通过求解带L1-范数的最小二乘模型计算每个标注数据的局部稀疏重构权,并利用稀疏重构权计算每个标注数据的置信度;最后,通过寻找置信度曲线中最大曲率的位置,自适应地检测出错误标注数据。通过实际数据的实验验证了本文所提算法的有效性。  相似文献   

4.
针对目前机器学习方法在化学领域的资源实体及关系抽取任务上召回率低以及高度依赖人工特征工程和领域知识的问题,提出一种基于实体信息及关系信息融合标注的联合抽取方法(Information Fusion Tagging-Joint Model,IFT-Joint).该方法主要从以下两个方面改进:将联合抽取任务转化为序列标注问题,缓解联合抽取中重叠关系的问题;从序列标注的角度出发,提出一种基于BERT(Bidirectional Encoder Representations from Trans-formers)联合抽取模型.通过多组实验表明,在化学领域实体数据集上,IFT-Joint的召回率可达到75%以上,相比于所提到的其他方法效果提升明显,且具有良好的稳定性.  相似文献   

5.
缩略词拓展解释识别任务中标注样本较少,无法从中总结出全面的规则或采用有监督的学习方法来学习.为此,提出一种基于半监督条件随机场(CRF)的缩略词扩展解释识别模型,利用广泛的未标注样本和较少的标注样本寻找序列文本中恰当的语句,以解释给定的缩略词.使用较少的标注序列样本训练一个全监督CRF模型,针对未标注序列样本,采用最小序列熵学习样本之间的联系,结合标注样本和未标注样本,利用半监督自学习方法学习两者的关系.实验结果表明,该模型的序列F1值达到84.73%,高于支持向量机和全监督CRF基准算法.  相似文献   

6.
拓扑特征分析和拓扑图生成是因特网拓扑研究的一个重要研究方向.dK特征序列被证明是一种有效的系统化拓扑特征分析方法,2K图已经能够在各种重要的拓扑度量方面与实际因特网拓扑图保持一致.在使用dK特征序列分析因特网拓扑时是用无向图来对因特网拓扑进行抽象的,然而对于自治系统(AS)级拓扑,由于AS之间存在复杂的商业关系,使用AS关系标注的拓扑图才能更精确地描述AS级拓扑特征.对dK特征序列进行了改进,提出了能够分析AS关系标注的拓扑图的dK'特征序列,并给出了生成满足指定2K'特征的拓扑图的算法.分析实验结果发现,2K'特征已经能够描述AS关系标注的拓扑图的各种重要特征.  相似文献   

7.
针对视频图像连续帧间的目标具有冗余性,采用手动标注方式耗时耗力的问题,提出一种融合检测和跟踪算法的视频目标半自动标注框架。利用手动标注的样本离线训练改进YOLO v3模型,并将该检测模型作为在线标注的检测器。在线标注时在初始帧手动确定目标位置和标签,在后续帧根据检测框与跟踪框的IOU(Intersection-Over-Union)值自动确定目标的位置,并利用跟踪器的响应输出判断目标消失,从而自动停止当前目标标注。采用一种基于目标显著性的关键帧提取算法选择关键帧。采用自建舰船目标数据集进行了改进YOLO v3检测性能对比实验,并采用舰船视频序列验证了提出的视频目标半自动标注方法的有效性。实验结果表明,该方法可以显著提高标注效率,能够快速生成标注数据,适用于海上舰船等场景的视频目标标注任务。  相似文献   

8.
语义角色标注的研究方法中使用最频繁的一类是基于特征工程,将任务转化成分类问题使用机器学习的方法来解决,几乎所有的有指导语义角色标注采用的标注语料都是宾州大学命题库标注体系。近年来,北京大学开发出一套新的标注语料—北京大学中文网库,该文的目的在于测试这类研究方法在新语料的效果,验证之前所使用的特征是否对标注语料具有依赖性。通过实验发现前人方法中的一些不足,尤其个别特征在北大网库上作用更关键。  相似文献   

9.
目前主流的序列标注问题是基于循环神经网络(RNN)实现的。针对RNN和序列标注问题进行研究,提出了一种改进型的多层双向长短时记忆(BLSTM)网络,该网络每层的BLSTM都有一次信息融合,输出包含更多的上下文信息。另外找到一种基于序列标注的可以并行执行中文分词和标点预测的联合任务方法。在公开的数据集上的实验结果表明,所提出的改进型的多层BLSTM网络模型性能优越,提升了中文分词和标点预测的分类精度;在需要完成中文分词和标点预测两项任务时,联合任务方法能够大幅地降低系统复杂度;新的模型及基于该模型的联合任务方法也可应用到其他序列标注任务中。  相似文献   

10.
为解决伪标签筛选过程的位置噪声数据问题,提出了基于定位置信度加权的Soft Teacher-LAH半监督目标检测算法。通过离散化目标检测网络定位分支的预测输出,引入具有定位感知功能的输出结构LAH。基于LAH预测输出,定义一种衡量定位精度的置信度指标,设计基于该置信度加权的无监督定位损失函数,降低伪标签位置噪声对模型训练的负面影响。实验结果表明了该算法的性能优势,针对微软COCO数据集,在有标注数据占比训练集分别为1%、5%和10%的场景下,该算法相比于现有Soft Teacher方案的平均精度分别提高了1.1、1.2和1.5个百分点;针对PASCAL VOC数据集,在使用VOC07和VOC12分别作为有标注和无标注训练数据的场景下,该算法相比Soft Teacher方案的平均精度提高了1.6个百分点。  相似文献   

11.
冠词选择需要综合考虑语言知识、语义知识以及世界知识,是汉英翻译中的一个难点。针对传统的基于规则和机器学习的方法,只考虑名词短语前冠词选择的问题,该文将冠词看作一种标记,将该问题形式化地描述为一个序列标注任务,提出一种基于条件随机场的解决策略,选取特征时充分利用词、词性等多层次资源,并引入前后词的互信息。实验采用包含91 106个冠词的专利摘要做测试语料,F值达到80%。  相似文献   

12.
Unlabeled time series signals collected during manufacturing typically have low value density and must be labeled and intercepted according to the specific application scenario. During variable-parameter milling, particularly high-precision machining, machining parameters vary, and associated discrepancies in vibration signals are small. In this scenario, signal features that are extracted by hand or via deep learning methods cannot typically distinguish machining states via classification models. To solve this problem, a sequence labeling model developed using a stacked bidirectional long short-term memory network with a conditional random field layer (stacked-BiLSTM-CRF) is proposed in this study to automatically label and intercept vibration signals. The stacked BiLSTM receives the shallow features obtained by the short-time Fourier transform of the vibration signals and then outputs the extracted deep features to capture the before and after dependence of the signals. The stacked BiLSTM is then extended by stacking a CRF layer to explicitly model the dependence of signal labels. In a more accurate labeling scenario, the fast low-cost online semantic segmentation algorithm (FLOSS) is used to acquire more fine-grained signal boundary locations after obtaining the frame-level signal label using the stacked BiLSTM-CRF model. In addition, to evaluate model performance, a novel evaluation index for signal labeling is proposed. The feasibility and effectiveness of the proposed method are verified using the vibration signals collected from variable parameter cutting experiments, and results show that the proposed model achieves the best labeling performance of tested methods in nearly all scenarios.  相似文献   

13.
情绪原因识别是情绪分析中的一个重要研究任务。该任务旨在自动分析出导致某一情绪发生的原因描述。该文将情绪原因识别任务建模为序列标注模型,即将情绪词相关的子句当成序列,进而整体标注出哪些属于原因子句。具体实现中,我们使用条件随机场(CRF)模型进行求解,并结合了基本词特征、词性特征、距离特征、上下文特征及语言学特征等多种特征进行原因识别。实验结果表明,所采用的这些特征对于原因识别都有一定帮助,特别是上下文特征。此外,我们发现在使用类似特征集合的情况下,序列标注模型能够获得比分类模型更好的识别效果。  相似文献   

14.
语义角色标注是自然语言处理中的一项重要任务。当下针对中文语义角色标注的主流做法是通过基于特征的统计机器学习实现的。然而,统计机器学习的方法需要引入经验性的人工特征,这在一定程度上增加了工作量。深度学习在自然语言处理领域的应用使得特征的自动学习成为可能。文章尝试了一种适用于语义角色标注的深层神经网络架构,该模型能自然地推广到其他标注任务。实验表明,深度学习算法能够有效地用于语义角色标注任务,但是我们仍然发现,模型对语义层面知识的学习是相当有限的,基于深度学习的方法还不能取代基于人工特征的统计机器学习算法。  相似文献   

15.
As a powerful sequence labeling model, conditional random fields (CRFs) have had successful applications in many natural language processing (NLP) tasks. However, the high complexity of CRFs training only allows a very small tag (or label) set, because the training becomes intractable as the tag set enlarges. This paper proposes an improved decomposed training and joint decoding algorithm for CRF learning. Instead of training a single CRF model for all tags, it trains a binary sub-CRF independently for each tag. An optimal tag sequence is then produced by a joint decoding algorithm based on the probabilistic output of all sub-CRFs involved. To test its effectiveness, we apply this approach to tackling Chinese word segmentation (CWS) as a sequence labeling problem. Our evaluation shows that it can reduce the computational cost of this language processing task by 40-50% without any significant performance loss on various large-scale data sets.  相似文献   

16.
提出了一种基于松弛标记法的任务调度算法(Relaxation labeling based task scheduling,RLBTS),将任务映射到异构资源(处理器计算能力和链路的通信能力不同)上.松弛标记法善于处理大量的约束条件,其核心思想是结点的标签分配通常受该结点的邻居结点某些属性的影响.依据邻居约束关系,可以逐渐排除不相关因素,迅速缩小搜索空间.该算法统筹兼顾了任务执行的计算需求和通信需求问题,实验结果表明对于通信和计算需求都很高的任务和通信密集型任务,RLBTS不失为一种有效的调度算法.  相似文献   

17.
提出了一种基于松弛标记法的任务调度算法(Relaxation labeling based task scheduling,RLBTS),将任务映射到异构资源(处理器计算能力和链路的通信能力不同)上.松弛标记法善于处理大量的约束条件,其核心思想是结点的标签分配通常受该结点的邻居结点某些属性的影响.依据邻居约束关系,可以逐渐排除不相关因素,迅速缩小搜索空间.该算法统筹兼顾了任务执行的计算需求和通信需求问题,实验结果表明对于通信和计算需求都很高的任务和通信密集型任务,RLBTS不失为一种有效的调度算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号