首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
新能源汽车命名实体存在实体边界模糊,多为未登录词,现存标注样本较少等问题,识别精确率和召回率较低。据此,提出了一种基于多通道神经网络(Multiple Channel Neural Network,MCNN)的新能源汽车实体识别模型,该模型融合了字词特征和片段特征,不再将实体识别当作传统的序列标注任务,利用半马尔科夫条件随机场(Semi-Markov CRF,SCRF)针对片段特征建模,对输入的句子切分片段并对片段整体分配标记,同时完成实体边界的识别和实体分类,弥补了传统字词序列标注模型采用局部标记区分实体边界的不足。为解决现存标注样本较少的问题,在训练模型的过程中,引入了一种基于不确定性和相似度相结合的主动学习(Active Learning,AL)。通过多组对比实验表明,该模型在大幅度减少人工标注量的同时,能够提高识别精确率和召回率。  相似文献   

2.
当标注样本匮乏时,半监督学习利用大量未标注样本解决标注瓶颈的问题,但由于未标注样本和标注样本来自不同领域,可能造成未标注样本存在质量问题,使得模型的泛化能力变差,导致分类精度下降.为此,基于wordMixup方法,提出针对未标注样本进行数据增强的u-wordMixup方法,结合一致性训练框架和Mean Teacher模型,提出一种基于u-wordMixup的半监督深度学习模型(semi-supervised deep learning model based on u-wordMixup,SD-uwM).该模型利用u-wordMixup方法对未标注样本进行数据增强,在有监督交叉熵和无监督一致性损失的约束下,能够提高未标注样本质量,减少过度拟合.在AGNews、THUCNews和20 Newsgroups数据集上的对比实验结果表明,所提出方法能够提高模型的泛化能力,同时有效提高时间性能.  相似文献   

3.
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集[U]中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集[U]中数据进行人工标注从而构建分类器的方法OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。  相似文献   

4.
在深入分析现有基于监督学习和非监督学习方法的缺点后,提出了一个新颖的基于K-means与Markov模型相结合的半监督异常检测方法.半监督方法的学习样本包括已标示类别的样本和未标示样本,并且通过对已标示样本的学习来指导对未标示样本的学习来提高识别率.方法首先将经过标示的(正常的)系统调用序列投影到高维空间进行有监督聚类后,利用Markov模型来学习聚类间的时序关系,建立起正常行为的初始模型.由Markov模型产生的状态序列计算状态概率,根据状态序列概率来评价进程行为的异常情况.正常行为模型由2种关系确定:①空间分布关系(聚类);②空间的时序关系(Markov模型).在初始模型的导引下对未标示的序列进行学习,利用迭代过程对模型进行改进.实验表明,该算法能够在已标示样本较少的情况下通过对未标示样本的学习来改善模型的检测性能,达到在线增量学习的目的.  相似文献   

5.
针对全极化SAR图像在监督分类中存在的人工标注样本费时费力以及多种极化特征未能综合利用等问题,提出一种基于协同训练与集成学习的极化SAR图像半监督分类方法。该方法以支持向量机作为半监督学习的基分类器,通过协同学习机制将多种极化目标分解下的特征有效结合,实现同时利用无标注和有标注样本,最后通过集成学习进一步提高分类模型的泛化能力。在AIRSAR和EMISAR影像上的实验表明,该方法能充分利用不同特征的特点,在较少人工标注的样本下也能获得较高的分类精度。  相似文献   

6.
为更好地利用大量未标注图像样本信息来提高分类器性能,提出一种半监督学习的图像分类算法--随机半监督采样(RSSS).该算法采用迭代随机采样方法,每次采样中通过谱聚类估计未标注样本的类别值,使用SVM进行模型学习,逐步优化模型;同时,使用图像的局部空间直方图特征可以有效地结合图像的统计和空间信息,以提高分类准确度.实验结果表明,RSSS算法可以充分利用未标注样本信息提高分类器的性能,并且可以有效地消除几何变换带来的影响.  相似文献   

7.
针对电网领域命名实体识别(NER)对人工标注的依赖问题,提出了一种面向电网设备故障报告的半监督命名实体识别方法Semi-supervised PGTBC.首先使用基于多头自注意力机制的深度自注意力网络进行特征抽取,然后结合双向长短记忆神经网络(BiLSTM)和条件随机场模型(CRF)建立电网领域命名实体识别模型,最后基于半监督思想,引入基于深度自注意力网络的实体类别综合描述相似度计算,结合PGTBC的置信度作为半监督阈值筛选依据,减少对电网设备故障报告实体标注的依赖.数据集使用来源于1256篇的电网故障报告的10301条标注样本数和30829条无标注样本数.在有标注电网领域数据上的实验结果表明,基于PGTBC模型的预测F1为96.43%,相对于传统的BiLSTM-CRF模型提高了7.09个百分点.在无标注样本上,半监督方法Semi-supervised PGTBC取得了93.16%的F1,相对半监督CRF模型的F1提高了23.4个百分点,并对无标注样本进行了自动标注,识别出1661条新实体,有效减少电网设备故障报告命名实体任务对人工标注的依赖.  相似文献   

8.
目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。  相似文献   

9.
本文提出一种基于半监督主动学习的算法,用于解决在建立动态贝叶斯网络(DBN)分类模型时遇到的难以获得大量带有类标注的样本数据集的问题.半监督学习可以有效利用未标注样本数据来学习DBN分类模型,但是在迭代过程中易于加入错误的样本分类信息,并因而影响模型的准确性.在半监督学习中借鉴主动学习,可以自主选择有用的未标注样本来请求用户标注.把这些样本加入训练集之后,能够最大程度提高半监督学习对未标注样本分类的准确性.实验结果表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

10.
半监督学习中当未标注样本与标注样本分布不同时,将导致分类器偏离目标数据的主题,降低分类器的正确性.文中采用迁移学习技术,提出一种TranCo-Training分类模型.每次迭代,根据每个未标注样本与其近邻标注样本的分类一致性计算其迁移能力,并根据迁移能力从辅助数据集向目标数据集迁移实例.理论分析表明,辅助样本的迁移能力与其训练错误损失成反比,该方法能将训练错误损失最小化,避免负迁移,从而解决半监督学习中的主题偏离问题.实验表明,TranCo-Training优于随机选择未标注样本的RdCo-Training算法,尤其是给定少量的标注目标样本和大量的辅助未标注样本时.  相似文献   

11.
论藏文的序性及排序方法   总被引:7,自引:10,他引:7  
为解决藏文排序问题,本文提出藏文的构造序和字符序概念,并在此基础上提出解决藏文词典序的计算机方案。文章对各类藏文构造及字符进行了分析和赋值,给出了藏文计算机排序的技术流程图。  相似文献   

12.
本文给出了在Excel中快速输入超长数字序列的两种有效方法。  相似文献   

13.
本文给出了在Excel中快速输入超长数字序列的两种有效方法.  相似文献   

14.
For a given binary ideal autocorrelation sequence, we construct a perfect sequence set by changing a few bits of the sequence. The set has a large size with respect to the period of its sequences. Based on the constructed perfect sequence set, a new class of low correlation zone sequence sets whose low correlation zone length can be chosen flexibly is obtained. Moreover, the new constructed low correlation zone sequence sets can attain Tang-Fan-Matsufuji's bound with suitably chosen parameters.  相似文献   

15.
针对视频序列分类的问题提出了一种快速抠像技术.根据视频序列间的相关度进行关键帧的区分,得到关键帧、序列间变化细微的非关键帧、序列间变化较大的非关键帧;对于关键帧,采用闭合式的抠像方法来进行处理,获得透明度值、前景像素值和背景像素值;对于变化细微的非关键帧,提出了一种基于帧间连续性的透明度值估计和优化方法;对于变化较大的非关键帧,提出了一种基于特征流传递的机制来传递关键帧的有效信息.实验结果表明,最终在获得与传统方法相比可接受的抠像效果条件下,这种快速抠像技术缩短了处理时间.  相似文献   

16.
We propose a new ternary infinite (even full-infinite) square-free sequence. The sequence is defined both by an iterative method and by a direct definition. Both definitions are analogous to those of the Thue-Morse sequence. The direct definition is given by a deterministic finite automaton with output. In short, the sequence is automatic.  相似文献   

17.
混沌二进制序列的伪随机性和复杂性分析   总被引:1,自引:0,他引:1  
分析和讨论了由经典的Lorenz混沌系统和Chebyshev映射所生成的二进制序列的伪随机性和复杂性,采用T.Kohda混沌二进制量化算法,将混沌系统所产生的实数序列转换为相应的二进制序列;从统计检验、自相关性、频谱、Lempel-Ziv复杂度和近似熵等多方面对序列的伪随机性和复杂性进行定量分析。统计分析结果表明对由混沌系统所产生的有限二进制序列逼近Lempel-Ziv意义的随机序列,它具有较高的伪随机性、复杂性和非周期性,但是序列的伪随机性和复杂性并不随序列长度的增加而提高,在近似熵评价指标中呈显出降低的趋势。同时,作为伪随机源,Lorenz混沌系统略比Chebyshev映射好。  相似文献   

18.
CDMA通信系统中扩频序列的仿真研究   总被引:1,自引:0,他引:1  
为了改善传统扩频序列的性能,提出了构造一种基于Gold和Walsh序列的复合序列的方法.对m、Gold以及Walsh等传统扩频序列的产生和相关特性进行了研究.在此基础上,针对Walsh序列相关性能不够理想的特点,通过将序列循环相乘,利用复合序列的基本思想将Gold序列与Walsh序列相组合,设计出这种新的复合序列,即Gold-Walsh序列.仿真实验结果表明,该复合序列与传统扩频序列相比较,具有较优的相关特性.  相似文献   

19.
20.
省略作为一种常见的语言现象,在上下文中普遍存在,特别是在问答、对话等短文本中出现的频率更高。不同于传统的机器学习方法,该文针对问答、对话这样的短文本,构建了一个序列到序列的神经网络模型来实现对上下文中出现的省略进行识别和补全。在搜集和整理的短文本问答和对话语料上进行了各种实验,验证了该模型在省略识别和恢复上能够取得较好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号