首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
由于传统的问句语义分析主要针对事实类的简单问句,而对于面向开放域的复杂问句缺少有效的语义分析方法。针对这种情况,提出一种新的问句语义分析模型。该模型将问句从文字空间映射到结构化的语义空间,实现问句的语义分析和表示。通过标注问句中的语义信息,模型实现问句分类、问句主题识别、限制信息识别三项分析工作。使用隐马尔科夫支持向量机(HM-SVMs)序列化标注工具实现了模型的自动标注,取得了86.7%的准确率。实验结果表明,HM-SVMs在标注准确率和效率上好于MEMM、CRF、M3N等模型,达到了预期效果。  相似文献   

2.
半监督学习和主动学习相结合的浅层语义分析   总被引:1,自引:1,他引:0  
语义分析是基于内容的文本挖掘领域的重要技术和研究难点。有监督机器学习方法受限于标注语料的规模,在小规模标注样本中难以获取较高性能。本文面向浅层语义分析任务,采用一种新颖的半监督学习方法——直推式支持向量机,并结合其训练特点提出了基于主动学习的样本优化策略。实验表明,本文提出的浅层语义分析方法通过整合主动学习与半监督学习,在小规模标注样本环境中取得了良好的学习效果。  相似文献   

3.
缩略词拓展解释识别任务中标注样本较少,无法从中总结出全面的规则或采用有监督的学习方法来学习.为此,提出一种基于半监督条件随机场(CRF)的缩略词扩展解释识别模型,利用广泛的未标注样本和较少的标注样本寻找序列文本中恰当的语句,以解释给定的缩略词.使用较少的标注序列样本训练一个全监督CRF模型,针对未标注序列样本,采用最小序列熵学习样本之间的联系,结合标注样本和未标注样本,利用半监督自学习方法学习两者的关系.实验结果表明,该模型的序列F1值达到84.73%,高于支持向量机和全监督CRF基准算法.  相似文献   

4.
三维模型语义自动标注的目标是自动给出最适合描述模型的标注词集合,是基于文本的三维模型检索的重要环节。语义鸿沟的存在使得相似匹配技术得到的标注效果有待提高。为了在用户提供的有限模型数量和对应的标注词信息下,在自动标注过程中利用大量的未标注样本改善三维模型的标注性能,提出了一种半监督测度学习方法完成三维模型语义自动标注。该方法首先使用基于图的半监督学习方法扩展已标注模型集合,并给出扩展集合中语义标签表征模型的语义置信度,使用改进的相关成分分析方法学习马氏距离度量,依据学习到的距离和语义置信度形成多语义标注策略。在PSB(Princeton Shape Benchmark)数据集上的测试表明,该方法利用了大量未标注样本参与标注过程,取得了比较好的标注效果。  相似文献   

5.
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集[U]中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集[U]中数据进行人工标注从而构建分类器的方法OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。  相似文献   

6.
针对常见问答系统采用的以词法分析为基础的浅层语义模型难以有效挖掘用户问句深层语义的问题,本文立足于旅游问答应用领域,采用组合范畴语法对旅游问句进行句法分析,使用Lambda演算式表示问句语义,以此构建旅游领域问句的语义模型,以便于通过精确的问句语义快速查找应答结果.研究首先进行旅游领域数据采集与语料标注的准备性工作,并针对语料对旅游问句的句式句法进行分析;然后采用基于概率的组合范畴语法的监督学习过程,通过训练获得较为可靠的旅游问句语义词典;最后根据语义词典及其他相关知识,学习用户问句语义,构建旅游自动应答语义分析系统,着重于问句解析和相应的语义模型的构建.通过在评测集上的验证,这种语义解析方法在解析效果上有比较明确的提升.  相似文献   

7.
音乐生成是一种使用算法来生成音乐序列的研究。本文针对音乐样本特征提取以及自动作曲问题提出了一种基于音乐隐式特征和循环神经网络(recurrent neural network, RNN)的多声部音乐生成算法。该方法通过使用栈式自编码器对多声部音乐序列每个时间步的音符隐式特征进行提取,结合长短期记忆循环神经网络(long short-term memory, LSTM),以序列预测的方式搭建了基于隐式特征的音乐生成模型。仿真结果表明,该音乐生成算法在使用相同风格的音乐数据训练后,得到的模型可以生成旋律与和弦匹配较好的多声部音乐数据。  相似文献   

8.
在现有互训练(Co-Training)算法的基础上,提出了一种基于多个互补型分类器的半监督学习(Semi-Supervised Learn-ing)方法,并将其应用到自动视频语义标注框架中.该方法通过构建基于特征互补和模型互补的多个分类器对未标注样本中的隐含信息加以利用,并结合视频序列中概念分布的时间相关性和局部聚集性等特性提高了分类的准确性,相对于有监督学习方法提高了约7%左右.  相似文献   

9.
基于最大熵模型的汉语问句语义组块分析   总被引:1,自引:0,他引:1  
问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大熵原理实现了语义组块特征抽取和特征选取学习算法,并以模型为基础实现了真实问句的语义块的标注,从而为在语义层面上理解汉语问句奠定了基础。实验结果说明最大熵模型应用于汉语问句语义组块分析具有较好的效果。  相似文献   

10.
传统基于深度学习的复述识别模型通常以关注文本表示为核心,忽略了对多粒度交互特征的挖掘与匹配.为此,建模文本交互空间,分别利用双向长短时记忆网络对两个候选复述句按条件编码,基于迭代隐状态的输出,通过逐词软对齐的方式从词、短语、句子等多个粒度层次推理并获取句子对的语义表示,最后综合不同视角的语义表达利用softmax实现二元分类.为解决复述标注训练语料不足,在超过580000句子对的数据集上利用语言建模任务对模型参数无监督预训练,再使用预训练好的参数在标准数据集上有监督微调.与先前最佳的神经网络模型相比,所提出模型在标准数据集MSRP上准确率提高2.96%,$F_1$值改善2%.所提出模型综合文本全局和局部匹配信息,多粒度、多视角地描述文本交互匹配模式,能够降低对人工特征工程的需求,具有良好的实用性.  相似文献   

11.
Semi-supervised learning has attracted a significant amount of attention in pattern recognition and machine learning. Most previous studies have focused on designing special algorithms to effectively exploit the unlabeled data in conjunction with labeled data. Our goal is to improve the classification accuracy of any given supervised learning algorithm by using the available unlabeled examples. We call this as the Semi-supervised improvement problem, to distinguish the proposed approach from the existing approaches. We design a metasemi-supervised learning algorithm that wraps around the underlying supervised algorithm and improves its performance using unlabeled data. This problem is particularly important when we need to train a supervised learning algorithm with a limited number of labeled examples and a multitude of unlabeled examples. We present a boosting framework for semi-supervised learning, termed as SemiBoost. The key advantages of the proposed semi-supervised learning approach are: 1) performance improvement of any supervised learning algorithm with a multitude of unlabeled data, 2) efficient computation by the iterative boosting algorithm, and 3) exploiting both manifold and cluster assumption in training classification models. An empirical study on 16 different data sets and text categorization demonstrates that the proposed framework improves the performance of several commonly used supervised learning algorithms, given a large number of unlabeled examples. We also show that the performance of the proposed algorithm, SemiBoost, is comparable to the state-of-the-art semi-supervised learning algorithms.  相似文献   

12.
李南 《计算机系统应用》2016,25(12):187-192
现有数据流分类算法大多使用有监督学习,而标记高速数据流上的样本需要很大的代价,因此缺乏实用性.针对以上问题,提出了一种低代价的数据流分类算法2SDC.新算法利用少量已标记类别的样本和大量未标记样本来训练和更新分类模型,并且动态监测数据流上可能发生的概念漂移.真实数据流上的实验表明,2SDC算法不仅具有和当前有监督学习分类算法相当的分类精度,并且能够自适应数据流上的概念漂移.  相似文献   

13.
为了提高了土地评价模型的简易性、可解释性和准确性,以及克服传统土地评价模型中认为因素多的影响,提出利用关联规则挖掘算法从已知类别的训练样本提取其中的分类关联规则作为监督信息,结合非监督学习方法中的K-mean聚类算法,对大量未标定样本进行分类的半监督学习方法.该方法实现过程简单,分类准确率高,可推广性较强.对广东省土地资源的评价实验表明,利用半监督学习算法可得到较高的土地评价准确率94.0622%.  相似文献   

14.
基于多学习器协同训练模型的人体行为识别方法   总被引:1,自引:0,他引:1  
唐超  王文剑  李伟  李国斌  曹峰 《软件学报》2015,26(11):2939-2950
人体行为识别是计算机视觉研究的热点问题,现有的行为识别方法都是基于监督学习框架.为了取得较好的识别效果,通常需要大量的有标记样本来建模.然而,获取有标记样本是一个费时又费力的工作.为了解决这个问题,对半监督学习中的协同训练算法进行改进,提出了一种基于多学习器协同训练模型的人体行为识别方法.这是一种基于半监督学习框架的识别算法.该方法首先通过基于Q统计量的学习器差异性度量选择算法来挑取出协同训练中基学习器集,在协同训练过程中,这些基学习器集对未标记样本进行标记;然后,采用了基于分类器成员委员会的标记近邻置信度计算公式来评估未标记样本的置信度,选取一定比例置信度较高的未标记样本加入到已标记的训练样本集并更新学习器来提升模型的泛化能力.为了评估算法的有效性,采用混合特征来表征人体行为,从而可以快速完成识别过程.实验结果表明,所提出的基于半监督学习的行为识别系统可以有效地辨识视频中的人体动作.  相似文献   

15.
Support vector machines (SVMs) are a popular class of supervised learning algorithms, and are particularly applicable to large and high-dimensional classification problems. Like most machine learning methods for data classification and information retrieval, they require manually labeled data samples in the training stage. However, manual labeling is a time consuming and errorprone task. One possible solution to this issue is to exploit the large number of unlabeled samples that are easily accessible via the internet. This paper presents a novel active learning method for text categorization. The main objective of active learning is to reduce the labeling effort, without compromising the accuracy of classification, by intelligently selecting which samples should be labeled. The proposed method selects a batch of informative samples using the posterior probabilities provided by a set of multi-class SVM classifiers, and these samples are then manually labeled by an expert. Experimental results indicate that the proposed active learning method significantly reduces the labeling effort, while simultaneously enhancing the classification accuracy.  相似文献   

16.
基于分层高斯混合模型的半监督学习算法   总被引:10,自引:0,他引:10  
提出了一种基于分层高斯混合模型的半监督学习算法,半监督学习算法的学习样本包括已标记类别样本和未标记类别学习样本。如用高斯混合模型拟合每个类别已标记学习样本的概率分布,进而用高斯数为类别数的分层高斯混合模型拟合全部(已标记和未标记)学习样本的分布,则形成为一个基于分层的高斯混合模型的半监督学习问题。基于EM算法,首先利用每个类别已标记样本学习高斯混合模型,然后以该模型参数和已标记样本的频率分布作为分层高斯混合模型参数的初值,给出了基于分层高斯混合模型的半监督学习算法,以银行票据印刷体数字识别做实验,实验结果表明,本算法能够获得较好的效果。  相似文献   

17.
荣光辉  黄震华 《计算机应用》2017,37(10):2861-2865
面向中文问答匹配任务,提出基于深度学习的问答匹配方法,以解决机器学习模型因人工构造特征而导致的特征不足和准确率偏低的问题。在该方法中,主要有三种不同的模型。首先应用组合式的循环神经网络(RNN)与卷积神经网络(CNN)模型去学习句子中的深层语义特征,并计算特征向量的相似度距离。在此模型的基础上,加入两种不同的注意力机制,根据问题构造答案的特征表示去学习问答对中细致的语义匹配关系。实验结果表明,基于组合式的深度神经网络模型的实验效果要明显优于基于特征构造的机器学习方法,而基于注意力机制的混合模型可以进一步提高匹配准确率,其结果最高在平均倒数排序(MRR)和Top-1 accuray评测指标上分别可以达到80.05%和68.73%。  相似文献   

18.
由于专家能够对土地资源标定类别的数量是非常有限的,提出利用少量已知类别的训练样本抽取其中的关联规则作为监督信息,结合非监督方法中的变色龙算法,以互连性和相似度作为评价标准进行分类的方法。该算法充分利用监督学习分类准确率高和非监督学习无需标定学习样本的优点,只需利用少量带标签的学习样本,即可得到较高的分类准确率。通过对广东省土地资源的评价实验,表明仅随机选取300组训练样本即可得到较高的土地评价准确率94.418 4%,比同样条件下聚类分析的准确率高4.904 1%。  相似文献   

19.
问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。提出了一种基于答案辅助的半监督问题分类方法。首先,将答案特征结合问题特征一起实现样本表示;然后,利用标签传播方法对已标注问题训练分类器,自动标注未标注问题的类别;最后,将初始标注的问题和自动标注的问题合并作为训练样本,利用最大熵模型对问题的测试文本进行分类。实验结果表明,本文提出的基于答案辅助的半监督分类方法能够充分利用未标注样本提升性能,明显优于其他的基准方法。  相似文献   

20.
针对传统网络流量分类方法准确率低、开销大、应用范围受限等问题,提出一种支持向量机(SVM)的半监督网络流量分类方法。该方法在SVM训练中,使用增量学习技术在初始和新增样本集中动态地确定支持向量,避免不必要的重复训练,改善因出现新样本而造成原分类器分类精度降低、分类时间长的情况;改进半监督Tri-training方法对分类器进行协同训练,同时使用大量未标记和少量已标记样本对分类器进行反复修正, 减少辅助分类器的噪声数据,克服传统协同验证对分类算法及样本类型要求苛刻的不足。实验结果表明,该方法可明显提高网络流量分类的准确率和效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号