首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 328 毫秒
1.
弱监督关系抽取利用已有关系实体对从文本集中自动获取训练数据,有效解决了训练数据不足的问题。针对弱监督训练数据存在噪声、特征不足和不平衡,导致关系抽取性能不高的问题,文中提出NF-Tri-training(Tri-training with Noise Filtering)弱监督关系抽取算法。它利用欠采样解决样本不平衡问题,基于Tri-training从未标注数据中迭代学习新的样本,提高分类器的泛化能力,采用数据编辑技术识别并移除初始训练数据和每次迭代产生的错标样本。在互动百科采集数据集上实验结果表明NF-Tri-training算法能够有效提升关系分类器的性能。  相似文献   

2.
数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未标记数据的数量极大且隐含大量信息,因此在保证精度的前提下,为利用这些未标记数据的信息,本文提出了一种基于Tri-training的数据流集成分类算法。该算法采用滑动窗口机制将数据流分块,在前k块含有未标记数据和标记数据的数据集上使用Tri-training训练基分类器,通过迭代的加权投票方式不断更新分类器直到所有未标记数据都被打上标记,并利用k个Tri-training集成模型对第k+1块数据进行预测,丢弃分类错误率高的分类器并在当前数据块上重建新分类器从而更新当前模型。在10个UCI数据集上的实验结果表明:与经典算法相比,本文提出的算法在含80%未标记数据的数据流上的分类精度有显著提高。  相似文献   

3.
针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并依据最优效用选择策略进行新加入样本的选择。在大规模真实语料上与co-training方法进行了比较实验,实验结果表明,此方法能有效利用大量未标注语料提高算法的泛化能力。  相似文献   

4.
蒋润  顾春华  阮彤 《计算机应用》2014,34(4):1099-1104
评价单元的识别是情感倾向性分析中重要的一步,但由于标注语料匮乏,大多数研究集中在用人工构建规则、模板来识别评价单元的方法上。为了减轻标注训练语料的工作,同时进一步挖掘未标记样本的信息,提出一种基于协同训练机制的评价单元识别算法,以利用少量的已标记样本和大量的未标记样本来提高识别性能。该算法利用Tri-training的思想,将支持向量机(SVM)、最大熵(MaxEnt)以及条件随机场(CRF)三个不同分类器组合成一个分类体系,对生成的评价单元候选集进行分类。将Tri-training的算法思想应用于实验来对比采用单一分类器的方法,结果表明,该算法能够有效地识别主观句中的评价单元。  相似文献   

5.
为减少跌倒对老年人造成的伤害,并对跌倒进行实时检测,提出了一种基于Android智能手机的人体跌倒检测系统,手机安置于腰上采集手机加速度传感器数据,利用了姿态识别和跌倒检测相结合的算法,区分出跌倒行为和人体日正常常活动。当检测到异常跌倒时,报警信息以及从手机中GPS获取的位置被发送。仿真及实验表明:系统能够有效地识别出跌倒和日常行为,算法具有较高实时性、具有较高灵敏度和特异度。  相似文献   

6.
为了减少老年人因跌倒而造成的伤害,及时有效地识别跌倒行为,提出了一种基于三轴加速度传感器的人体跌倒识别方法。首先将加速度传感器放置于人体腰腹位置,采集人在运动时的加速度变化数据;然后使用日常活动数据训练隐马尔科夫模型(HMM),利用老年人活动状态相对较少的特点,从测量数据与HMM的匹配程度寻找"疑似"跌倒行为;最后计算短暂时间内的身体倾角,检测人体躺卧姿态,完成跌倒识别。利用HMM和身体倾角识别跌倒,解决了生活中缺乏跌倒数据训练样本的问题,提高了某些近似行为的区分度。仿真结果表明,该方法在有效识别跌倒行为的同时,提高了正确率。  相似文献   

7.
体育锻炼是促进老年人健康长寿的有效手段之一。为了对老年人的运动状态进行实时监测,掌握运动状态参数,并能够对老年人不慎意外踏空或者某种疾病突发导致的跌倒及时报警,设计一种能够实时监测老年人跌倒动作发生并发送定位及报警信息给远程接收端的便携式监测系统。系统采用腰部三轴加速度传感器实时采集人体运动姿态数据;使用嵌入式处理器和无线网络实现数据处理、无线传输和远程报警;通过三级阈值的人体跌倒检测算法,实现人体跌倒姿态变化的加速度特征提取,对人体运动状态进行分级,预测严重的跌倒行为。实验结果表明:该系统具有性能稳定、正确率高和轻巧方便等特点,非常适合老年人穿戴使用,可保障老年人运动安全,应用前景广阔。  相似文献   

8.
基于Tri-training的半监督SVM   总被引:1,自引:1,他引:0       下载免费PDF全文
当前机器学习面临的主要问题之一是如何有效地处理海量数据,而标记训练数据是十分有限且不易获得的。提出了一种新的半监督SVM算法,该算法在对SVM训练中,只要求少量的标记数据,并能利用大量的未标记数据对分类器反复的修正。在实验中发现,Tri-training的应用确实能够提高SVM算法的分类精度,并且通过增大分类器间的差异性能够获得更好的分类效果,所以Tri-training对分类器的要求十分宽松,通过SVM的不同核函数来体现分类器之间的差异性,进一步改善了协同训练的性能。理论分析与实验表明,该算法具有较好的学习效果。  相似文献   

9.
领域相关的大规模和高质量的标注训练数据是分类器性能的重要保证,而标注训练语料是一件费时费力的工作。该文提出了一种采用小规模标注语料识别中文观点句的方法。首先采用Bootstrapping方法扩展训练语料,分别训练贝叶斯、支持向量机和最大熵分类器。最后,通过给三个训练好的分类器赋权获得一个集成分类器。实验结果表明,集成后的分类器性能优于单分类器,并且该方法在使用部分标注训练数据的情况下也能取得与采用全部标注训练数据相近的实验结果。  相似文献   

10.
《微型机与应用》2015,(19):43-46
在对目标进行分类识别过程中,对其特征的有效提取直接影响最后分类的精度。针对此类问题,提出了基于Tri-training算法对图像进行多特征融合分类,通过利用Principal Component Analysis(PCA)主成分分析法,并结合目前比较实用的半监督学习Tri-training算法对图像显著目标进行分类,其中Tri-training算法是以Support Vector Machine(SVM)、Nave Bayes(NB)、Back Propagation(BP)为基分类器,将图像的多特征数据值作为图像在Tri-training分类器的输入对分类器进行训练和测试。实验表明,在进行了有效的预处理之后,再对样本进行多特征融合在一定程度上明显提高了分类精度。  相似文献   

11.
独居老人摔倒已成为一个备受关注的问题.为快速有效获取摔倒信息从而使老人得到及时救助,提出一种基于双目标定的独居老人摔倒检测算法.该算法通过色彩不变性分割前景目标(老人),采用双目视觉标定计算人体在三维坐标中高度作为特征信息,能够有效区分易混淆动作,防止误判,提高检测准确率.实验结果表明:该算法易于实现,具有较好的鲁棒性和实时性.  相似文献   

12.
多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本的信息和价值并将其应用于文档多标记分类问题,该文提出了一种基于Tri-training的半监督多标记学习算法(MKSMLT),该算法首先利用k近邻算法扩充已标记样本集,结合Tri-training算法训练分类器,将多标记学习问题转化为标记排序问题。实验表明,该算法能够有效提高文档分类性能。  相似文献   

13.
协同训练可以提高半监督分类器的分类精度,而如何构建具有冗余特性的训练集是其关键所在。依据遥感影像的纹理特征,提出了基于纹理特征值及像素灰度值构建的两个训练集上协同训练支持向量机的算法CTSVMTRS。仿真实验比较了在不同训练集上CTSVMTRS的分类效果,在叠代训练过程中,两类数据集的所有过程的测试结果都存在的明显差异验证了提出的观念。  相似文献   

14.
刘杨磊    梁吉业    高嘉伟    杨静   《智能系统学报》2013,8(5):439-445
传统的多标记学习是监督意义下的学习,它要求获得完整的类别标记.但是当数据规模较大且类别数目较多时,获得完整类别标记的训练样本集是非常困难的.因而,在半监督协同训练思想的框架下,提出了基于Tri-training的半监督多标记学习算法(SMLT).在学习阶段,SMLT引入一个虚拟类标记,然后针对每一对类别标记,利用协同训练机制Tri-training算法训练得到对应的分类器;在预测阶段,给定一个新的样本,将其代入上述所得的分类器中,根据类别标记得票数的多少将多标记学习问题转化为标记排序问题,并将虚拟类标记的得票数作为阈值对标记排序结果进行划分.在UCI中4个常用的多标记数据集上的对比实验表明,SMLT算法在4个评价指标上的性能大多优于其他对比算法,验证了该算法的有效性.  相似文献   

15.
半监督学习方法通过少量标记数据和大量未标记数据来提升学习性能.Tri-training是一种经典的基于分歧的半监督学习方法,但在学习过程中可能产生标记噪声问题.为了减少Tri-training中的标记噪声对未标记数据的预测偏差,学习到更好的半监督分类模型,用交叉熵代替错误率以更好地反映模型预估结果和真实分布之间的差距,并结合凸优化方法来达到降低标记噪声的目的,保证模型效果.在此基础上,分别提出了一种基于交叉熵的Tri-training算法、一个安全的Tri-training算法,以及一种基于交叉熵的安全Tri-training算法.在UCI(University of California Irvine)机器学习库等基准数据集上验证了所提方法的有效性,并利用显著性检验从统计学的角度进一步验证了方法的性能.实验结果表明,提出的半监督学习方法在分类性能方面优于传统的Tri-training算法,其中基于交叉熵的安全Tri-training算法拥有更高的分类性能和泛化能力.  相似文献   

16.
In this article a system to detect the physical behavior of bedridden elderly people is proposed. This system is used to prevent elderly people from falling down and injuring themselves. The basic idea of our approach is to measure the body movements of the person using an acceleration sensor. Based on the data measured, dangerous actions are recorded and warning signals to the care workers are generated via wireless signals. A feature of the system is that the sensor is compactly assembled as a wearable unit. Another feature of the system is that it adopts a simplified wireless network system. Owing to its network capability, the system can monitor the physical movements of many patients. The applicability of the system is now being examined at hospitals. This work was presented in part at the 10th International Symposium on Artificial Life and Robotics, Oita, Japan, February 4–6, 2005  相似文献   

17.
随着生物医学文献的快速增长,在海量的生物医学文献中存在大量有关疾病、病症和治疗物质的信息,这些信息对疾病的治疗和药物的研制有着重要的意义。针对疾病与治疗物质之间的信息抽取,重点训练两个模型,即疾病与病症模型和病症与治疗物质模型。疾病与病症模型判断一种疾病是否会存在或者导致一种生理现象的产生;病症与治疗物质模型判断一种物质是否改变人的生理现象或者生理过程。使用半监督学习的Tri-training的方法,利用大量未标注数据辅助少量有标注数据进行训练提高分类性能。实验结果表明,Tri-training方法中利用未标注数据有助于提高实验结果;且在训练过程中使用集成学习的思想将三个分类器器集成在一起,提高了学习性能。  相似文献   

18.
构造性机器学习(CML)算法在训练分类器时需要大量有标记样本,而获取这些有标记样本十分困难。为此,提出一种基于Tri- training算法的构造性学习方法。根据已标记的样本,采用不同策略构造3个差异较大的初始覆盖分类网络,用于对未标记数据进行标记,再将已标记数据加入到训练样本中,调整各分类网络参数,反复进行上述过程,直至获得稳定的分类器。实验结果证明,与CML算法和基于NB分类器的半监督学习算法相比,该方法的分类准确率更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号