首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 481 毫秒
1.
汪敏  武禹伯  闵帆 《计算机应用》2020,40(12):3437-3444
针对传统岩性识别方法识别精度低,难以和地质经验有机结合的问题,提出了一种基于多种聚类算法和多元线性回归的多分类主动学习算法(ALCL)。首先,通过多种异构聚类算法聚类得到对应每种算法的类别矩阵,并通过查询公共点对类别矩阵进行标记和预分类;其次,提出优先级最大搜寻策略和最混乱查询策略选取用于训练聚类算法权重系数模型的关键实例;然后,定义目标求解函数,通过训练关键实例求解得到每种聚类算法的权重系数;最后,结合权重系数进行分类计算,从而对结果置信度高的样本进行分类。应用大庆油田油井的6个公开岩性数据集进行实验,实验结果表明,ALCL的分类精度最高时,比传统监督学习算法和其他主动学习算法提高了2.07%~14.01%。假设检验和显著性分析的结果验证了ALCL在岩性识别问题上具有更好的分类效果。  相似文献   

2.
汪敏  武禹伯  闵帆 《计算机应用》2005,40(12):3437-3444
针对传统岩性识别方法识别精度低,难以和地质经验有机结合的问题,提出了一种基于多种聚类算法和多元线性回归的多分类主动学习算法(ALCL)。首先,通过多种异构聚类算法聚类得到对应每种算法的类别矩阵,并通过查询公共点对类别矩阵进行标记和预分类;其次,提出优先级最大搜寻策略和最混乱查询策略选取用于训练聚类算法权重系数模型的关键实例;然后,定义目标求解函数,通过训练关键实例求解得到每种聚类算法的权重系数;最后,结合权重系数进行分类计算,从而对结果置信度高的样本进行分类。应用大庆油田油井的6个公开岩性数据集进行实验,实验结果表明,ALCL的分类精度最高时,比传统监督学习算法和其他主动学习算法提高了2.07%~14.01%。假设检验和显著性分析的结果验证了ALCL在岩性识别问题上具有更好的分类效果。  相似文献   

3.
胡小生  张润晶  钟勇 《计算机科学》2013,40(11):271-275
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。  相似文献   

4.
针对基于传统支持向量机(SVM)的多类分类算法在处理大规模数据时训练速度上存在的弱势,提出了一种基于对支持向量机(TWSVM)的多类分类算法。该算法结合二叉树SVM多类分类思想,通过在二叉树节点处构造基于TWSVM的分类器来达到分类目的。为减少二叉树SVM的误差累积,算法分类前首先通过聚类算法得到各类的聚类中心,通过比较各聚类中心之间的距离来衡量样本的差异以决定二叉树节点处类别的分离顺序,最后将算法用于网络入侵检测。实验结果表明,该算法不仅保持了较高的检测精度,在训练速度上还表现了一定优势,尤其在处理稍大规模数据时,这种优势更为明显,是传统二叉树SVM多类分类算法训练速度的近两倍,为入侵检测领域大规模数据处理提供了有效参考价值。  相似文献   

5.
目前,事件抽取的流行方法是以事件元素或触发词进行驱动,但该方法容易导致正反例不平衡,且在语料库规模较小时存在一定的数据稀疏问题。提出了一种基于事件实例驱动的事件抽取方法。首先,从文档句子中抽取出刻画一个事件发生有代表性的特征,构成候选事件实例表示;其次,通过二元分类器对新闻文本中的事件实例与非事件实例进行分类;最后,对事件实例采用基于层次聚类的k-mcdoids算法完成事件抽取。该方法不仅克服了正反例失衡以及数据稀疏问题,而且解决了预先定义事件类别的局限性。实验结果验证了该方法的有效性,对比传统方法,事件抽取的准确率与召回率均获得了显著的提高。  相似文献   

6.
不平衡数据分类是机器学习研究领域中的一个热点问题。针对传统分类算法处理不平衡数据的少数类识别率过低问题,文章提出了一种基于聚类的改进AdaBoost分类算法。算法首先进行基于聚类的欠采样,在多数类样本上进行K均值聚类,之后提取聚类质心,与少数类样本数目一致的聚类质心和所有少数类样本组成新的平衡训练集。为了避免少数类样本数量过少而使训练集过小导致分类精度下降,采用少数过采样技术过采样结合聚类欠采样。然后,借鉴代价敏感学习思想,对AdaBoost算法的基分类器分类误差函数进行改进,赋予不同类别样本非对称错分损失。实验结果表明,算法使模型训练样本具有较高的代表性,在保证总体分类性能的同时提高了少数类的分类精度。  相似文献   

7.
中文事件抽取技术研究   总被引:13,自引:3,他引:13  
事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。  相似文献   

8.
基于改进K-means聚类算法的组合模型建模   总被引:1,自引:0,他引:1  
杨慧中  董陶  陶洪峰 《控制工程》2013,20(2):201-203,208
在传统的K-means聚类算法中,初始聚类是随机选取的,其聚类结果易随着不同的初始聚类中心波动.针对这一问题,首先采用最大距离积法对传统K-means聚类算法的初始聚类中心进行了优化.同时定义了一种新的目标函数并将其引用到传统的K-means聚类算法中,以实现对聚类结构类别数K的优化选择.将训练集样本数据经上述方法聚类后,再将各个子类分别建立基于支持向量机的子模型,通过开关切换的方式连接各子模型得到组合的支持向量机模型.将该方法应用于双酚A生产过程的缩合反应单元溶解罐出口苯酚含量的软测量建模.工业实例仿真结果表明:该算法能较好地跟踪苯酚含量的变化趋势,有效地改善了数据分类效果,提高了软测量模型的估计精度,显示了它在工业领域的应用潜力.  相似文献   

9.
提出一种基于非负矩阵分解(NMF)的双重约束文本聚类算法。在正交三重NMF模型中,加入文本空间的成对约束信息和词空间的类别约束信息,将不同的特征词项进行分类。利用迭代规则对原始的词-文档矩阵进行分解,获得文本聚类结果。与多种传统半监督文本聚类算法的对比结果表明,该算法具有较高的聚类精度,能提供更准确和有效的聚类结果。  相似文献   

10.
针对传统不完整数据插补聚类算法未考虑插补值对类中心的影响以及不完整样本建模带来的不确定性等问题,提出了一种基于D-S证据理论的不完整数据混合分类算法.首先,利用经典软聚类算法对数据集中的完整样本进行聚类并选择训练样本,再根据剩余样本已知属性构建若干训练集,并利用基础分类器分类;然后在D-S证据理论下,将属于若干个类别概率相近的样本划分到相应复合类以降低误分类率;最后,对处于复合类中的不完整样本,分别在构成其复合类的单类中进行K近邻插补并分类,将若干个分类结果自适应融合以决定这些样本的最终类别.模拟数据集和UCI数据集验证表明,算法能够合理地表征由缺失值引起的不确定性,降低了误分率.  相似文献   

11.
基于主动学习的文档分类   总被引:3,自引:0,他引:3  
In the field of text categorization,the number of unlabeled documents is generally much gretaer than that of labeled documents. Text categorization is the problem of categorization in high-dimension vector space, and more training samples will generally improve the accuracy of text classifier. How to add the unlabeled documents of training set so as to expand training set is a valuable problem. The theory of active learning is introducted and applied to the field of text categorization in this paper ,exploring the method of using unlabeled documents to improve the accuracy oftext classifier. It is expected that such technology will improve text classifier's accuracy through adopting relativelylarge number of unlabelled documents samples. We brought forward an active learning based algorithm for text categorization,and the experiments on Reuters news corpus showed that when enough training samples available,it′s effective for the algorithm to promote text classifier's accuracy through adopting unlabelled document samples.  相似文献   

12.
对于模式经常发生变化的客户资信评估、垃圾邮件检测和网络入侵检测等在线分类系统来说,自动感知客观存在的新类别,并让系统中的分类器对此作出自适应调整是其正确持续运行必须解决的问题。该文提出了一种适应新类别增加的决策树训练算法,该算法在新类别已检出的前提下,在原有决策树基础上利用新类别样本增量训练出新的决策树。实验结果表明:该文提出的算法可以较好地解决该问题,而与重新训练新决策树相比,它在分类器离线调整上较少的时间花费使其适用于在线分类系统。  相似文献   

13.
基于词频分类器集成的文本分类方法   总被引:8,自引:0,他引:8  
提出了一种基于词频分类器集成的文本分类方法.词频分类器是在对文本中的单词和它在每个文本中出现的频率进行统计后得到的简单分类器.虽然词频分类器本身泛化能力不强,但它不仅计算代较小,而且在训练样本甚至类别增加时易于进行更新,而整个学习系统的泛化能力可以由集成学习机制来提高,因此,词频分类器很适合用做集成学习的基分类器.在集成时,使用了改进的AdaBoost算法,加入了一种强制重新分布权的机制,避免算法过早停止,更加适合文本分类任务.在标准文集Reuters-21578上的实验结果表明,该方法能取得很好的效果.  相似文献   

14.
针对视频目标检测问题,提出一种新的在线集成学习方法。该方法把目标检测看成两类分类问题,首先用少量已标注样本离线训练一个初始集成分类器,然后在检测目标的同时通过跟踪过滤虚警目标,并通过样本置信度作进一步验证自动标注样本,最后通过在线集成学习方法更新级联分类器。该方法通过在线调整级联分类器,提高分类器对目标环境变化的适应能力,在大量视频序列上进行实验验证,并与现有在线集成学习方法进行比较,结果表明,通过该方法训练得到的检测器不但能够很好地应对目标特征的变化,也能在出现目标遮挡及背景干扰下稳定地检测出目标,具有较好的适应性及鲁棒性。  相似文献   

15.
对于模式经常发生变化的客户资信评估、垃圾邮件检测和网络入侵检测等在线分类系统来说,自动感知客观存在的新类别,并让系统中的分类器对此作出自适应凋整是其正确持续运行必须解决的问题。该文提出了一种适应新类别增加的决策树训练算法,该算法在新类别已检出的前提下,在原有决策树基础上利用新类别样本增量训练出新的决策树。实验结果表明:该文提出的算法可以较好地解决该问题,而与重新训练新决策树相比,它在分类器离线调整上较少的时间花费使其适用于在线分类系统。  相似文献   

16.
一种基于紧密度的半监督文本分类方法   总被引:2,自引:0,他引:2  
自动的文本分类已经成为一个重要的研究课题。在实际的应用情况下,很多训练语料都只有一个数目有限的正例集合,同时语料中的正例和未标注文档在数量上的分布通常也是不均衡的。因此这种文本分类任务有着不同于传统的文本分类任务的特点,传统的文本分类器如果直接应用到这类问题上,也难以取得令人满意的效果。因此,本文提出了一种基于紧密度衡量的方法来解决这一类问题。由于没有标注出来的负例文档,所以,本文先提取出一些可信的负例,然后再根据紧密度衡量对提取出的负例集合进行扩展,进而得到包含正负例的训练集合,从而提高分类器的性能。该方法不需要借助特别的外部知识库来对特征提取,因此能够比较好的应用到各个不同的分类环境中。在TREC’05(国际文本检索会议)的基因项目的文本分类任务语料上的实验表明,该算法在解决半监督文本分类问题中取得了优异的成绩。  相似文献   

17.
对复杂自然背景下的图像文字检测技术进行了研究,提出了一种基于双门限梯度模式的图像文字检测方法。首先,在文字粗检测阶段中,该方法抽取了最大极值稳定区域(Maximally Stable Extremal Regions,MSER)作为候选文字区域,避免了对整幅图像进行扫描,极大地提高了检测速度和实时性;其次,在文字精检测阶段的特征提取部分,为了克服文字区域颜色对比反转问题和自然图像 的噪声干扰问题,提出了一种双门限梯度模式特征来描述文字区域的纹理特征;最后,在文字精检测的检测器设计中,利用极限学习机构造新的级联型ELM(Extreme Learning Machine)检测器,极大地缩短了分类器的训练时间。实验结果表明,该方法不仅具有优良的检测性能,而且能极大地缩短分类器训练时间和检测时间。  相似文献   

18.
现有的大多数虚假新闻检测方法将视觉和文本特征串联拼接,导致模态信息冗余并且忽略了不同模态信息之间的相关性。为了解决上述问题,提出一种基于矩阵分解双线性池化的多模态融合虚假新闻检测算法。首先,该算法将多模态特征提取器捕捉的文本和视觉特征利用矩阵分解双线性池化方法进行有效融合,然后与虚假新闻检测器合作鉴别虚假新闻;此外,在训练阶段加入了事件分类器来预测事件标签并去除事件相关的依赖。在Twitter和微博两个多模态谣言数据集上进行了对比实验,证明了该算法的有效性。实验结果表明提出的模型能够有效地融合多模态数据,缩小模态间的异质性差异,从而提高虚假新闻检测的准确性。  相似文献   

19.
PU文本分类(以正例和未标识实例集训练分类器的分类方法)关键在于从U(未标识实例)集中提取尽可能多的可靠反例,然后在正例与可靠反例的基础上使用机器学习的方法构造有效分类器,而已有的方法可靠反例的数量少或不可靠,同样构造的分类器也精度不高,基于SVM主动学习技术的PU文本分类算法提出一种利用SVM与改进的Rocchio分类器进行主动学习的PU文本分类方法,并通过spy技术来提高SVM分类器的准确度,解决某些机器学习中训练样本获取代价过大,尤其是反例样本较难获取的实际问题。实验表明,该方法比目前其它的主动学习方法及面向PU的文本分类方法具有更高的准确率和召回率。  相似文献   

20.
为解决图像隐密检测中图像特征维数过高导致的"维数灾难"问题,在保持图像特征内在低维结构的基础上降低特征向量的维数,方便构造更有效的分类器,提出了一种基于保局投影(locality preserving projections,LPP)降维的图像隐密检测算法,对待测图像进行小波变换形成图像特征后,利用LPP算法实现对图像高维特征的降维,得到图像特征集的低维流形.使用支持向量机(SVM)算法将降维后的特征映射到分类特征空间,实现对正常图像和隐密图像分类.实验结果表明,与不使用降维算法的检测方案相比,基于LPP降维的检测算法能够显著地提高检测的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号