首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 78 毫秒
1.
针对已标记数据与未标记数据分布不一致可能导致半监督分类器性能降低的不足,提出了一种基于特征映射的半监督文本分类算法.首先通过不同的特征选择方法,分别在训练集的已标记数据、未标记数据以及测试集数据中选取各自的特征集,并初始化特征的权值;在此基础之上,分别建立已标记数据与未标记数据、已标记数据与测试集数据、未标记数据与测试集数据之间的映射函数,并利用这3个特征映射函数重新计算特征的权重;最后利用期望最大比(expectation maximization,EM)算法进行半监督文本分类.在标准数据集上的实验结果表明:提出的算法是有效的.  相似文献   

2.
为提高半监督分类的性能,提出一种基于SOM神经网络的半监督分类算法SSC-SOM。结合SOM的聚类特性,基于先聚类后标记的思想,充分利用有标记样本和未标记样本训练SOM分类器;将聚类的形成和有标记样本分配到各个聚类中同时进行,并根据有标记样本计算各个聚类的聚类中心;在整个未标记样本的范围内,根据聚类中心,使用K近邻算法对未标记样本进行标记,挖掘未标记样本的隐含信息。在UCI数据集中进行分类实验,其结果表明,SSC-SOM的分类率比SSOM提高2.22%,且收敛性较好。  相似文献   

3.
为提高半监督分类的性能,提出一种基于SOM神经网络的半监督分类算法SSC-SOM。结合SOM的聚类特性,基于先聚类后标记的思想,充分利用有标记样本和未标记样本训练SOM分类器;将聚类的形成和有标记样本分配到各个聚类中同时进行,并根据有标记样本计算各个聚类的聚类中心;在整个未标记样本的范围内,根据聚类中心,使用K近邻算法对未标记样本进行标记,挖掘未标记样本的隐含信息。在UCI数据集中进行分类实验,其结果表明,SSC-SOM的分类率比SSOM提高2.22%,且收敛性较好。  相似文献   

4.
为了避免倾向于高频词的信息增益(information gain,IG)方法忽略各类别间的相似性特点,提出了一种基于特征分布的选择方法对IG进行修正,使真正拥有高类别区分信息的特征项被保留.同时,对最大期望值(expectation maximization,EM)算法的效率低下问题加以改进,将拥有较高后验类别概率的未标注文档逐步从未标注文档集转至已标注文档集,有效减少算法迭代次数.测试结果表明,基于特征分布的半监督学习方法在Reuter-21578和Epinion.com两个不同特点的数据集上都取得了较好的分类效果和性能.  相似文献   

5.
多标记学习中通常存在大量未标记示例,本研究结合协同训练(Co-training)方法充分利用数据集中的未标记示例,在数据集上选取局部k NN(k nearest neighbor)和全局k NN进行训练得到两个分类器,分类器分别标记未标记示例并相互更新训练集。协同训练过程不断迭代进行,直至训练完成。试验结果表明,该方法性能均优于其他多标记学习算法。  相似文献   

6.
为了解决传统的入侵检测聚类算法准确率较低这个问题,结合半监督学习的思想,提出了一种面向入侵检测的半监督聚类算法。首先利用样本数据集中的部分标记数据,生成用于初始化聚类的种子集,通过计算样本数据集中标记点与每个类簇中标记点均值的欧氏距离,得到每类的初始聚类中心,实现了入侵检测数据的准确识别。该算法有效地避免了传统聚类算法中初始聚类中心选择的盲目性和随机性,提高了检测率。实验结果表明,在处理入侵检测数据时,该算法能够充分利用少量类标记信息进行半监督学习,较传统的K-means算法聚类效果更好,检测准确率更高。  相似文献   

7.
一种半调图像分类识别算法   总被引:2,自引:0,他引:2  
分析影响逆半调质量的各种因素,引出半调图像识别研究的目标,并运用增强一维自相关函数、共生矩阵和游程矩阵研究半调图像的相关周期和纹理特征,通过构造多级分类器及其标准向量建立了一种常见半调图像的类型识别算法.实验表明,该算法的平均识别正确率可达99%,解决了估值类逆半调技术的实用化问题,也为其他逆半调方案的针对性设计和参数自适应优化奠定了基础.  相似文献   

8.
针对流量分类中样本标注瓶颈和类不均衡问题,提出一种基于K均值和k近邻的半监督流量分类算法。采用K均值聚类算法将混有少量标记样本和大量未标记样本的数据聚成若干个簇,然后采用k近邻算法利用簇中标记样本对未标记样本进行分类。在分类过程中根据簇中标记样本分布调整参与分类的最近邻居数,从而克服了类不均衡对识别小类流的不利影响。理论分析和实验结果都表明,算法在面对非均衡协议流时提高了小类流的识别率。  相似文献   

9.
基于支持向量机的理论提出了一种用于图像检索的半监督学习算法。该算法的基本思想是,如果两点彼此是最近点,则它们共用一个标注。因此,该算法可以在具有最大类间空隙和很好保留位置特征的基础上找到一个投影。对该算法和标准支持向量机及转导(transductive)支持向量机的图像检索效果进行了实验比较,结果表明该算法可以获得更好的效果。  相似文献   

10.
针对高光谱遥感图像分类中带标记训练样本较少、导致分类正确率偏低的问题,提出用于高光谱图像分类的空间约束半监督高斯过程方法.由于高光谱图像的特征空间满足流形分布假设,大量未标记样本可以使数据空间变得更加稠密,从而有助于更加准确地刻画局部空间特性,提高分类的精度和普适性.通过对高斯过程模型中的核函数施加空间近邻约束,建立未标记样本与带标记样本之间的空间联系.该半监督高斯过程分类器不仅可以提升高光谱遥感图像的分类性能,而且构造简单,实现方便.实验结果表明,在仅有少量带标记的训练样本情况下,半监督高斯过程分类方法对高光谱图像有较高的分类精度和稳定性.  相似文献   

11.
为了有效利用少量先验信息提高多视角数据聚类效果,提出了一种基于距离度量学习的半监督多视角谱聚类算法(简称ML-SMC)。首先,利用距离度量学习引入先验信息,将多视角数据映射到反映先验约束条件的空间.然后,根据相似性构造每个视角的视图,将多视角聚类问题转化为最小正则割的图划分问题。实验结果表明:ML-SMC算法聚类结果的精度优于3种经典的多视角聚类算法和4种半监督单视角聚类算法。并且通过利用少量先验信息ML-SMC算法能够有效提高聚类效果。  相似文献   

12.
针对因特网流量分类面临的流量类别标记瓶颈和类别样本数分布不平衡,提出基于Bootstrapping的流量分类方法,使用少量有标记样本训练初始分类器,迭代利用无标记样本扩展样本集并更新分类器. 在构建扩展样本集过程中,将无标记样本在某后验概率分布下的正确分类行为视为一个概率事件,建立新的置信度计算方法,以减少扩展样本集中的噪声样本;基于概率近似正确学习理论建立启发式规则,注重选择小类样本加入扩展样本集,缓解类别样本数分布的不平衡. 实验结果表明,与初始分类器相比,基于Bootstrapping的流量分类器总体分类准确率可提高9.46%;与现有半监督学习方法相比,小类分类准确率提高2.22%.  相似文献   

13.
岩石薄片图像的分析往往依赖于专业人员在显微镜下观察并给出鉴定结果,不但费时费力,并且受设备限制影响较大。近些年,针对于薄片图像的自动识别方法已经被提出,然而这些方法大多采用监督学习与深度学习相结合的方式,进而受限于大量人工标注,为方法的推广与应用带来了巨大困难。此外模型在不同的地层、岩性等目标应用时,其泛化性也因此受到极大限制。本文针对该问题提出了一种超像素算法SLIC与半监督自训练结合的方法,仅依靠6%的人工标注便能够实现岩石图像的自动化分割与组分识别,极大的增强该方法在实际应用中的价值。该方法首先使用超像素算法SLIC对岩石图像进行预分割,随后基于分割片的颜色特征进行粗合并,并根据最小外接矩形进行切割;切割下来的岩石组分分割图像作为后续处理的基础数据集,这里仅需要人工标注6%的岩石组分数据;随后这些数据通过一个改进的半监督自训练方法,以改进的VGG16模型作为主模型、ResNet18模型作为评判模型,不断生成高置信度的伪标签,利用迭代优化调整,将其扩展到整个数据集,最终获得一个具有较高的稳定性、准确性以及一致性的组分识别模型。通过实际数据的测试与分析,本文所提出SLIC和半监督自训练结合的方法,对6类岩石组分的识别准确率可达到96%。该方法能够在数据差异不大的条件下,帮助用户基本实现自动化的组分识别。而当数据集产生较大差异时,仅需标注少量部分样品即可实现自动的组分识别。通过理论验证与实际数据测试,本方法具有较高的泛化性和可靠性,能够在实际应用提供足够的准确性与便利性。  相似文献   

14.
基于同构的思想,通过双谱形式化对图像的平移和旋转不变特征进行描述。为了扩展检索结果的语义范围,在半监督图像检索中应用了一种扩大结果图像差异性的方法(image retrieval based on diversity and invariant features,IRDIF)来扩大检索结果所涵盖的语义范围。即通过把已检索出的项设置为吸收态,降低了相似样本被检索到的可能性。该方法在Corel图像库上进行了实验分析,并取得了满意的效果。  相似文献   

15.
提出了一种新的包分类算法SRC(sensitive recursive classification).它建立在决策树基础之上,在以防火墙, 访问控制列表为种子的规则库中进行实验.实验结果表明:SRC内存使用比Hicuts (hierarchical intelligent cuttings)减少3~10倍,最坏查找速度比Hicuts提高5倍以上;SRC的内存使用比EGT-PC(extended grid-of-tries and path compression)减少2~8倍,最坏查找速度比EGT-PC提高4倍以上.  相似文献   

16.
已有的虚假评论识别方法主要采用启发式策略或简单特征建模,针对这些方法的不足,提出使用机器学习方法识别虚假评论。首先整合计算语言学与心理语言学的知识对评论文本进行建模,使用全监督学习算法来评价不同特征建模的性能,选出最好的特征组合。为了提高识别性能,设计两种半监督学习算法充分利用大量的未标注文本。实验结果证实所提算法超过当前的基准。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号