期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

曹永锋陈荣孙洪《计算机科学》2013,40(8):309-312

对尽量少的样本进行人工标注并获得较好的分类性能是图像分类应用的一个关键问题。针对标注样本选择,提出了一种综合样本不确定性度量和代表性度量的主动学习样本选择准则。基于最优标号和次优标号(Best vs．second-best,BvSB)的主动学习方法构建不确定性度量,利用分层聚类(Hierarchical Clustering,HC)方法得到数据集的分层聚类树,然后依据聚类树结构和已标注样本在其中的分布信息定义每个未标注样本的代表性度量。将新方法与随机样本选择以及BvSB主动学习方法进行了比较,对1个光学图像集和1个全极化SAR数据集分类问题的实验结果显示,新方法性能稳定,优于其他两种方法。相似文献

2.

基于稀疏子空间聚类的主动学习算法

姜秀波钟丽媛宋曹根《计算技术与自动化》2021,40(4):69-73

主动学习已经被证明是一种成功的机器学习算法,最主要的缺点是它只注重样本的标签信息而忽略了样本的分布信息.因此带来的后果就是稳定性差,容易陷入局部最优解,同时对初始样本的选择非常敏感.论文将稀疏子空间聚类与主动学习相结合,首先利用稀疏子空间聚类找到原始数据的分布信息,然后利用该信息指导主动学习选取初始样本,使样本标注更加有效,提高了主动学习的效率,同时降低了主动学习对初始样本的敏感度.最后通过多组仿真实验证明,本方法可以有效的改善主动学习的性能. 相似文献

3.

结合聚类边界采样的主动学习

胡峰李路正代劲刘群《智能系统学报》2024,(2):482-492

主动学习是一种机器学习方法,需要选择最有价值的样本进行标注。目前,主动学习在应用时面临着一些挑战,其依赖分类器的先验假设,这容易导致分类器性能意外下降,同时需要一定规模的样本作为启动条件。聚类可以降低问题规模,是主动学习的一种有效手段。为此,结合密度聚类边界采样,开展主动学习方法的研究。针对容易产生分类错误的聚类边界区域,通过计算样本密度,提出一种密度峰值聚类边界点采样方法;在此基础上,给出密度熵的定义,并利用密度熵对聚类边界区域进行启发式搜索,提出一种基于聚类边界采样的主动学习方法。试验结果表明,与文献中的5种主动学习算法相比,该算法能够以更少标记量获得同等甚至更高的分类性能,是一种有效的主动学习算法;在标记不足,无标签样本总量20%的情况下,算法在Accuracy、F-score等指标上取得较好的结果。相似文献

4.

基于主动学习的深度半监督聚类模型

付艳艳黄瑞章薛菁菁任丽娜陈艳平林川《计算机应用研究》2024,41(10):2955-2961

深度半监督聚类旨在利用少量的监督信息达到更好的聚类效果.然而,由于标注成本昂贵,监督信息的数量往往是有限的.因此,在监督信息有限的情况下,如何选择对聚类最有价值的监督信息变得至关重要.针对以上问题,提出了基于主动学习的深度半监督聚类模型(DASCM).该模型设计了一种主动学习方法,能够挑选出蕴涵丰富信息的边缘文本,并进一步生成蕴涵边缘文本的高价值监督信息.该模型利用这些监督信息指导聚类,从而提升聚类性能.在5个真实文本数据集上的实验表明,DASCM的聚类性能有显著提升.这一结果验证了利用主动学习方法生成的涵盖边缘文本的监督信息对于提升聚类效果是有效的. 相似文献

5.

基于主动学习的K-Hub聚类算法

下载免费PDF全文

封建邦何振峰《计算机系统应用》2016,25(3):187-193

K-Hub聚类算法是一种有效的高维数据聚类算法,但是它对初始聚类中心的选择非常敏感,并且对于靠近类边界的实例往往不能正确聚类.为了解决这些问题,提出一种结合主动学习和半监督聚类的K-Hub聚类算法.运用主动学习策略学习部分实例的关联限制,然后利用这些关联限制指导K-Hub的聚类过程.实验结果表明,基于主动学习的K-Hub聚类算法能有效提升K-Hub的聚类准确率. 相似文献

6.

基于层次划分的最佳聚类数确定方法 总被引：20，自引：0，他引：20

下载免费PDF全文

陈黎飞姜青山王声瑞《软件学报》2008,19(1):62-72

确定数据集的聚类数目是聚类分析中一项基础性的难题.常用的trail-and-error方法通常依赖于特定的聚类算法,且在大型数据集上计算效率欠佳.提出一种基于层次思想的计算方法,不需要对数据集进行反复聚类,它首先扫描数据集获得CF(clusteringfeature,聚类特征)统计值,然后自底向上地生成不同层次的数据集划分,增量地构建一条关于不同层次划分的聚类质量曲线;曲线极值点所对应的划分用于估计最佳的聚类数目.另外,还提出一种新的聚类有效性指标用于衡量不同划分的聚类质量.该指标着重于簇的几何结构且独立于具体的聚类算法,能够识别噪声和复杂形状的簇.在实际数据和合成数据上的实验结果表明,新方法的性能优于新近提出的其他指标,同时大幅度提高了计算效率. 相似文献

7.

基于类轮廓层次聚类方法的研究

孟海东唐旋《计算机应用与软件》2011,28(11)

传统的聚类算法在考虑类与类之间的连通性特征和近似性特征上往往顾此失彼。首先给出类边界点和类轮廓的基本定义以及寻求方法,然后基于类间连通性特征和近似性特征的综合考虑,拟定一些类间相似性度量标准和方法,最后提出一种基于类轮廓的层次聚类算法。该算法能够有效处理任意形状的簇,且能够区分孤立点和噪声数据。通过对图像数据集和Iris标准数据集的聚类分析,验证了该算法的可行性和有效性。相似文献

8.

基于层次聚类和划分聚类算法的BTS聚类算法研究

刘康明艾鸽张宇傅毓《网络安全技术与应用》2022,(5):45-46

BTS(Best Two Step)聚类算法是结合层次聚类和划分聚类算法的两步聚类算法。层次聚类算法类与类之间不可以对象交换,很容易造成聚类质量不高的结果。而划分聚类对于初始值的设定以及异常噪声数据都很敏感,所以我们研究提出了BTS算法,实验证明BTS算法可达到高质量的聚类效果。相似文献

9.

一种结合主动学习的半监督文档聚类算法 总被引：1，自引：0，他引：1

下载免费PDF全文

赵卫中马慧芳李志清史忠植《软件学报》2012,23(6):1486-1499

半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法. 相似文献

10.

基于主动学习的动态模糊聚类算法

张静聂章龙《计算机与现代化》2014,(5):24-27

聚类问题是近几年来机器学习和数据挖掘领域研究的热点问题,由于获取大量监督信息费时费力,目前国内外研究的重点是如何获得少量但对聚类性能提高显著的监督信息,再加上实际问题中存在的动态模糊性,故本文提出一种结合主动学习的动态模糊聚类算法DF-DBSCAN,通过引入动态模糊等价关系、动态模糊信任测度和动态模糊似然测度这3个约束信息来指导DBSCAN的聚类过程,以提高聚类的性能。实验结果表明,DF-DBSCAN算法不仅解决了实际问题中存在的动态模糊性数据的描述和表示问题,而且能够高效地进行数据聚类,显著地提高聚类性能。 相似文献

11.

基于层次聚类和极限学习机的母线短期负荷预测

颜宏文盛成功《计算机应用》2018,38(8):2437-2441

利用传统方法预测母线负荷时,通常选取离待测日相近的一段时间作为历史相似日进行模型训练,没有考虑其天气情况、星期类型、节假日等因素的影响,相似日与待测日特征相差较大。为解决以上问题,提出一种基于层次聚类（HC）和极限学习机（ELM）的母线负荷预测算法。首先使用层次聚类法将母线历史日负荷进行聚类,然后对层次聚类得出的聚类结果建立决策树,其次根据待测日的温度、湿度、星期和节假日类型等日属性在决策树中匹配出训练极限学习机预测模型的历史日负荷,最后建立极限学习机预测模型,对待测日母线日负荷进行预测。对两条不同母线的负荷进行了预测,与传统单一的极限学习机相比,所提算法的平均绝对百分比误差（MAPE）分别降低了1.4和0.8个百分点。实验结果表明,所提算法预测母线负荷具有更高的预测精度和稳定性。相似文献

12.

基于PPI网络与机器学习的蛋白质功能预测方法

唐家琪吴璟莉《计算机应用》2018,38(3):722-727

针对现有的基于蛋白质相互作用（PPI）网络的蛋白质功能预测方法预测精度不高、易受数据噪声影响的问题,提出一种基于机器学习（层次聚类、主成分分析和多层感知器）的蛋白质功能预测方法HPMM。该方法综合考虑蛋白质宏观和微观层面的信息,将蛋白质家族、结构域和重要位点信息作为顶点属性整合到PPI网络中以减轻网络中数据噪声的影响。首先,基于层次聚类和主成分分析进行特征提取,得到功能模块和属性主成分特征,然后训练多层感知器模型,建立多特征与多功能之间的映射关系以用于功能预测。在三个分别被分子功能（MF）、生物过程（BP）和细胞组件（CC）注释的人类PPI网络上进行测试,对HPMM、余弦迭代算法（CIA）和有向PPI网络基因本体术语传播（GoDIN）算法的功能预测效果进行比较分析。实验结果表明,相比CIA和GoDIN这两种完全基于PPI网络的方法,HPMM的精确度与F值更高。相似文献

13.

一种基于SQL的层次查询方法 总被引：2，自引：0，他引：2

夏秀峰富钢丛丽晖李常山《微处理机》2001,(1):42-44

关系型数据库管理系统不适合表达层次模型问题,标准的SQL语言无法满足复杂的层次查询要求,但有许多实际应用系统,其结构和查询要求都呈现很强的层次特征。本文提出了一种在ORACLE DBMS环境下,利用C和SQL语言实现的层次查询方法,可广泛应用于工程数据管理信息系统的设计过程。相似文献

14.

结合改进主动学习的SVD-CNN弹幕文本分类算法 总被引：1，自引：0，他引：1

邱宁佳丛琳周思丞王鹏李岩芳《计算机应用》2019,39(3):644-650

为解决传统卷积神经网络（CNN）模型使用池化层进行文本特征降维会损失较多文本语义信息的问题,提出一种基于奇异值分解（SVD）算法的卷积神经网络模型（SVD-CNN）。首先,采用改进的基于密度中心点采样的主动学习算法（DBC-AL）选择对分类模型贡献率较高的样本进行标注,以低标注代价获得高质量模型训练集;然后,结合SVD算法建立SVD-CNN弹幕文本分类模型,使用奇异值分解的方法代替传统CNN模型池化层进行特征提取和降维,并在此基础上完成弹幕文本分类任务;最后,使用改进的梯度下降算法（PSGD）对模型参数进行优化。为了验证改进算法的有效性,使用多种弹幕数据样本集,对提出的模型与常用的文本分类模型进行对比实验。实验结果表明,改进的算法能够更好地保留文本语义特征,保证训练过程的稳定性并提高了模型的收敛速度,在不同的弹幕文本上较传统算法具有更好的分类性能。相似文献

15.

基于主动学习的高光谱图像分类方法

郝泽东余淞淞关佶红《计算机应用》2013,33(12):3441-3443

高光谱图像监督分类中,为了避免休斯效应需要大量的训练样本,但在实际应用中对样本进行标注成本非常高,因此,得到高质量的训练样本显得十分重要。提出一种基于主动学习的高光谱图像分类方法,通过对区域关注度的统计,有效地结合图像光谱和空间特性,基于主动学习方法获取信息量较大的训练样本,从而较大幅度提高了分类的精确度。实验结果表明,所提算法比传统的随机取样监督分类法和主动学习方法在分类精确度上有较大的优势。相似文献

16.

基于减法聚类的合并最优路径层次聚类算法

朱琪张会福杨宇波杨泉清《计算机工程》2015,(6)

针对传统层次聚类算法在处理大规模数据时效率低下的问题,提出一种快速层次聚类算法。根据数据点密度值的大小依次确定初始聚类中心,使用最小生成树算法对初始聚类中心间的相似度距离进行存储,寻找最优合并路径,从而减少更新距离矩阵的计算量和空间复杂度,并优化减法聚类中的收敛函数。在UCI数据集上的实验结果表明,该算法比传统聚类算法执行速度更快、效率更高,且随着数据量的增多,在时间消耗方面的优势更明显。相似文献

17.

基于贝叶斯和谐度的层次聚类

文顺赵杰煜朱绍军《模式识别与人工智能》2013,26(12):1161-1168

层次聚类是一种重要的数据分析技术。传统的层次聚类方法大都采用欧式距离度量类之间相似度,不能有效处理类之间重合和类密度变化大的情况。文中提出一种基于贝叶斯和谐度的层次聚类方法,采用和谐度增幅代替传统层次聚类方法采用的欧式距离。贝叶斯和谐度取自于贝叶斯阴阳和谐学习理论,能衡量整个数据的分布情况和指导选择合适的类别数。文中方法根据和谐度的变化来度量类之间的相似度,能克服传统层次聚类的缺点;同时更易选择阈值终止层次聚类的合并,从而产生合适的类别数。最后通过两个实验验证文中方法的有效性。相似文献

18.

基于本体的向量空间模型的压缩算法 总被引：2，自引：0，他引：2

袁铭蔚蒋平《计算机工程与应用》2007,43(24):12-14

采用本体（Ontology）为向量空间模型提供更为丰富、详细的概念空间,在本体的支持下,文档中的术语不再被孤立地看成关键词,而是彼此间有了一定的语义联系。以已获得丰富而详细的本体为前提,考虑当本体空间很大时,解决向量空间的高维数给计算带来复杂性与难度这一问题,提出基于HCA（Hierarchical Clustering Algorithm）的向量空间压缩算法。相似文献

19.

MPM: a hierarchical clustering algorithm using matrix partitioning method for non-numeric data

Hewijin Christine Jiau Yi-Jen Su Yeou-Min Lin Shang-Rong Tsai 《Journal of Intelligent Information Systems》2006,26(2):185-207

Clustering has been widely adopted in numerous applications, including pattern recognition, data analysis, image processing, and market research. When performing data mining, traditional clustering algorithms which use distance-based measurements to calculate the difference between data are unsuitable for non-numeric attributes such as nominal, Boolean, and categorical data. Applying an unsuitable similarity measurement in clustering may cause some valuable information embedded in the data attributes to be lost, and hence low quality clusters will be created. This paper proposes a novel hierarchical clustering algorithm, referred to as MPM, for the clustering of non-numeric data. The goals of MPM are to retain the data features of interest while effectively grouping data objects into clusters with high intra-similarity and low inter-similarity. MPM achieves these goals through two principal methods: (1) the adoption of a novel similarity measurement which has the ability to capture the “characterized properties” of information, and (2) the application of matrix permutation and matrix participation partitioning to the results of the similarity measurement (constructed in the form of a similarity matrix) in order to assign data to appropriate clusters. This study also proposes a heuristic-based algorithm, the Heuristic_MPM, to reduce the processing times required for matrix permutation and matrix partitioning, which together constitute the bulk of the total MPM execution time. An erratum to this article is available at . 相似文献

20.

基于局部保留投影的堆叠隐空间模糊C均值算法^*

刘欢王骏应文豪王士同《模式识别与人工智能》2016,29(9):807-815

传统模糊聚类算法在处理复杂非线性数据时学习能力较差。针对此问题,文中基于极限学习机(ELM)理论,结合局部保留投影(LPP)与ELM特征映射,提出压缩隐空间特征映射算法,从而将原始数据从原空间映射至压缩ELM隐空间中。通过连接多个压缩隐空间特征映射,结合模糊聚类技术,提出基于LPP的堆叠隐空间模糊C均值算法。大量实验表明,文中算法对模糊指数的变化不敏感,在处理复杂非线性数据和存在类内差异的图像数据时,能够取得更精确、高效、稳定的学习效果。相似文献