排序方式: 共有49条查询结果,搜索用时 15 毫秒
11.
12.
针对现有序列挖掘算法特征维度高、学习算法时间复杂度高等方面的不足,提出一种主题特征表示法,将符号序列转换为一组表示多个主题呈现度的概率向量。基于文本挖掘中常用的隐含狄利克雷分配(latent Dirichlet allocation, LDA)主题模型,视短序列元组为序列的浅层特征(词),利用LDA模型学习算法提取主题及其概率分布,作为序列的深层特征。在6个实际序列数据集上进行试验,并与基于元组、Markov模型的现有方法作对比,结果表明,新方法在降低特征维度的同时提高了表示模型的学习效率,在符号序列分类应用中可以取得较理想的分类精度。 相似文献
13.
最近邻分类的多代表点学习算法 总被引:4,自引:0,他引:4
经典的k-最近邻算法存在参数k难以确定和分类效率低的缺点.基于模型的kNN算法使用代表点集合构造训练样本的分类模型,克服上述缺点,但需要较高的计算时间代价.文中提出一种高效的多代表点学习算法,用于最近邻分类.运用结构风险最小化理论对影响分类模型期望风险的因素进行分析.在此基础上,使用无监督的局部聚类算法学习优化的代表点集合.在实际应用数据集上的实验结果表明,该算法可对复杂类别结构数据进行有效分类,并大幅度提高分类效率. 相似文献
14.
15.
16.
现有的有向图聚类算法大多基于向量空间中节点间的近似线性关系假设,忽略了节点间存在的非线性相关性。针对该问题,提出一种基于核非负矩阵分解(KNMF)的有向图聚类算法。首先,引入核学习方法将有向图的邻接矩阵投影到核空间,并通过特定的正则项约束原空间及核空间中节点间的相似性。其次,提出了图正则化核非对称NMF算法的目标函数,并在非负约束条件下通过梯度下降方法推导出一个聚类算法。该算法在考虑节点连边的方向性的同时利用核学习方法建模节点间的非线性关系,从而准确地揭示有向图中潜在的结构信息。最后,在专利-引文网络(PCN)数据集上的实验结果表明,簇的数目为2时,和对比算法相比,所提算法将DB值和DQF值分别提高了约0.25和8%,取得了更好的聚类质量。 相似文献
17.
纠错输出编码是一种处理多类分类问题的有效方法,但它只能用于有监督的数据,而对大量未标签样本却无法利用.提出一种新颖的基于半监督技术的层次编码算法,对传统的纠错输出编码算法(ECOC)进行改造,拓展了编码的概念.在编码阶段,根据簇特征进行同类组合后再进行层次编码,从而在充分利用了无标签样本的同时,根据数据类分布的特点进行编码以提高算法精度.最后在化工产品有毒性预测数据集上的实验结果表明了本方法的可行性和有效性. 相似文献
18.
由于在信用卡欺诈分析等领域的广泛应用,学者们开始关注概念漂移数据流分类问题.现有算法通常假设数据一旦分类后类标已知,利用所有待分类实例的真实类别来检测数据流是否发生概念漂移以及调整分类模型.然而,由于标记实例需要耗费大量的时间和精力,该解决方案在实际应用中无法实现.据此,提出一种基于KNNModel和增量贝叶斯的概念漂移检测算法KnnM-IB.新算法在具有KNNModel算法分类被模型簇覆盖的实例分类精度高、速度快优点的同时,利用增量贝叶斯算法对难处理样本进行分类,从而保证了分类效果.算法同时利用可变滑动窗口大小的变化以及主动学习标记的少量样本进行概念漂移检测.当数据流稳定时,半监督学习被用于扩大标记实例的数量以对模型进行更新,因而更符合实际应用的要求.实验结果表明,该方法能够在对数据流进行有效分类的同时检测数据流概念漂移及相应地更新模型. 相似文献
19.
针对符号序列聚类中表示模型及序列间距离度量定义的困难问题,提出一种基于概率向量的表示模型及基于该模型的符号序列聚类算法。该模型引入符号序列的概率分布表示法,定义了一种基于概率分布差异的符号序列距离度量及该模型的目标函数,最后给出了一种符号序列K-均值型聚类算法,并在来自不同领域的实际应用序列集上进行了实验验证。实验结果表明,与基于子序列表示模型的符号序列聚类算法相比,所提方法在DNA序列和语音序列等具有较多符号的实际数据上,有效提高聚类精度的同时降低聚类时间50%以上。 相似文献
20.
优化子空间的高维聚类算法 总被引:1,自引:0,他引:1
针对当前大多数典型软子空间聚类算法未能考虑簇类投影子空间的优化问题,提出一种新的软子空间聚类算法。该算法将最大化权重之间的差异性作为子空间优化的目标,并提出了一个量化公式。以此为基础设计了一个新的优化目标函数,在最小化簇内紧凑度的同时,优化每个簇所在的软子空间。通过数学推导得到了新的特征权重计算方法,并基于k-means算法框架定义了新聚类算法。实验结果表明,所提算法对子空间的优化降低了算法过早陷入局部最优的可能性,提高了算法的稳定性,并且具有良好的性能和聚类效果,适合用于高维数据聚类分析。 相似文献