共查询到19条相似文献,搜索用时 78 毫秒
1.
《计算机应用与软件》2014,(8)
在数据挖掘和机器学习研究中,许多算法以离散值为处理对象,常常需要对连续属性进行离散化。以有监督和无监督离散化为线索,对典型离散化算法的基本思想进行梳理总结,并从时间复杂度以及对后续分类的影响等角度进行对比。最后对连续属性离散化的一些主要研究方向进行展望。 相似文献
2.
3.
基于聚类的连续值属性最佳离散化算法 总被引:4,自引:0,他引:4
在机器学习和KDD研究中,大多数算法都以离散值为处理对象的,然而,在现实世界数据库中,存在着大量的连续值属性,因此,常常需要对地值属性进行离散化,本文提出一种基于聚类的 续值属最佳离散化算法。 相似文献
4.
5.
6.
半监督学习是机器学习领域的研究热点。协同训练研究数据有多个特征集时的半监督学习问题。从正则化角度研究协同训练,利用假设空间的度量结构定义学习函数的光滑性和一致性,在每个视图内的学习过程中以函数光滑性为约束条件,在多个视图的协同学习过程中以函数一致性为约束条件,创新性地提出一种两个层次的正则化算法,同时使用函数的光滑性和一致性进行正则化。实验表明,该算法较仅使用光滑性或仅使用一致性的正则化方法在预测性能上有显著提高。 相似文献
7.
本文通过理论推导,提出了三点抛物线拟合曲线等步长实时离散化快速方法,并给出了合理的理论证明及算例。结果表明,该方法具有很好的快速收敛性,及广泛的应用价值。 相似文献
8.
ART是一种典型的、无监督的、能够对复杂输入模式实现自稳定和自组织识别的神经网络。该文针对标准ARTII算法的预处理信号畸变问题,提出了新的非线性变换函数和竞争学习算法,该新型ARTII算法的输入域由原来的非负实数域扩大到整个实数域,且分类性能良好,以多种分类问题对该算法的性能进行验证,结果表明该算法性能优良,能自适应地识别未知故障模式,分类准确。 相似文献
9.
使用信息论的方法进行连续属性的离散化,引入Hellinger偏差HD(Hellinger Divergence)作为每个区间对决策的信息量度量,从而定义切分点的信息熵,最终的离散化结果是使各区间的信息量尽可能平均,分析了HD度量在两种离散化方法中的作用,说明它在划分算法中运用比较理想,而在归并算法中则有局限。 相似文献
10.
11.
为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(Mixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响因素作为模型的潜在子模型,文档语言模型由各子模型混合构成,从而准确和全面地反映文档特征。由于MLM根据具体应用确定相关影响因素,并以此构建相应文档描述模型,因此具有很强的灵活性和扩展性。在MLM的基础上,本文给出了一个基于文档主题内容相似性的实例,在TREC9数据集上的实验表明MLM优于向量空间模型(VSM)。 相似文献
12.
如今,越来越多的社会决策借助机器学习模型给出,包括法律决策、财政决策等等.对于这些决策,算法的公平性是极为重要的.事实上,在这些环境中引入机器学习的目的之一,就是为了规避或减少人类在决策过程中存在的偏见.然而,数据集常常包含敏感特征,或可能存在历史性偏差,会使得机器学习算法产生带有偏见的模型.由于特征选择对基于树的模型具有重要性,它们容易受到敏感属性的影响.提出一种基于概率模型检查的方法,以形式化验证决策树和树集成模型的公平性.将公平性问题转换为概率验证问题,为算法模型构建PCSP#模型,并使用PAT模型检查工具求解,以不同定义的公平性度量衡量模型公平性.基于该方法开发了FairVerify工具,并在多个基于不同数据集和复合敏感属性的分类器上验证了不同的公平性度量,展现了较好的性能.与现有的基于分布的验证器相比,该方法具有更高的可扩展性和鲁棒性. 相似文献
13.
14.
混合概率典型相关性分析 总被引:4,自引:0,他引:4
典型相关性分析(canonical correlation analysis, CCA)是一种用来分析2组随机变量之间相关性的统计分析工具,但作为一种线性数学模型,CCA不足以揭示真实世界中大量存在的非线性相关现象.采用局部化的方法,在概率典型相关性分析(probabilistic CCA, PCCA)的基础上,使用概率混合模型框架,提出了混合概率典型相关性分析模型(mixture of probabilistic CCA, MixPCCA)以及估计模型参数的2阶段期望最大化(expectation maximization, EM)算法,并给出了使用聚类融合确定局部线性模型数量的方法和MixPCCA模型应用于模式识别的理论框架.在手写体数据集USPS和MNIST上的实验证明,MixPCCA模型通过混合多个局部线性PCCA模型不仅提供了一种捕捉复杂的全局非线性相关性的解决方案,而且还具备检测只在局部区域才存在的相关性的能力. 相似文献
15.
16.
17.
提出SAR(Synthetic Aperture Radar)图像的空间变化混合多尺度自回归(Spatially Variant Mixture Multiscale Auto Regressive,SVMMAR)模型方法,该模型不仅能刻画SAR图像的空间变化性,而且利用了SAR图像多尺度序列的统计特性;采用的分类器是像素标号的极大似然估计,细化的同时简化了传统Bayes分类器;该模型无需预先抑制斑点噪声,就能获得精确分割结果;并且理沧上证明了在图像粗尺度确定分类个数的合理性,在此基础上提出一种在粗尺度确定分类个数的新方法,大大减少了运算量。 相似文献
18.
视频摘要是进行视频浏览、视频检索、视频索引等视频应用的前提,而且视频摘要类似于文本的摘要,也是对视频内容的一个简短概括。为了自动获得既包含视频的主要信息,而冗余信息又少的视频摘要,提出了一种基于流形学习和有限混合模型的自动视频摘要方法。该方法通过对视频序列进行流形建模,首先得到视频场景的初次分割;然后对包含内容较多的场景,使用等距降维方法计算视频帧的特征向量;最后将视频帧的特征向量输入到混合模型进行聚类分析,得到更细粒度的摘要结果。为了实现视频摘要的自动处理,所采用的混合模型需要具有模型选择功能。混合模型的聚类结果和流形建模的结果共同构成了视频摘要。视频分割片段的实验结果表明,在不需人为干预的情况下,所提供的视频摘要不仅包含视频主要内容,而且冗余信息少。 相似文献