首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
在数据挖掘和机器学习研究中,许多算法以离散值为处理对象,常常需要对连续属性进行离散化。以有监督和无监督离散化为线索,对典型离散化算法的基本思想进行梳理总结,并从时间复杂度以及对后续分类的影响等角度进行对比。最后对连续属性离散化的一些主要研究方向进行展望。  相似文献   

2.
覆盖算法的概率模型   总被引:3,自引:0,他引:3  
张铃  吴涛  周瑛  张燕平 《软件学报》2007,18(11):2691-2699
要从本质上提高覆盖算法的精度,必须在算法中引入全局的优化计算.为此,先将覆盖算法扩展成核覆盖算法(以高斯函数为核函数),再利用高斯函数的概率意义(高斯分布),为核覆盖算法建立一个有限混合概率模型,在此基础上,利用"最大似然原理"引入全局优化计算,并利用EM(expectation maximization)方法进行求解,完成对覆盖算法的全局优化计算,从而扩大覆盖方法的使用范围并提高算法的精度,且将它从确定的模型扩展成概率的模型,后者更具抗噪声干扰的能力.最后给出模拟实验,实验比较结果表明,经优化后的概率模型确实提高了算法的精度.  相似文献   

3.
基于聚类的连续值属性最佳离散化算法   总被引:4,自引:0,他引:4  
在机器学习和KDD研究中,大多数算法都以离散值为处理对象的,然而,在现实世界数据库中,存在着大量的连续值属性,因此,常常需要对地值属性进行离散化,本文提出一种基于聚类的 续值属最佳离散化算法。  相似文献   

4.
刘洋  肖宝秋  戴光明 《计算机应用》2011,31(9):2555-2558
对传统多目标算法NSGA-Ⅱ及模型多目标算法RM-MEDA进行了分析,并指出了二者的不足。在此基础上,提出基于概率模型的混合多目标算法,并设计了相应的建模准则用于实现两种算法的结合,使得提出的算法能够充分发挥两种算法的优势。将提出的算法与NSGA-Ⅱ算法和RM-MEDA算法在10个测试函数进行了实验对比,结果证实了算法在全局收敛性及多样性等方面有着较好的效果。  相似文献   

5.
基于局部化原理和概率模型的LVQ改进算法   总被引:3,自引:0,他引:3  
利用局部化原理和概率模型的优化方法,提出一种LVQ改进算法——基于局部化原理和概率模型的LVQ算法(Localization principle and Probability based LVQ,LoPLVQ).与传统LVQ算法相比,不仅缩短训练时间,而且具有较高的识别率.实验结果表明改进算法可用来解决大规模的模式识别问题.  相似文献   

6.
王娇  罗四维 《计算机科学》2012,39(7):215-218
半监督学习是机器学习领域的研究热点。协同训练研究数据有多个特征集时的半监督学习问题。从正则化角度研究协同训练,利用假设空间的度量结构定义学习函数的光滑性和一致性,在每个视图内的学习过程中以函数光滑性为约束条件,在多个视图的协同学习过程中以函数一致性为约束条件,创新性地提出一种两个层次的正则化算法,同时使用函数的光滑性和一致性进行正则化。实验表明,该算法较仅使用光滑性或仅使用一致性的正则化方法在预测性能上有显著提高。  相似文献   

7.
本文通过理论推导,提出了三点抛物线拟合曲线等步长实时离散化快速方法,并给出了合理的理论证明及算例。结果表明,该方法具有很好的快速收敛性,及广泛的应用价值。  相似文献   

8.
ART是一种典型的、无监督的、能够对复杂输入模式实现自稳定和自组织识别的神经网络。该文针对标准ARTII算法的预处理信号畸变问题,提出了新的非线性变换函数和竞争学习算法,该新型ARTII算法的输入域由原来的非负实数域扩大到整个实数域,且分类性能良好,以多种分类问题对该算法的性能进行验证,结果表明该算法性能优良,能自适应地识别未知故障模式,分类准确。  相似文献   

9.
使用信息论的方法进行连续属性的离散化,引入Hellinger偏差HD(Hellinger Divergence)作为每个区间对决策的信息量度量,从而定义切分点的信息熵,最终的离散化结果是使各区间的信息量尽可能平均,分析了HD度量在两种离散化方法中的作用,说明它在划分算法中运用比较理想,而在归并算法中则有局限。  相似文献   

10.
一种新的用于连续值属性离散化的约简算法   总被引:4,自引:0,他引:4  
针对在Nguyen和Skowron的离散化算法中进行启发式约简时会出现某些属性不能进行离散化问题,以及在无核数据集中启发式约简算法计算量比较大等问题,在粗糙集理论和属性频率函数的基础上给出一个新概念-候选核,并提出一种新的用于连续值属性离散化的约简算法-基于候选核的启发式约简算法(简称BCC)。该算法可以寻找到能对所有属性进行离散化的约简,实验表明,所提出的BCC算法能提高大数据集的离散化效果。  相似文献   

11.
为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(Mixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响因素作为模型的潜在子模型,文档语言模型由各子模型混合构成,从而准确和全面地反映文档特征。由于MLM根据具体应用确定相关影响因素,并以此构建相应文档描述模型,因此具有很强的灵活性和扩展性。在MLM的基础上,本文给出了一个基于文档主题内容相似性的实例,在TREC9数据集上的实验表明MLM优于向量空间模型(VSM)。  相似文献   

12.
王艳  侯哲  黄滟鸿  史建琦  张格林 《软件学报》2022,33(7):2482-2498
如今,越来越多的社会决策借助机器学习模型给出,包括法律决策、财政决策等等.对于这些决策,算法的公平性是极为重要的.事实上,在这些环境中引入机器学习的目的之一,就是为了规避或减少人类在决策过程中存在的偏见.然而,数据集常常包含敏感特征,或可能存在历史性偏差,会使得机器学习算法产生带有偏见的模型.由于特征选择对基于树的模型具有重要性,它们容易受到敏感属性的影响.提出一种基于概率模型检查的方法,以形式化验证决策树和树集成模型的公平性.将公平性问题转换为概率验证问题,为算法模型构建PCSP#模型,并使用PAT模型检查工具求解,以不同定义的公平性度量衡量模型公平性.基于该方法开发了FairVerify工具,并在多个基于不同数据集和复合敏感属性的分类器上验证了不同的公平性度量,展现了较好的性能.与现有的基于分布的验证器相比,该方法具有更高的可扩展性和鲁棒性.  相似文献   

13.
为提高图像标注质量,提出一种反馈日志与混合概率模型相结合的图像标注方法。利用本体语义网计算标注词之间的相似性度,将相似度应用于日志分析,得到具体应用中的标注词间关系,结合标注词间的关系和图像底层特征,使用混合概率模型进行自动图像标注。实验结果表明,该方法能获得较好的查全率和查准率。  相似文献   

14.
基于混合概率主元分析(MPPCA)的监控方法,存在要求各子模型中主元个数相同、监控指标不一致、监控表格过多等缺陷.为此对MPPCA算法进行改进,分两步建立模型:首先求出混合高斯模型(GMM),然后利用概率主元分析(PPCA)建立每个子模型的主元模型.改进方法中各子模型主元的选取兼顾了主元的解释宰及其变化趋势,并引进基于PPCA的监控方法,保证了监控指标的一致性,减少了过程监控图.  相似文献   

15.
混合概率典型相关性分析   总被引:4,自引:0,他引:4  
典型相关性分析(canonical correlation analysis, CCA)是一种用来分析2组随机变量之间相关性的统计分析工具,但作为一种线性数学模型,CCA不足以揭示真实世界中大量存在的非线性相关现象.采用局部化的方法,在概率典型相关性分析(probabilistic CCA, PCCA)的基础上,使用概率混合模型框架,提出了混合概率典型相关性分析模型(mixture of probabilistic CCA, MixPCCA)以及估计模型参数的2阶段期望最大化(expectation maximization, EM)算法,并给出了使用聚类融合确定局部线性模型数量的方法和MixPCCA模型应用于模式识别的理论框架.在手写体数据集USPS和MNIST上的实验证明,MixPCCA模型通过混合多个局部线性PCCA模型不仅提供了一种捕捉复杂的全局非线性相关性的解决方案,而且还具备检测只在局部区域才存在的相关性的能力.  相似文献   

16.
在对连续的多量级应急数据进行离散化时,采用传统无监督离散化方法难以找出量级变化点完成离散.提出一种针对多量级应急数据的无监督离散化方法.根据量级变化的差异性将离散数据由大到小排序,结合拟合函数和二阶导数计算得到准确的量级变化点作为数据截断点,将截断所得较大数据构成的离散类移出待离散数据集,不断重复上述操作直到待离散数据...  相似文献   

17.
句彦伟  田铮  纪建 《计算机学报》2006,29(2):331-336
提出SAR(Synthetic Aperture Radar)图像的空间变化混合多尺度自回归(Spatially Variant Mixture Multiscale Auto Regressive,SVMMAR)模型方法,该模型不仅能刻画SAR图像的空间变化性,而且利用了SAR图像多尺度序列的统计特性;采用的分类器是像素标号的极大似然估计,细化的同时简化了传统Bayes分类器;该模型无需预先抑制斑点噪声,就能获得精确分割结果;并且理沧上证明了在图像粗尺度确定分类个数的合理性,在此基础上提出一种在粗尺度确定分类个数的新方法,大大减少了运算量。  相似文献   

18.
基于流形学习和混合模型的视频摘要方法   总被引:1,自引:0,他引:1       下载免费PDF全文
视频摘要是进行视频浏览、视频检索、视频索引等视频应用的前提,而且视频摘要类似于文本的摘要,也是对视频内容的一个简短概括。为了自动获得既包含视频的主要信息,而冗余信息又少的视频摘要,提出了一种基于流形学习和有限混合模型的自动视频摘要方法。该方法通过对视频序列进行流形建模,首先得到视频场景的初次分割;然后对包含内容较多的场景,使用等距降维方法计算视频帧的特征向量;最后将视频帧的特征向量输入到混合模型进行聚类分析,得到更细粒度的摘要结果。为了实现视频摘要的自动处理,所采用的混合模型需要具有模型选择功能。混合模型的聚类结果和流形建模的结果共同构成了视频摘要。视频分割片段的实验结果表明,在不需人为干预的情况下,所提供的视频摘要不仅包含视频主要内容,而且冗余信息少。  相似文献   

19.
连续属性离散化是数据分析中重要的预处理过程,本文提出了一种基于云模型,融合相似云度量思想的连续属性整体离散化方法。它首先对例子集合在各个连续属性上的取值进行统一数量级别处理,选出分区基准属性,然后使用正态云模型对每个连续属性进行离散化.最后加以实验验证,指出该方法有一定的理论价值和实际意义.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号