首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
现有级联非线性加性噪声模型可解决隐藏中间变量的因果方向推断问题,然而对于包含隐变量和级联传递因果关系的因果网络学习存在全局结构搜索、等价类无法识别等问题。设计一种面向非时序观测数据的两阶段因果结构学习算法,第一阶段根据观测数据变量间的条件独立性,构建基本的因果网络骨架,第二阶段基于级联非线性加性噪声模型,通过比较骨架中每个相邻因果对在不同因果方向假设下的边缘似然度进行因果方向推断。实验结果表明,该算法在虚拟因果结构数据集的不同隐变量数量、平均入度、结构维度、样本数量下均表现突出,且在真实因果结构数据集中的F1值相比主流因果结构学习算法平均提升了51%,具有更高的准确率和更强的鲁棒性。  相似文献   

2.
从观测数据中学习因果结构具有重要的应用价值。目前,一类学习因果结构的方法是基于函数因果模型假设,通过检验噪声与原因变量的独立性来学习因果结构。然而,该类方法涉及高计算复杂度的独立性检验过程,影响结构学习算法的实用性和鲁棒性。为此,提出了一种在线性非高斯模型下,利用高阶累积量作为独立性评估的因果结构学习算法。该算法主要分为两个步骤,第一个步骤是利用基于条件独立性约束的方法学习到因果结构的马尔可夫等价类,第二个步骤是定义了一种基于高阶累积量的得分,该得分可以判别两个随机变量的独立性,从而可以从马尔可夫等价类中搜索到最佳独立性得分的因果结构作为算法的输出。该算法的优势在于:a)相比基于核方法的独立性检验,该方法有较低的计算复杂度;b)基于得分搜索的方法,可以得到一个最匹配数据生成过程的模型,提高学习方法的鲁棒性。实验结果表明,基于高阶累积量的因果结构学习方法在合成数据中F1得分提高了5%,并在真实数据中学习到更多的因果方向。  相似文献   

3.
因果发现旨在通过观测数据挖掘变量间的因果关系,在实际应用中需要从观测数据中学习隐变量间的因果结构。现有方法主要利用观测变量间的协方差信息(如四分体约束)或引入非高斯假设(如三分体约束)来解决线性因果模型下的隐变量结构学习问题,但大多限定于分布明确的情况,而实际应用环境往往并不满足这种假设。给出任意分布下隐变量结构的识别性证明,指出在没有混淆因子影响的情况下,两个隐变量的因果方向可识别所需要的最小条件是仅需要其中一个隐变量的噪声服从非高斯分布。在此基础上,针对线性隐变量模型提出一种在任意分布下学习隐变量因果结构的算法,先利用四分体约束方法学习得到隐变量骨架图,再通过枚举骨架图的等价类并测量每一个等价类中的三分体约束来学习因果方向,同时将非高斯约束放宽到尽可能最小的变量子集,从而扩展线性隐变量模型的应用范围。实验结果表明,与MIMBuild和三分体约束方法相比,该算法得到了最佳的F1值,能够在任意分布下学习更多的隐变量因果结构信息,且具有更强的鲁棒性。  相似文献   

4.
陈铭杰  张浩  彭昱忠  谢峰  庞悦 《计算机工程》2022,48(10):123-129
因果推断是挖掘事物间联系的一种重要方式,但在高维数据场景下,利用因果推断算法进行条件独立性(CI)测试存在冗余测试多和测试效率低的问题,这限制了因果推断在高维数据集上的应用。提出一种基于偏相关性测试的递归式因果推断算法。采用“分治”的方法对变量集进行递归式因果分割,得到更易于处理的低维子数据集,提高对数据集的处理效率。在每个子数据集上进行局部因果推断,减少每次因果推断的计算量并提升算法的运行速度。在此基础上,通过比较显著性值的合并策略整合所有子结果并得到完整的因果关系,保证总体因果结构的准确性。在“分治”过程中,采用高效的偏相关性测试避免高复杂度的核密度估算,进一步提升算法效率。基于10个经典数据集的实验结果表明,在准确率与经典推断算法CAPA持平的情况下,该算法的运算速度提升了2~10倍,且在样本量越大的数据集中提升效果越明显,证明递归式因果推断算法可以有效处理高维数据集,在保证准确率的同时提高运算效率。  相似文献   

5.
赵玲  龚加兴  黄大荣  胡冲 《控制与决策》2021,36(9):2234-2240
因果网络定向问题实质是一个“多对多”因果关系发现过程,传统的V-结构定向方法只能确定一组马尔可夫等价类而非最终的因果关系.为解决该问题,从柯氏复杂度的因果推断原理视角出发,利用贝叶斯链式法则推导出局部网络因果定向规则,并在此基础上提出高维全局网络因果定向方法.同时,将前者运用于改进基于局部条件独立信息搜索学习马尔可夫毯典型算法,后者运用于改进基于约束的因果网络结构学习典型算法.实验结果表明,改进后算法在保证较高准确率的同时可有效提升执行效率.  相似文献   

6.
局部保持流形学习算法通过保持局部邻域特性来挖掘隐藏在高维数据中的内在流形结构。然而,对于缺乏足够训练样本的高维数据集,或者高维数据集存在非线性结构和高维数据特征中存在冗余、干扰特征,使得在原特征空间中利用欧式距离定义的邻域关系并不能真实反映数据的内在流形结构,从而影响算法的性能。提出利用正约束寻找特征子空间的方法,使得在此子空间中更多的同类样本紧聚,并进一步在该子空间中构建邻域关系来挖掘高维数据的内在流形,形成基于特征子空间邻域特性的局部保持流形学习算法(NFS-LPP和NFS-NPE)。它们在一定程度上克服了高维小样本数据集难以正确挖掘内在流形结构的问题,在Yale和ORL人脸库上的分类和聚类实验验证了其有效性。  相似文献   

7.
Lasso方法与其他特征选择一样,对高维海量或高维小样本数据集的特征选择容易出现计算开销过大或过学习问题(过拟合).为解决此问题,提出一种改进的Lasso方法:迭代式Lasso方法.迭代式Lasso方法首先将特征集分成K份,对第一份特征子集进行特征提取,将所得特征加入第二份,再对第二份特征进行特征提取;然后将所得特征加入第三份,依次迭代下去,直到第K份,得到最终特征子集.实验表明,迭代式Lasso方法能够很好地对高维海量或高维小样本数据集进行特征选择,是一种有效的特征选择方法.目前,此方法已经很好地应用在高维海量和高维小样本数据的分类或预测模型中.  相似文献   

8.
一种面向高维数据的均分式Lasso特征选择方法   总被引:1,自引:0,他引:1  
Lasso是一种基于一范式的特征选择方法。与已有的特征选择方法相比较,Lasso不仅能够准确地选择出与类标签强相关的变量,同时还具有特征选择的稳定性,因而成为人们研究的一个热点。但是,Lasso方法与其他特征选择方法一样,在高维海量或高维小样本数据集的特征选择容易出现计算开销过大或过学习问题(过拟和)。为解决此问题,提出一种改进的Lasso方法:均分式Lasso方法。均分式Lasso方法将特征集均分成K份,对每份特征子集进行特征选择,将每份所选的特征进行合并,再进行一次特征选择。实验表明,均分式Lasso方法能够很好地对高维海量或高维小样本数据集进行特征选择,是一种有效的特征选择方法。  相似文献   

9.
文章旨在研究数据分布未知的高维、小样本问题的特征抽取算法.基于支持向量机原理和特征统计不相关思想,提出基于散度支持向量机(SSVM)的递归统计不相关特征抽取算法,解决现有算法抽取特征之问存在相关性、算法受到样本分布影响等问题.针对高维小样本问题,使用PCA把SSVM优化问题变换到同构低维空间;给出边界鉴别向量集的递归求...  相似文献   

10.
局部因果结构学习是发现和学习给定一个目标变量的直接原因和直接结果而无需学习一个完整因果网络的过程.目前已有算法通常由两个步骤完成:步骤1使用约束类算法利用独立性测试学习目标变量的马尔科夫毯(MB)或父子节点集(PC),但是该步骤由于受到有限的数据样本量等因素影响使得独立性测试存在一定的错误性,而导致该步骤精度通常不是很...  相似文献   

11.
因果自回归流模型已经在非独立噪声等场景的因果方向推断问题上取得了一定的进展,但在多个结点的场景下仍存在全局结构搜索带来的准确度低和计算时间复杂度高的问题。面向非时序观察数据设计一种两阶段因果结构学习算法。在第一阶段,基于观测数据的条件独立性,对完全无向图通过条件独立性检验得到基本的因果骨架;在第二阶段,基于因果自回归流模型,通过标准化流的方法计算骨架中每条无向边在不同方向上的边缘似然概率,进而通过比较边缘似然概率进行因果方向推断。实验结果表明:该算法在多组不同参数生成的仿真因果结构数据集上均有较好的表现,与现有的主流因果结构学习算法相比,F1值平均提升15%~28%;在真实因果结构数据集实验中,该算法能够较为完整准确地学习到变量间的因果关系,与主流的因果结构学习算法相比,F1值平均提升28%~48%,具有更强的鲁棒性。  相似文献   

12.
周钢  郭福亮 《计算机科学》2021,48(z1):250-254
从集成学习的预测误差分析和偏差-方差分解可以发现使用有限的、具有正确率和差异性的基学习器进行集成学习,具有更好的泛化精度.利用信息熵构建了两阶段的特征选择集成学习方法,第一阶段先按照相对分类信息熵构建精度高于0.5的基特征集B;第二阶段先在B的基础上按互信息熵标准评判独立性,运用贪心算法构建独立的特征子集,再运用Jaccard系数评价特征子集间多样性,选取多样性的独立特征子集并构建基学习器.通过数据实验分析发现,该优化方法的执行效率和测试精度优于普通Bagging方法,在多分类的高维数据集上优化效果更好,但不适用于二分类问题.  相似文献   

13.
半监督学习过程中,由于无标记样本的随机选择造成分类器性能降低及不稳定性的情况经常发生;同时,面对仅包含少量有标记样本的高维数据的分类问题,传统的半监督学习算法效果不是很理想.为了解决这些问题,本文从探索数据样本空间和特征空间两个角度出发,提出一种结合随机子空间技术和集成技术的安全半监督学习算法(A safe semi-supervised learning algorithm combining stochastic subspace technology and ensemble technology,S3LSE),处理仅包含极少量有标记样本的高维数据分类问题.首先,S3LSE采用随机子空间技术将高维数据集分解为B个特征子集,并根据样本间的隐含信息对每个特征子集优化,形成B个最优特征子集;接着,将每个最优特征子集抽样形成G个样本子集,在每个样本子集中使用安全的样本标记方法扩充有标记样本,生成G个分类器,并对G个分类器进行集成;然后,对B个最优特征子集生成的B个集成分类器再次进行集成,实现高维数据的分类.最后,使用高维数据集模拟半监督学习过程进行实验,实验结果表明S3LSE具有较好的性能.  相似文献   

14.
近来,基于观测变量的因果模型辨识受到了较多关注。一般使用线性无环因果模型对数据生成过程建模,而实际上,许多因果模型包含非线性关系,使用纯线性方法求解是无效的。将线性模型泛化为非线性模型,提出一种两步骤的辨识算法,首先使用特征选择算法获得d分离等价类,然后使用非线性成对独立性测试为图中的边标注因果方向。实验结果验证了该算法的有效性,并表明其优于其他算法。  相似文献   

15.
一对观测变量之间的因果关系的推断是科学中的基本问题,基于观测数据分析提出因果关系的方法对于产生假设和加速科学发现具有实用价值。利用传统的因果推断算法从高维数据中学习因果网络结构和提高学习准确率是目前研究的难点。在引入耦合相关系数(copula dependence coefficient,CDC)的基础上,提出了一种适用于高维数据的两步骤因果推断算法。首先该算法利用优于最大信息系数的CDC对变量间的关联度进行检测,寻找目标节点的父子节点集;然后使用非线性最小二乘独立回归算法,为图中的目标节点与其父子节点之间标注因果方向;最后迭代所有的节点完成完整的因果网络结构。实验结果表明,该算法提高了高维数据下因果网络结构学习的准确率。同时在大样本数据集中,该算法的时间复杂度优于传统算法,对异常值具有鲁棒性。  相似文献   

16.
非负张量链分解作为一种重要的张量分解模型,可保留数据内部结构信息,广泛应用于高维数据的特征提取和表示。从流形学习角度出发,高维数据信息通常潜在于低维空间的非线性流形结构中,然而现有图学习理论只能建模对象间的成对关系,很难准确刻画具有复杂流形结构的高维数据的相似关系。引入超图学习,提出一种超图正则化非负张量链(HGNTT)分解方法,在高维数据中提取低维表示的同时通过构建超图描述样本数据间的高阶关系,从而保留非线性流形结构,同时采用乘法更新方法对HGNTT模型进行优化求解并证明其收敛性。在ORL和Faces95这两个公开数据集上的聚类实验结果表明,相比于NMF、GNMF等方法 ,HGNTT方法的聚类准确率和归一化互信息分别提升了1.2%~7.6%和0.2%~3.0%,验证了HGNTT方法的有效性。  相似文献   

17.
具有不充分信息的高维时间序列因果关系网络学习重要且困难,信息不充分会导致许多因果关系丢失,从而造成传递信息的不完整.本文首先提出了汇聚递减变量排序方法,并基于局部贪婪搜索-打分进行因果关系网络学习,来降低对数据量的需求和提高学习效率与可靠性;再通过建立信息提取变量来获取变量组的压缩信息,以弥补由弱因果关系的缺失所引起的传递信息丢失和实现高维数据的降维;最后基于递归汇聚结构和后验分布抽样识别准确率分别建立时间序列变量之间的影响程度计算、影响的敏感性计算和汇聚与扩散影响计算方法,并使用宏观经济时间序列数据进行相应的实验验证与分析.  相似文献   

18.
推断数据间存在的因果关系是很多科学领域中的一个基础问题。然而现在暂时还没有快速有效的方法对高维数据进行因果推断。为此,提出了一种基于互信息的适应于高维数据的因果推断算法,该算法采取将高维网络结构学习问题分解成每一个节点的因果网络结构学习问题的策略。在第一阶段,利用基于互信息的条件独立性测试算法寻找目标节点的父子节点;在第二阶段,利用一种混合的方向识别算法对目标节点与其父子节点之间的方向进行判别,所有节点迭代完后得到一个完整的因果网络。数据实验表明,该算法在高维数据的情况下要优于目前其他的算法。  相似文献   

19.
针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法.该算法基于熵理论,通过构造一个基于对象间相似度的熵度量方法来评估特征重要性,然后根据设计的一种挑选特征的标准获得重要的特征子集,最后在该特征子集上执行统计最优样本大小算法.实验结果表明,改进后算法得到的样本大小抽取的样本集能够在聚类算法中得到较高的准确率,同时也较明显地降低了算法的执行时间,从而验证了改进后的算法是有效可行的.  相似文献   

20.
特定类的思想是将传统的多类特征提取和识别任务转化为多个两类问题,由此产生了类不平衡问题,影响最优鉴别特征的提取。为了解决该问题,文中提出了一种主动学习平衡类鉴别分析(ALCBD)方法。对于每个特定类,ALCBD从其对应的大类中选取它的部分近邻样本构成特定类的近邻样本集,接着将这个近邻样本集划分成与特定类相同样本数的多个子集,然后根据主动学习的思想挑选最优子集与特定类结合成为新样本集,最后用传统的线性鉴别分析(LDA)方法得到鉴别向量。基于USPS和Honda/UCSD数据库的实验表明ALCBD方法能够有效地解决类不平衡问题,并改善了识别性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号