期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郝志峰陈正鸣谢峰陈薇蔡瑞初《计算机工程》2022,48(9):121-129

因果发现旨在通过观测数据挖掘变量间的因果关系,在实际应用中需要从观测数据中学习隐变量间的因果结构。现有方法主要利用观测变量间的协方差信息（如四分体约束）或引入非高斯假设（如三分体约束）来解决线性因果模型下的隐变量结构学习问题,但大多限定于分布明确的情况,而实际应用环境往往并不满足这种假设。给出任意分布下隐变量结构的识别性证明,指出在没有混淆因子影响的情况下,两个隐变量的因果方向可识别所需要的最小条件是仅需要其中一个隐变量的噪声服从非高斯分布。在此基础上,针对线性隐变量模型提出一种在任意分布下学习隐变量因果结构的算法,先利用四分体约束方法学习得到隐变量骨架图,再通过枚举骨架图的等价类并测量每一个等价类中的三分体约束来学习因果方向,同时将非高斯约束放宽到尽可能最小的变量子集,从而扩展线性隐变量模型的应用范围。实验结果表明,与MIMBuild和三分体约束方法相比,该算法得到了最佳的F1值,能够在任意分布下学习更多的隐变量因果结构信息,且具有更强的鲁棒性。相似文献

2.

基于级联加性噪声模型的因果结构学习算法

乔杰蔡瑞初郝志峰《计算机工程》2022,48(1):93-98

现有级联非线性加性噪声模型可解决隐藏中间变量的因果方向推断问题,然而对于包含隐变量和级联传递因果关系的因果网络学习存在全局结构搜索、等价类无法识别等问题。设计一种面向非时序观测数据的两阶段因果结构学习算法,第一阶段根据观测数据变量间的条件独立性,构建基本的因果网络骨架,第二阶段基于级联非线性加性噪声模型,通过比较骨架中每个相邻因果对在不同因果方向假设下的边缘似然度进行因果方向推断。实验结果表明,该算法在虚拟因果结构数据集的不同隐变量数量、平均入度、结构维度、样本数量下均表现突出,且在真实因果结构数据集中的F1值相比主流因果结构学习算法平均提升了51%,具有更高的准确率和更强的鲁棒性。相似文献

3.

基于偏相关性测试的递归式因果推断算法

陈铭杰张浩彭昱忠谢峰庞悦《计算机工程》2022,48(10):123-129

因果推断是挖掘事物间联系的一种重要方式,但在高维数据场景下,利用因果推断算法进行条件独立性（CI）测试存在冗余测试多和测试效率低的问题,这限制了因果推断在高维数据集上的应用。提出一种基于偏相关性测试的递归式因果推断算法。采用“分治”的方法对变量集进行递归式因果分割,得到更易于处理的低维子数据集,提高对数据集的处理效率。在每个子数据集上进行局部因果推断,减少每次因果推断的计算量并提升算法的运行速度。在此基础上,通过比较显著性值的合并策略整合所有子结果并得到完整的因果关系,保证总体因果结构的准确性。在“分治”过程中,采用高效的偏相关性测试避免高复杂度的核密度估算,进一步提升算法效率。基于10个经典数据集的实验结果表明,在准确率与经典推断算法CAPA持平的情况下,该算法的运算速度提升了2~10倍,且在样本量越大的数据集中提升效果越明显,证明递归式因果推断算法可以有效处理高维数据集,在保证准确率的同时提高运算效率。相似文献

4.

一种基于信息瓶颈的因果关系挖掘方法

乔杰蔡瑞初郝志峰《计算机科学》2022,49(2):198-203

观测数据因果关系挖掘是很多学科的基础问题.然而基于约束与因果函数等的现有方法对数据的因果机制具有较强的假设,一般适用于低维数据,并不能很好地适用于存在隐变量的场景.为此,提出了一种基于信息瓶颈的因果关系挖掘方法,称为因果信息瓶颈方法.该方法将因果机制划分为压缩与提取两阶段,在压缩阶段,假设存在一个经过压缩的中间隐变量,... 相似文献

5.

局部因果关系分析的隐变量发现算法

姚宏亮吴立辉王浩李俊照《计算机科学与探索》2014,(4):456-466

结构分析的隐变量发现方法难以有效地发现隐变量且可解释性较差。基于因果关系和局部结构的不确定性,提出了一种基于局部因果关系分析的隐变量发现算法（hidden variable discovering algorithm based on local causality analysis,LCAHD）。LCAHD算法给出了因果结构熵的定义,将因果知识和不确定性知识相融合,以因果关系的不确定性程度作为隐变量存在的判定依据,并对这一依据进行了理论上的论证。LCAHD算法首先通过寻找目标变量的马尔科夫毯来提取局部依赖结构,并基于扰动学习获得扰动数据,联合扰动数据和观测数据学习局部依赖结构中的因果关系;然后利用因果结构熵对局部因果结构中因果关系的不确定性进行度量,并利用隐变量和因果关系不确定性之间的相关性判定条件,确定隐变量的存在性。分别针对标准网络和股票网络进行了实验,结果表明,该算法能准确地确定隐变量的位置,具有较好的解释性。相似文献

6.

混合加噪声模型与条件独立性检测的因果方向推断算法

麦桂珍彭世国洪英汉陈平华彭昱忠《计算机应用研究》2019,36(6)

从可观测的变量中推导出潜在的因果关系是人工智能领域的热点研究之一。传统的基于独立性检测的方法是通过检测V结构来确定一组马尔科夫等价类而非最终的因果关系;而加噪声模型算法却只能适应于低维度的因果网络结构。为此,提出一种采取分治策略的混合加噪声模型与条件独立性检测的因果方向推断方法。首先是将一个n维因果网络分解成n个诱导子网络,分别归入三种基本结构（单度结构、非三角结构和存在三角的结构）中的一种,从理论上分别证明其有效性;其次对每个诱导子网络进行基于加噪声模型算法与条件独立性检测相结合的方向推断;最后把所有子网络合并起来构建成完整的因果关系网络。实验表明,该方法比传统的因果关系推断方法更加有效。相似文献

7.

一种基于CDC的适用于高维数据的因果推断算法

李洪飞万亚平阳小华耿家兴《计算机技术与发展》2020,(1):38-43

一对观测变量之间的因果关系的推断是科学中的基本问题,基于观测数据分析提出因果关系的方法对于产生假设和加速科学发现具有实用价值。利用传统的因果推断算法从高维数据中学习因果网络结构和提高学习准确率是目前研究的难点。在引入耦合相关系数(copula dependence coefficient,CDC)的基础上,提出了一种适用于高维数据的两步骤因果推断算法。首先该算法利用优于最大信息系数的CDC对变量间的关联度进行检测,寻找目标节点的父子节点集;然后使用非线性最小二乘独立回归算法,为图中的目标节点与其父子节点之间标注因果方向;最后迭代所有的节点完成完整的因果网络结构。实验结果表明,该算法提高了高维数据下因果网络结构学习的准确率。同时在大样本数据集中,该算法的时间复杂度优于传统算法,对异常值具有鲁棒性。相似文献

8.

基于时序隐变量模型的因果关系发现算法

曾艳郝志峰蔡瑞初谢峰《计算机工程与设计》2022,43(5):1428-1434

为在基于隐变量模型的因果关系发现算法中综合考虑隐变量之间的瞬时性和延时性因果效应,构建以动态贝叶斯网络为基础的时序隐变量模型,提出对应的因果关系发现算法。使用因子分析的方法估计测量模型中的因子载荷矩阵,应用结构向量自回归模型估计自回归矩阵,利用数据的非高斯性依次学习模型中隐变量之间的瞬时效应矩阵与延时效应矩阵,构建时序隐变量模型的因果网络结构。实验结果验证了算法的有效性。相似文献

9.

面向社交媒体的直接因果网络发现算法

蔡瑞初谢泳陈薇曾艳郝志峰杜文俊《计算机应用研究》2020,37(9):2689-2693

高维时序因果网络发现是社交媒体因果关系发现的重要问题。然而,现有的时序因果关系发现方法不能发现直接因果以致因果网络推断结果不准确。针对此问题提出了一种直接因果网络发现方法。该方法考虑了时序因果模型的因果延迟、滞后期数量和条件节点集等因素,更准确地发现直接因果关系;另外,采用结合置换检验的因果关系检验方法,解决传递熵阈值难以设定的问题。实验结果表明,该方法在因果网络推断中优于现有方法,有效提升时序上直接因果网络推断的准确率,适用于发现潜在社交媒体因果关系网络。相似文献

10.

基于因果自回归流模型的因果结构学习算法

卢小金陈薇郝志峰蔡瑞初《计算机工程》2024,(3):131-136

因果自回归流模型已经在非独立噪声等场景的因果方向推断问题上取得了一定的进展,但在多个结点的场景下仍存在全局结构搜索带来的准确度低和计算时间复杂度高的问题。面向非时序观察数据设计一种两阶段因果结构学习算法。在第一阶段,基于观测数据的条件独立性,对完全无向图通过条件独立性检验得到基本的因果骨架;在第二阶段,基于因果自回归流模型,通过标准化流的方法计算骨架中每条无向边在不同方向上的边缘似然概率,进而通过比较边缘似然概率进行因果方向推断。实验结果表明：该算法在多组不同参数生成的仿真因果结构数据集上均有较好的表现,与现有的主流因果结构学习算法相比,F1值平均提升15%～28%;在真实因果结构数据集实验中,该算法能够较为完整准确地学习到变量间的因果关系,与主流的因果结构学习算法相比,F1值平均提升28%～48%,具有更强的鲁棒性。相似文献

11.

基于神经网络的混合数据的因果发现

耿家兴万亚平李洪飞《计算机技术与发展》2020,(5):26-31

因果推理正在成为机器学习领域一个越来越受关注的研究热点,现阶段的因果发现主要是在研究某一种假设条件下,基于纯粹的观测数据推断变量之间的因果方向。然而在现实世界中观察到的数据往往是由一些假设生成,使得传统因果推断方法的识别率不高、稳定性较差。针对当前的问题,提出了一种基于神经网络来解决混合数据因果推断的方法。该方法在混合加性噪声模型(ANM-MM)的假设下,使用梯度下降法最优化改进的损失函数得到混合数据的抽象因果分布参数,然后将分布参数看作是原因变量和结果变量之间的隐变量,通过比较原因变量和分布参数之间的HilberSchmidt独立性来确定二元变量的因果方向。在理论上证明了该方法的可行性,并通过实验表明该算法在人工数据和真实数据的表现较传统的IGCI,ANM,PNL,LiNGAM,SLOPE方法具有较好的准确率和稳定性。相似文献

12.

面向多元时间序列的群体因果关系发现算法

蔡瑞初伍运金陈薇郝志峰《计算机工程》2023,49(2):127-135

从多元时间序列观测数据中学习多个变量之间的因果关系是许多专业领域中的重要基本问题。现有的多元时间序列因果关系发现方法通常从每个个体的观测数据中学习个体因果关系,没有考虑部分个体之间可能存在相同的因果关系,导致样本利用不足。提出一种面向多元时间序列的群体因果关系发现算法。该算法分为2个阶段：第一阶段基于因果关系对个体之间的相似性进行度量,并把多个个体划分成多个群体,且无须指定群体的个数;第二阶段基于变分推断方法充分利用每个群体内的所有个体数据,从而学习群体因果关系。实验结果表明,该算法在多组不同参数生成的仿真数据上均具有较好的表现,与对比算法相比,AUC评分提升了5%～20%。在真实数据集中,该算法能够较好地区分具有不同因果关系的群体,并且能够学习到不同群体之间不同的因果关系,表明算法不仅具有因果关系发现能力,而且还具有多元时间序列聚类能力。相似文献

13.

一种基于高阶累积量的因果结构学习算法

廖伟国《计算机应用研究》2023,40(6):1702-1707

从观测数据中学习因果结构具有重要的应用价值。目前,一类学习因果结构的方法是基于函数因果模型假设,通过检验噪声与原因变量的独立性来学习因果结构。然而,该类方法涉及高计算复杂度的独立性检验过程,影响结构学习算法的实用性和鲁棒性。为此,提出了一种在线性非高斯模型下,利用高阶累积量作为独立性评估的因果结构学习算法。该算法主要分为两个步骤,第一个步骤是利用基于条件独立性约束的方法学习到因果结构的马尔可夫等价类,第二个步骤是定义了一种基于高阶累积量的得分,该得分可以判别两个随机变量的独立性,从而可以从马尔可夫等价类中搜索到最佳独立性得分的因果结构作为算法的输出。该算法的优势在于：a)相比基于核方法的独立性检验,该方法有较低的计算复杂度;b)基于得分搜索的方法,可以得到一个最匹配数据生成过程的模型,提高学习方法的鲁棒性。实验结果表明,基于高阶累积量的因果结构学习方法在合成数据中F₁得分提高了5%,并在真实数据中学习到更多的因果方向。相似文献

14.

基于典型因果推断算法的无线网络性能优化

郝志峰陈薇蔡瑞初黄瑞慧温雯王丽娟《计算机应用》2016,36(8):2114-2120

现有的无线网络性能优化方法主要基于指标间的相关关系分析,无法有效指导网络优化等干预行为。为此,提出典型因果推断（CCI）算法,并将其应用于无线网络性能优化。首先,针对无线网络性能由大量相关指标体现这一特性,采用典型相关分析（CCA）方法,提取指标中蕴含的原子事件;然后再采用因果推断方法,构建原子事件间的因果关系网络。通过上述两个阶段反复迭代,确定原子事件间的因果关系网络,为无线网络性能优化提出一个较为可靠和有效的依据。最后通过模拟实验验证了CCI算法的有效性,在某城市3万多个移动基站数据上发现了一批有意义的无线网络指标间的因果关系。相似文献

15.

基于互信息的直接因果搜索算法

贺炜潘泉张洪才《计算机工程与应用》2003,39(31):82-85

因果关系挖掘是数据挖掘领域一个新的研究方向,具有很大的实用意义,但理论建模的困难阻碍了它的发展。20世纪90年代,在因果建模研究成果的基础上,国外开始针对此方向进行研究,目前已得到了一些理论算法。该文针对已有算法鲁棒性、实用性差,不适合大规模数据挖掘应用的缺点,提出了一种基于互信息的因果数据挖掘算法———直接因果搜索算法;仿真试验表明,该算法能很好地搜索出目标变量的直接因果,与其他算法相比,对于数据、门限的变化更具鲁棒性。相似文献

16.

面向测量误差模型的外生变量估计方法

谢峰蔡瑞初曾艳郝志峰《计算机应用研究》2021,38(2):456-459

从观察数据中发现因果关系在近年来得到了越来越多学者的关注,其中外生变量在理解因果机制中扮演者重要的角色。然而,现有的因果发现方法大多假设观察变量就是真实发生的因(果)变量,忽略了测量误差带来的影响。为此,提出了一种解决测量模型下的外生变量估计方法。通过引入triad约束,根据此约束来找出与其余所有相关成对变量都满足triad约束的变量,即外生变量。该算法不仅能够解决含有测量误差数据的估计问题,而且对于没有测量误差的数据仍然适用。实验将该算法应用于真实网络产生的数据中,结果表明,无论变量是否含有测量误差,提出方法均优于现有的其他算法。同时,基于移动基站的真实数据实验也验证了算法的有效性。相似文献