基于属性树的并行化增量式动态属性约简算法 |
| |
引用本文: | 秦廷桢,丁卫平,鞠恒荣,李铭,黄嘉爽,陈悦鹏,王海鹏.基于属性树的并行化增量式动态属性约简算法[J].模式识别与人工智能,2022(10):939-951. |
| |
作者姓名: | 秦廷桢 丁卫平 鞠恒荣 李铭 黄嘉爽 陈悦鹏 王海鹏 |
| |
作者单位: | 南通大学信息科学技术学院 |
| |
基金项目: | 国家自然科学基金项目(No.61976120,62006128,62102199);;江苏省自然科学基金项目(No.BK20191445);;江苏省高等学校自然科学研究重大项目(No.21KJA510004);;江苏省高等学校自然科学研究面上项目(No.20KJB520009);;中国博士后科学基金项目(No.2022M711716);;教育部人文社会科学研究青年基金项目(No.21YJCZH013);;江苏省研究生科研与实践创新计划(No.SJCX21_1446)资助~~; |
| |
摘 要: | 传统增量算法主要侧重于从更新近似的角度进行属性约简,但在处理大规模数据集时需要评估所有属性并反复计算重要度,提升时间复杂度,降低效率.针对上述问题,文中提出基于属性树的并行化增量加速策略,关键步骤是将所有属性聚类成多棵属性树进行并行化动态属性评估.首先,根据属性树相关性度量选择合适的属性树进行属性评估,降低时间复杂度.再增加分支系数至停止准则中,随着分支深度的增加进行动态增加,可使算法在达到最大阈值后自主跳出循环,有效避免原先的冗余计算,提高效率.基于上述策略,提出基于属性树的增量属性约简算法,同时与Spark并行机制结合,设计基于属性树的并行化增量式动态属性约简算法.在多个数据集上的广泛实验表明,文中算法在保持分类性能的同时,可提高动态变化数据集约简的搜索效率,具有较好的性能优势.
|
关 键 词: | 属性约简 属性树 知识粒度 并行计算 增量学习 Spark框架 |
|
|