首页 | 本学科首页   官方微博 | 高级检索  
     

基于孤立森林算法的统计报表异常数据检测
作者姓名:吴欣然  张凌  顾淼
作者单位:国家药品监督管理局信息中心
摘    要:孤立森林算法是一种无监督学习的异常数据检测方法,广泛应用于诸多领域,其具有普适性、高效性、可扩展性和可解释性等优势。对于全国药品监管统计调查工作,基于孤立森林算法框架设计了一种统计报表异常数据检测方法。所提出的方法包含三个主要步骤:数据预处理、特征选取与模型构建。在数据预处理阶段,使用对数转换和平滑函数处理数据,提高模型的鲁棒性。特征选取阶段采用分位数和Z分数等统计指标,构建多维特征数据,提供更准确的异常检测信息。在线下实验中,通过PR曲线,与传统异常数据检测算法进行对比,证明其性能优势。在工作实践中,通过投资回报率(ROI)指标,与传统的人工检测方法对比,证明其高效性。所提出的方法对于稀疏数据场景的识别率还有待提高,需要进行适当的调优和验证,在统计报表异常数据检测中具有应用价值和意义,是全国药品监管统计调查工作中贯彻“十四五”加快推进数字化转型,从信息化向智能化转变和发展的具体举措。

关 键 词:孤立森林  统计报表  异常数据检测  药品监管  数字化转型
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号