摘 要: | 孤立森林算法是一种无监督学习的异常数据检测方法,广泛应用于诸多领域,其具有普适性、高效性、可扩展性和可解释性等优势。对于全国药品监管统计调查工作,基于孤立森林算法框架设计了一种统计报表异常数据检测方法。所提出的方法包含三个主要步骤:数据预处理、特征选取与模型构建。在数据预处理阶段,使用对数转换和平滑函数处理数据,提高模型的鲁棒性。特征选取阶段采用分位数和Z分数等统计指标,构建多维特征数据,提供更准确的异常检测信息。在线下实验中,通过PR曲线,与传统异常数据检测算法进行对比,证明其性能优势。在工作实践中,通过投资回报率(ROI)指标,与传统的人工检测方法对比,证明其高效性。所提出的方法对于稀疏数据场景的识别率还有待提高,需要进行适当的调优和验证,在统计报表异常数据检测中具有应用价值和意义,是全国药品监管统计调查工作中贯彻“十四五”加快推进数字化转型,从信息化向智能化转变和发展的具体举措。
|