来源:燕东数据派 2025年9月27日
近日,陆启隆与陈松蹊教授、邱宇谋副教授合作完成的研究论文《适用于一般损失函数的普适差分隐私统计学习》(Versatile Differentially Private Learning for General Loss Functions)被《统计年刊》(The Annals of Statistics)接受发表。另外,该论文亦被《The Annals of Statistics》推荐入选其首次设立的“期刊—会议交流通道”(journal-to-conference track),将在本年度12月份举行的人工智能与机器学习领域的国际顶级学术会议NeurIPS 2025上进行海报展示(Poster Presentation)。这一机制旨在促进统计学与人工智能领域的深度互动与合作。陆启隆将在会议期间向全球同行汇报此研究成果,进一步推动学术交流与学科融合。
差分隐私(Differential Privacy, DP)是一种严格的隐私保护框架,用于在数据分析与机器学习中控制个体信息的泄露风险。自Dwork et al. (2006)提出以来,该方法经过持续发展,已成为隐私保护领域的重要理论工具。差分隐私不仅在学术界发展迅速,也在业界得到了广泛采纳,包括苹果(Apple)、微软(Microsoft)等国际科技公司均已在其产品和服务中部署差分隐私技术,以在大规模数据分析中实现隐私保护与有效利用的平衡。
近年来,已有研究探讨了在本地差分隐私(Local Differential Privacy, LDP)约束下的估计误差。Duchi, Jordan 和 Wainwright (2018) 在若干统计任务中分析了 ε-LDP 下的估计误差,Duchi 和 Ruan (2024) 在更一般的框架下也得到了相同收敛速度的刻画。这些结果表明,LDP 所引入的估计误差在统计推断中不可忽略。然而,上述研究大多依赖于针对特定任务所设计的机制,限制了隐私保护方法的普适性。尤其是常用的 Noisy-SGD 算法,虽然在一般的 M-估计任务中适用,但对于新的分析任务往往需要重新分配隐私预算,从而在方法的普适性上存在局限。
为突破这一局限,本文提出了一种统一且普适的隐私保护机制,能够在 M-估计框架下实现一致的参数估计与推断,并且适用于非光滑损失函数。具体而言,文章设计了零膨胀对称多元拉普拉斯(ZIL)分布作为噪声分布,以简化参数估计与统计推断过程,同时推广 ε-LDP 至更一般的 f-LDP 框架来刻画隐私保护水平。在此基础上,本文进一步提出双重随机(DR)程序,即在 ZIL 机制的输出上叠加对称多元拉普拉斯噪声,从而得到无偏修正的损失函数估计。该方法不依赖调参,能处理分位数回归、支持向量机分类以及 ReLU 神经网络等非光滑损失问题。
本文证明了 DR 修正损失估计量的一致性与渐近正态性,并给出了可用于推断的方差估计。与经典的高斯机制和拉普拉斯机制相比,该方法避免了积分或求导计算,因而在实现上更为简洁,且适用范围更广。进一步地,当研究对象限于二阶光滑损失函数时,本文提出了平滑双重随机(SDR)程序,其估计误差在一定意义下可与 Duchi 和 Ruan(2024)的结果相媲美。最后,文章系统讨论了所提估计量在隐私保护水平与估计效率之间的权衡关系。
文章的第一作者是北京大学光华管理学院2023级博士生陆启隆。其他作者是陈松蹊教授和邱宇谋副教授,陈松蹊教授也是陆启隆的博士生导师。本项研究得到了国家自然科学基金项目No.12292980和No.92358303的资助。