🚀 On-PolicyDistillation正迅速成为大模型后训练(Post-training)的“第三条道路”:它一边保留RL那种“在自己分布上学习”的优势,一边又像SFT一样提供逐token的密集监督。在Qwen3技术报告中,这种方法以RL约十分之一的算力成本,在AIME’24数学竞赛上拿到74.4%的准确率,反超RL的67.6%。本文从问题动机、算法原理、实现细节到数学推理与个性化助手实验,系统拆解On-PolicyDistillation为何能在推理、个性化和持续学习场景中,成为当前最具性价比的训练范式之一。