由 白金阁 在 14 天 之前添加. 更新于 12 天 之前.
0%
现在Qwen2.5-0.5B 增量训练 指令微调 奖励微调 DPO都跑通了 PPO这个报错超显存还有glm模型,最小的模型大概15G左右,现在GPU卡不能训练,不能测试其特有的P-tuning
导出 Atom PDF