AI 技能的自然生态,你的一句话,蔓延出无限连接。
研究学习 / 检索整理
grpo-rl-training
描述
Expert guidance for GRPO/RL fine-tuning with TRL for reasoning and task-specific model training
安全审计