대규모 언어 모델(LLM)의 추론 능력을 강화하기 위해 강화학습(RL)은 핵심적인 후속 훈련(post-training) 기술로 자리 잡았습니다. PPO(Proximal Policy Optimization)나 GRPO와 같은 기존의 강화학습 방법들은…
대규모 언어 모델(LLM)의 추론 능력을 강화하기 위해 강화학습(RL)은 핵심적인 후속 훈련(post-training) 기술로 자리 잡았습니다. PPO(Proximal Policy Optimization)나 GRPO와 같은 기존의 강화학습 방법들은…Continue reading on Medium » Read More Llm on Medium
#AI