1 posts
GRPO를 활용해 Qwen3-VL을 강화학습으로 파인튜닝하는 실전 가이드. Unsloth와 TRL로 수학 문제 해결 능력을 향상시키는 방법과 보상함수 설계법을 제시합니다.