강화학습을 조금 공부하다 보면 PPO라는 이름을 정말 자주 보게 됩니다.특히 최근에는 게임, 로보틱스뿐 아니라 생성형 AI 학습 문맥에서도 PPO라는 단어가 자주 등장해서 더 익숙하게 느껴질 수 있습니다.그런데 처음 접하면 “PPO가 policy gradient랑 같은 말인가?” “정확히 뭐가 다른 건가?” 하는 부분에서 헷갈리기 쉽습니다.가장 짧게 말하면 PPO는 policy gradient 계열에 속하는 대표 강화학습 알고리즘입니다.policy gradient가 “정책을 직접 업데이트하는 방식 전체”를 가리키는 큰 개념이라면, PPO는 그 안에서 정책이 한 번에 너무 크게 바뀌지 않도록 제어해 학습을 더 안정적으로 만든 방법이라고 이해하면 됩니다.#PPO #PolicyGradient #강화학습 #PP..