반응형

강화학습 3

PPO 알고리즘 | policy gradient와 차이까지 정리

강화학습을 조금 공부하다 보면 PPO라는 이름을 정말 자주 보게 됩니다.특히 최근에는 게임, 로보틱스뿐 아니라 생성형 AI 학습 문맥에서도 PPO라는 단어가 자주 등장해서 더 익숙하게 느껴질 수 있습니다.그런데 처음 접하면 “PPO가 policy gradient랑 같은 말인가?” “정확히 뭐가 다른 건가?” 하는 부분에서 헷갈리기 쉽습니다.가장 짧게 말하면 PPO는 policy gradient 계열에 속하는 대표 강화학습 알고리즘입니다.policy gradient가 “정책을 직접 업데이트하는 방식 전체”를 가리키는 큰 개념이라면, PPO는 그 안에서 정책이 한 번에 너무 크게 바뀌지 않도록 제어해 학습을 더 안정적으로 만든 방법이라고 이해하면 됩니다.#PPO #PolicyGradient #강화학습 #PP..

머신러닝 2026.05.02

DQN이란 | 딥러닝 기반 강화학습 쉽게 설명

강화학습을 조금 공부하다 보면 DQN이라는 단어를 꽤 빨리 만나게 됩니다.이름은 자주 보이는데, 막상 처음 들으면 “Q-learning이랑 뭐가 다른 거지?” “왜 굳이 딥러닝이 붙는 거지?” 하고 헷갈리기 쉽습니다.그런데 핵심만 잡으면 DQN은 생각보다 단순하게 이해할 수 있습니다.가장 짧게 말하면 DQN은 Q-learning에 딥러닝을 붙인 강화학습 방식입니다.DeepMind의 2015년 Nature 논문은 DQN을 이용해 픽셀 입력만 보고 Atari 2600 게임 여러 개를 학습해 사람 수준에 가까운 성능을 보였다고 설명합니다. PyTorch 공식 튜토리얼도 DQN을 강화학습에서 쓰이는 Deep Q Learning 방식으로 소개합니다.쉽게 말하면 예전의 Q-learning이 작은 표로 값을 외우는 ..

머신러닝 2026.04.30

강화학습 기초 | 상태 행동 보상 구조 한 번에 정리

머신러닝을 공부하다 보면 어느 순간부터 강화학습이라는 단어를 만나게 됩니다.이름은 익숙한데, 막상 설명을 들으면 상태, 행동, 보상, 정책 같은 단어가 한꺼번에 나와서 처음에는 더 어렵게 느껴질 수 있습니다.그런데 핵심 구조만 잡으면 강화학습은 생각보다 훨씬 단순하게 이해할 수 있습니다.가장 쉽게 말하면 강화학습은 에이전트가 환경 속에서 행동을 해보고, 그 결과로 받은 보상을 바탕으로 더 나은 행동을 배우는 방식입니다. IBM은 강화학습을 에이전트가 환경과 상호작용하면서 의사결정을 학습하는 방식으로 설명하고, AWS도 에이전트가 환경에서 행동한 뒤 새로운 상태와 보상을 관찰하며 학습한다고 설명합니다.즉 강화학습은 정답을 바로 알려주는 지도학습과 조금 다릅니다. 대신 행동해보고, 결과를 보고, 점점 더 잘..

머신러닝 2026.04.28
반응형