머신러닝을 공부하다 보면 어느 순간부터 강화학습이라는 단어를 만나게 됩니다.이름은 익숙한데, 막상 설명을 들으면 상태, 행동, 보상, 정책 같은 단어가 한꺼번에 나와서 처음에는 더 어렵게 느껴질 수 있습니다.그런데 핵심 구조만 잡으면 강화학습은 생각보다 훨씬 단순하게 이해할 수 있습니다.가장 쉽게 말하면 강화학습은 에이전트가 환경 속에서 행동을 해보고, 그 결과로 받은 보상을 바탕으로 더 나은 행동을 배우는 방식입니다. IBM은 강화학습을 에이전트가 환경과 상호작용하면서 의사결정을 학습하는 방식으로 설명하고, AWS도 에이전트가 환경에서 행동한 뒤 새로운 상태와 보상을 관찰하며 학습한다고 설명합니다.즉 강화학습은 정답을 바로 알려주는 지도학습과 조금 다릅니다. 대신 행동해보고, 결과를 보고, 점점 더 잘..