'2026/04/28 글 목록

강화학습 기초 | 상태 행동 보상 구조 한 번에 정리

머신러닝을 공부하다 보면 어느 순간부터 강화학습이라는 단어를 만나게 됩니다.이름은 익숙한데, 막상 설명을 들으면 상태, 행동, 보상, 정책 같은 단어가 한꺼번에 나와서 처음에는 더 어렵게 느껴질 수 있습니다.그런데 핵심 구조만 잡으면 강화학습은 생각보다 훨씬 단순하게 이해할 수 있습니다.가장 쉽게 말하면 강화학습은 에이전트가 환경 속에서 행동을 해보고, 그 결과로 받은 보상을 바탕으로 더 나은 행동을 배우는 방식입니다. IBM은 강화학습을 에이전트가 환경과 상호작용하면서 의사결정을 학습하는 방식으로 설명하고, AWS도 에이전트가 환경에서 행동한 뒤 새로운 상태와 보상을 관찰하며 학습한다고 설명합니다.즉 강화학습은 정답을 바로 알려주는 지도학습과 조금 다릅니다. 대신 행동해보고, 결과를 보고, 점점 더 잘..

머신러닝 2026.04.28

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

mirabo01 님의 블로그

2026/04/28 1

티스토리툴바