딥러닝을 공부하다 보면 Adam과 SGD라는 이름을 정말 자주 보게 됩니다.모델을 만들고 학습 코드를 짤 때도 “옵티마이저를 뭘로 할까?”라는 질문에서 거의 빠지지 않습니다.그런데 처음 배우는 입장에서는 둘 다 결국 가중치를 업데이트하는 도구라서 “정확히 뭐가 다른 거지?” 하고 헷갈리기 쉽습니다.가장 짧게 말하면 SGD는 가장 기본적인 경사하강 업데이트 방식이고, Adam은 기울기의 평균과 제곱 평균을 함께 사용해 파라미터별 학습률을 적응적으로 조절하는 방식입니다. Keras는 Adam을 first-order와 second-order moments의 adaptive estimation에 기반한 SGD 계열 방법으로 설명하고, SGD는 learning rate와 optional momentum을 사용하는..