OOMKilled 2

관리형 쿠버네티스 장애 유형 정리: 클러스터는 정상인데 서비스가 안 될 때

관리형 쿠버네티스에서 자주 겪는 장애 유형들— “클러스터는 멀쩡한데 서비스가 안 될 때”관리형 쿠버네티스(EKS, GKE)를 쓰기 시작하면이런 기대를 하게 된다.“이제 클러스터 장애는 신경 안 써도 되겠지”“적어도 쿠버네티스 자체가 문제일 일은 없겠지”절반은 맞고, 절반은 틀리다.Control Plane 장애는 줄어들지만,서비스 장애는 여전히 자주 발생한다.다만 양상이 조금 달라질 뿐이다.이 글에서는관리형 쿠버네티스 환경에서 실무적으로 가장 자주 겪는 장애 유형을원인과 함께 정리한다.관리형 쿠버네티스 장애의 특징온프레미스나 직접 구축한 쿠버네티스와 비교하면관리형 환경의 장애는 이런 특징을 가진다.Control Plane 문제는 거의 없다대신 워크로드·설정·리소스 문제가 대부분이다“클러스터는 정상”인데 서..

infra 2026.02.22

쿠버네티스 OOMKilled·Evicted 트러블슈팅: Node 장애까지 한 번에 정리

쿠버네티스 실전 트러블슈팅, OOMKilled · Evicted · Node 장애 대응 정리앞선 글에서는 Pod가 뜨지 않을 때의 기본적인 확인 순서를 정리했다.이번에는 운영 중 실제로 가장 자주 마주치는 조금 더 실전적인 에러들을 다룬다.Pod가 갑자기 재시작되며 OOMKilled가 찍힌다아무 설정도 안 바꿨는데 Pod가 Evicted 상태가 된다특정 Node에서만 문제가 반복된다이런 케이스들은 단순한 설정 오류를 넘어서리소스와 클러스터 상태를 함께 봐야 하는 문제다.OOMKilled: 가장 흔한 메모리 관련 장애OOMKilled는 이름 그대로다.컨테이너가 메모리 limits를 초과해 강제로 종료된 상태이 상태는 로그를 보지 않아도kubectl describe pod에서 바로 확인할 수 있다.Reaso..

infra 2026.02.10