트러블슈팅 3

쿠버네티스 운영 설계 가이드: 장애를 줄이는 기본 습관 정리

쿠버네티스 운영을 덜 아프게 만드는 설계와 습관앞선 글들에서Pod 장애, OOMKilled, Evicted, Node 문제까지 살펴봤다.이쯤 되면 자연스럽게 이런 생각이 든다.“매번 터지고 나서 고치는 게 맞나?”“처음부터 덜 아프게 운영할 수는 없을까?”이 글에서는쿠버네티스를 잘 쓰는 기술이 아니라덜 고생하면서 운영하기 위한 설계와 습관을 정리한다.화려한 패턴보다는, 실제로 도움이 되는 기본에 집중한다.1. 모든 것은 “기본값에 맡기지 않는다”쿠버네티스는 기본값이 많다.문제는 이 기본값들이 운영 환경에 최적화되어 있지 않다는 점이다.대표적인 예시는 다음과 같다.resources 미설정readiness/liveness probe 미설정replicas = 1처음에는 편하지만,운영 단계로 가면 거의 항상 문..

infra 2026.02.11

쿠버네티스 OOMKilled·Evicted 트러블슈팅: Node 장애까지 한 번에 정리

쿠버네티스 실전 트러블슈팅, OOMKilled · Evicted · Node 장애 대응 정리앞선 글에서는 Pod가 뜨지 않을 때의 기본적인 확인 순서를 정리했다.이번에는 운영 중 실제로 가장 자주 마주치는 조금 더 실전적인 에러들을 다룬다.Pod가 갑자기 재시작되며 OOMKilled가 찍힌다아무 설정도 안 바꿨는데 Pod가 Evicted 상태가 된다특정 Node에서만 문제가 반복된다이런 케이스들은 단순한 설정 오류를 넘어서리소스와 클러스터 상태를 함께 봐야 하는 문제다.OOMKilled: 가장 흔한 메모리 관련 장애OOMKilled는 이름 그대로다.컨테이너가 메모리 limits를 초과해 강제로 종료된 상태이 상태는 로그를 보지 않아도kubectl describe pod에서 바로 확인할 수 있다.Reaso..

infra 2026.02.10

쿠버네티스 Pod 트러블슈팅 가이드: 실행되지 않을 때 확인 순서

쿠버네티스 트러블슈팅 기본편, Pod가 뜨지 않을 때 확인 순서쿠버네티스를 어느 정도 쓰다 보면언젠가는 꼭 이런 상황을 마주하게 된다.배포는 했는데 Pod가 안 뜬다계속 재시작만 반복한다상태가 Pending이나 CrashLoopBackOff에서 멈춰 있다이 글에서는 Pod가 정상적으로 실행되지 않을 때,실무에서 많이 사용하는 확인 순서와 사고 흐름을 정리한다.특정 에러를 외우기보다는, 어디부터 보면 되는지에 초점을 맞췄다.트러블슈팅의 출발점은 “상태 확인”이다가장 먼저 해야 할 일은“무슨 문제가 있는지 추측”하는 게 아니라쿠버네티스가 보고 있는 상태를 그대로 확인하는 것이다.보통 이 한 줄에서 시작한다.kubectl get pod여기서 가장 많이 마주치는 상태는 다음과 같다.PendingCrashLoop..

infra 2026.02.09