김도현

Terraform & IaC 실무 사례 아카이브

Terraform은 이제 인프라 관리의 사실상 표준이 되었지만, 프로덕션 환경에서의 운영은 코드를 작성하는 것과는 전혀 다른 차원의 문제다. State 파일 하나가 날아가면 수백 개의 리소스를 수동으로 복구해야 하고, drift가 누적되면 terraform apply 한 번에 프로덕션이 중단될 수 있다. 이 글에서는 실제 엔지니어들이 프로덕션 환경에서...

Service Mesh & Istio 실무 사례 아카이브

Service Mesh는 마이크로서비스 아키텍처에서 서비스 간 통신의 관측성, 보안, 트래픽 관리를 인프라 레벨에서 해결하기 위한 핵심 인프라 계층이다. 그 중 Istio는 Envoy Proxy를 데이터 플레인으로 사용하는 가장 널리 채택된 서비스 메시 구현체이다. 그러나 Istio를 프로덕션에 도입하고 안정적으로 운영하는 것은 PoC(Proof of...

Linux 기초 & 성능 분석 실무 사례 아카이브

Linux는 프로덕션 인프라의 근간이다. 컨테이너, 오케스트레이션, 클라우드 네이티브 기술이 아무리 발전하더라도, 그 아래에서 동작하는 것은 결국 Linux 커널과 운영체제이다. 실제로 대규모 서비스를 운영하는 기업들이 프로덕션에서 마주한 Linux 레벨의 장애 사례를 살펴보면, 커널 파라미터 하나, 프로세스 관리 로직 하나가 전체 서비스 가용성에 어...

Kubernetes 보안 & 정책 관리 실무 사례 아카이브

Kubernetes 클러스터를 프로덕션 환경에서 운영할 때 가장 빈번하게 마주하는 문제 중 하나가 보안과 정책 관리다. 특히 조직 규모가 커질수록 수동 리뷰의 한계가 드러나고, 클러스터 수가 늘어날수록 일관된 보안 기준을 유지하기가 어려워진다. 이 글에서는 Spotify, Tesla, Shopify, Datadog, Mercari 등 대규모 서비스를 ...

Kubernetes 프로덕션 운영 Best Practices 실무 사례 아카이브

Kubernetes를 프로덕션에 도입하면 개발 환경에서는 마주치지 못했던 다양한 운영 이슈가 발생한다. Graceful Shutdown 미설정으로 배포 시마다 5xx 에러가 터지거나, PDB 없이 노드 업그레이드를 진행했다가 서비스가 통째로 내려가는 일은 실제 현장에서 반복적으로 보고되는 사례다. 이 글에서는 공개된 엔지니어링 블로그에서 수집한 프로덕...

Kubernetes Networking 실무 사례 모음 - DNS, conntrack, gRPC, NetworkPolicy, kube-proxy

Kubernetes 네트워킹은 여러 Linux 커널 서브시스템(iptables, conntrack, TCP 스택, DNS resolver)이 중첩되어 동작하기 때문에, 겉으로 드러나는 증상만으로는 근본 원인을 파악하기 어려운 경우가 많다. 특히 프로덕션 환경에서는 트래픽 규모, 프로토콜 특성, 커널 파라미터 등이 복합적으로 작용하여 개발 환경에서는 전...

Kubernetes 프로덕션 운영 사례 분석 - HPA, PDB, RBAC, Storage, Scheduling

Kubernetes를 프로덕션에서 운영하다 보면, 공식 문서만으로는 예측하기 어려운 문제들을 마주하게 된다. HPA가 트래픽 패턴을 제대로 따라가지 못하거나, 배포 시마다 5xx 에러가 발생하거나, RBAC 정책이 관리 불가능한 수준으로 복잡해지는 상황은 실무에서 흔하게 겪는 일이다. 이 글에서는 Buffer, Preply, Shopify, Graf...