Terraform & IaC 실무 사례 아카이브
Terraform은 이제 인프라 관리의 사실상 표준이 되었지만, 프로덕션 환경에서의 운영은 코드를 작성하는 것과는 전혀 다른 차원의 문제다. State 파일 하나가 날아가면 수백 개의 리소스를 수동으로 복구해야 하고, drift가 누적되면 terraform apply 한 번에 프로덕션이 중단될 수 있다. 이 글에서는 실제 엔지니어들이 프로덕션 환경에서...
Terraform은 이제 인프라 관리의 사실상 표준이 되었지만, 프로덕션 환경에서의 운영은 코드를 작성하는 것과는 전혀 다른 차원의 문제다. State 파일 하나가 날아가면 수백 개의 리소스를 수동으로 복구해야 하고, drift가 누적되면 terraform apply 한 번에 프로덕션이 중단될 수 있다. 이 글에서는 실제 엔지니어들이 프로덕션 환경에서...
Service Mesh는 마이크로서비스 아키텍처에서 서비스 간 통신의 관측성, 보안, 트래픽 관리를 인프라 레벨에서 해결하기 위한 핵심 인프라 계층이다. 그 중 Istio는 Envoy Proxy를 데이터 플레인으로 사용하는 가장 널리 채택된 서비스 메시 구현체이다. 그러나 Istio를 프로덕션에 도입하고 안정적으로 운영하는 것은 PoC(Proof of...
Redis는 캐싱, 세션 관리, Rate Limiting, 실시간 데이터 처리 등 다양한 용도로 활용되는 인메모리 데이터 스토어다. 단순한 캐시로 도입했더라도 서비스가 성장하면 Sentinel/Cluster 마이그레이션, 데이터 분리, Eviction 정책 최적화, Thundering Herd 대응 등 복잡한 운영 과제에 직면하게 된다. 이 글에서는 ...
이 글에서는 GitLab, Shopify, LinkedIn, Uber, Grafana Labs 등 대규모 프로덕션 환경에서 실제로 발생한 Observability 관련 사례를 정리한다. Prometheus Cardinality 폭발, OpenTelemetry 마이그레이션, Alert Fatigue 해결, 분산 트레이싱 도입, Three Pillars ...
Linux는 프로덕션 인프라의 근간이다. 컨테이너, 오케스트레이션, 클라우드 네이티브 기술이 아무리 발전하더라도, 그 아래에서 동작하는 것은 결국 Linux 커널과 운영체제이다. 실제로 대규모 서비스를 운영하는 기업들이 프로덕션에서 마주한 Linux 레벨의 장애 사례를 살펴보면, 커널 파라미터 하나, 프로세스 관리 로직 하나가 전체 서비스 가용성에 어...
Kubernetes를 프로덕션 환경에서 운영하다 보면, CrashLoopBackOff, OOMKilled, Node NotReady 같은 장애 상황을 반드시 마주하게 된다. 이러한 장애는 단순한 설정 실수부터 etcd 디스크 I/O 병목까지 원인이 다양하며, 체계적인 접근 없이는 대응 시간이 불필요하게 길어진다. 이 글에서는 Spotify, Linke...
Kubernetes 클러스터를 프로덕션 환경에서 운영할 때 가장 빈번하게 마주하는 문제 중 하나가 보안과 정책 관리다. 특히 조직 규모가 커질수록 수동 리뷰의 한계가 드러나고, 클러스터 수가 늘어날수록 일관된 보안 기준을 유지하기가 어려워진다. 이 글에서는 Spotify, Tesla, Shopify, Datadog, Mercari 등 대규모 서비스를 ...
Kubernetes를 프로덕션에 도입하면 개발 환경에서는 마주치지 못했던 다양한 운영 이슈가 발생한다. Graceful Shutdown 미설정으로 배포 시마다 5xx 에러가 터지거나, PDB 없이 노드 업그레이드를 진행했다가 서비스가 통째로 내려가는 일은 실제 현장에서 반복적으로 보고되는 사례다. 이 글에서는 공개된 엔지니어링 블로그에서 수집한 프로덕...
Kubernetes 네트워킹은 여러 Linux 커널 서브시스템(iptables, conntrack, TCP 스택, DNS resolver)이 중첩되어 동작하기 때문에, 겉으로 드러나는 증상만으로는 근본 원인을 파악하기 어려운 경우가 많다. 특히 프로덕션 환경에서는 트래픽 규모, 프로토콜 특성, 커널 파라미터 등이 복합적으로 작용하여 개발 환경에서는 전...
Kubernetes를 프로덕션에서 운영하다 보면, 공식 문서만으로는 예측하기 어려운 문제들을 마주하게 된다. HPA가 트래픽 패턴을 제대로 따라가지 못하거나, 배포 시마다 5xx 에러가 발생하거나, RBAC 정책이 관리 불가능한 수준으로 복잡해지는 상황은 실무에서 흔하게 겪는 일이다. 이 글에서는 Buffer, Preply, Shopify, Graf...