Observability 실무 사례 아카이브
이 글에서는 GitLab, Shopify, LinkedIn, Uber, Grafana Labs 등 대규모 프로덕션 환경에서 실제로 발생한 Observability 관련 사례를 정리한다. Prometheus Cardinality 폭발, OpenTelemetry 마이그레이션, Alert Fatigue 해결, 분산 트레이싱 도입, Three Pillars ...
이 글에서는 GitLab, Shopify, LinkedIn, Uber, Grafana Labs 등 대규모 프로덕션 환경에서 실제로 발생한 Observability 관련 사례를 정리한다. Prometheus Cardinality 폭발, OpenTelemetry 마이그레이션, Alert Fatigue 해결, 분산 트레이싱 도입, Three Pillars ...
Linux는 프로덕션 인프라의 근간이다. 컨테이너, 오케스트레이션, 클라우드 네이티브 기술이 아무리 발전하더라도, 그 아래에서 동작하는 것은 결국 Linux 커널과 운영체제이다. 실제로 대규모 서비스를 운영하는 기업들이 프로덕션에서 마주한 Linux 레벨의 장애 사례를 살펴보면, 커널 파라미터 하나, 프로세스 관리 로직 하나가 전체 서비스 가용성에 어...
Kubernetes를 프로덕션 환경에서 운영하다 보면, CrashLoopBackOff, OOMKilled, Node NotReady 같은 장애 상황을 반드시 마주하게 된다. 이러한 장애는 단순한 설정 실수부터 etcd 디스크 I/O 병목까지 원인이 다양하며, 체계적인 접근 없이는 대응 시간이 불필요하게 길어진다. 이 글에서는 Spotify, Linke...
Kubernetes 클러스터를 프로덕션 환경에서 운영할 때 가장 빈번하게 마주하는 문제 중 하나가 보안과 정책 관리다. 특히 조직 규모가 커질수록 수동 리뷰의 한계가 드러나고, 클러스터 수가 늘어날수록 일관된 보안 기준을 유지하기가 어려워진다. 이 글에서는 Spotify, Tesla, Shopify, Datadog, Mercari 등 대규모 서비스를 ...
Kubernetes를 프로덕션에 도입하면 개발 환경에서는 마주치지 못했던 다양한 운영 이슈가 발생한다. Graceful Shutdown 미설정으로 배포 시마다 5xx 에러가 터지거나, PDB 없이 노드 업그레이드를 진행했다가 서비스가 통째로 내려가는 일은 실제 현장에서 반복적으로 보고되는 사례다. 이 글에서는 공개된 엔지니어링 블로그에서 수집한 프로덕...
Kubernetes 네트워킹은 여러 Linux 커널 서브시스템(iptables, conntrack, TCP 스택, DNS resolver)이 중첩되어 동작하기 때문에, 겉으로 드러나는 증상만으로는 근본 원인을 파악하기 어려운 경우가 많다. 특히 프로덕션 환경에서는 트래픽 규모, 프로토콜 특성, 커널 파라미터 등이 복합적으로 작용하여 개발 환경에서는 전...
Kubernetes를 프로덕션에서 운영하다 보면, 공식 문서만으로는 예측하기 어려운 문제들을 마주하게 된다. HPA가 트래픽 패턴을 제대로 따라가지 못하거나, 배포 시마다 5xx 에러가 발생하거나, RBAC 정책이 관리 불가능한 수준으로 복잡해지는 상황은 실무에서 흔하게 겪는 일이다. 이 글에서는 Buffer, Preply, Shopify, Graf...
이 글은 LinkedIn, Uber, Netflix 등 대규모 트래픽을 운영하는 기업들이 프로덕션 환경에서 Apache Kafka를 어떻게 운영하고, 어떤 문제를 겪었으며, 어떻게 해결했는지를 정리한 실무 사례 아카이브다. 단순한 설정 가이드가 아니라, 수천 대의 브로커와 수백 개의 Consumer Group을 운영하면서 축적된 교훈을 담고 있다. K...
Helm은 Kubernetes 패키징의 사실상 표준이다. 그러나 프로덕션 환경에서 Helm을 운영하다 보면 단순히 helm install/helm upgrade를 실행하는 것 이상의 복잡한 문제들과 마주하게 된다. 마이그레이션, 멀티 환경 관리, 서브차트 의존성, DB 마이그레이션 Hook, 롤백 전략 등 실무에서 겪는 문제들은 공식 문서만으로는 충분...
GitOps는 Git을 Single Source of Truth로 삼아 인프라와 애플리케이션의 원하는 상태를 선언적으로 관리하는 운영 모델이다. ArgoCD는 이 원칙을 Kubernetes 환경에서 구현하는 대표적인 도구로, CNCF Graduated 프로젝트로 채택될 만큼 광범위하게 사용되고 있다. 이 글에서는 실제 엔지니어들이 프로덕션 환경에서 겪...