SRE 발표 및 사례 (구글 / 당근마켓)

2025. 11. 10. 21:28카테고리 없음

 

1. 구글 클라우드(SRE 로 더 신뢰할 수있는 시스템 구축하기)

: https://www.youtube.com/watch?v=lxRx_UdTXbU&t=99s

 

 

  • 주요 5가지 분야
    • 개발자와 운영자간 silo(사일로) 타파 ( 개발자는 새 기능 배포 / 운영자는 안정성 추구 둘간의 의사소통을 촉진하여 사일로 타파)
    • 오류를 일상으로 받아들임 : Error Budget 으로 관리 
    • 점진적 변화 구현 
    • 도구와 자동화 활용
    • 모든 것을 측정 : 신뢰성 측정 (SLA) 
  • 오류에 대한 대비책을 항상 가지고 있어야 한다.
  • 가용성  = 정상 시간 / 총 시간 : 서비스가 작동되고 사용가능한 시간의 비율을 
    • SRE 에선 더 정교한 지표로 아래 방식으로 지표화한다.
      • 가용성 = 정상 상호작용(200 OK) / 총 상호작용 : 서비스가 작동되고, 실제 사용할 수있는 사용자들의 비율 
  • 모니터링 도구는 SLO 가 충족되지않을 위험이 존재할때, 임계점에 다다랐을 알람을 준다. 
  • 수요 예측 및 용량 계획 : 늘어나는 사용자를 예측하고 그에 준하는 인프라를 갖췄는지 확인 
  • 변경관리 : 장애의 약 70% 는 라이브 시스템의 변경에 기인함. 
    • 점진적 롤아웃 실행 
  • 인간의 실수는 시스템 문제다. 사람을 "수정"할 수는 없지만, 사람이 올바른 선택을 하도록 잘 지원하기 위해 시스템과 프로세스를 수정할 수는 있음.

2.당근마켓 SRE 밋업 : 당근마켓 서비스를 모니터링하는 방법

: https://www.youtube.com/watch?v=3iLTBBC9ZX4

 

1) 당근마켓 트래픽 변화와 조직 환경

  • 1년 반 전 대비 HTTP 요청은 2배, gRPC 요청은 약 5~6배 증가하여 현재 초당 약 35만 건을 처리 중임.
    • 내부 추천 시스템 및 광고 시스템 고도화로 내부 콜(gRPC)이 크게 증가함.
  • MAU는 1,200만에서 1,800만으로 상승했으며, 서비스 워크로드 수는 90개에서 약 400개로 4배 이상 증가함.
  • 다양한 언어(Node.js, Java, Go, Ruby 등)를 사용하는 마이크로 서비스 환경을 지원함.
  • SRE팀은 인원수는 적지만 증가하는 스케일러빌리티를 감당해야 하는 부담을 가짐.

http 75k rps , gRPC 60k rps 

-> http 145k rps  , gRPC 60k rps 

MAU 1200만 -> 1800만 

 

 

2)  모니터링 정책 및 기반 구축

  • SRE는 지원 조직 성격이 강하므로, 개발자와의 정책 얼라인먼트가 필수적이며 컨퍼런스 문서를 통해 이를 명확히 함.
    • 전사 단일 클러스터 운영, 네임스페이스 기반 프로젝트 분리 등의 정책을 문서화함.
  • 모든 서비스에 요구되는 공통 모니터링 영역을 정의하고 기본기를 다지는 것을 최우선으로 함.

 

  • USE Method: 네트워크 포화도(Saturation)나 CPU 로드 증가 등 유틸라이제이션 중심의 전통적 방법론.
  • RED Method: Rate(초당 요청 수), Error(에러 빈도), Duration(응답 속도)를 측정하며 애플리케이션 개발자에게 더 중요함.
  • 4 Golden Signals: Latency, Traffic, Error, Saturation 네 가지 핵심 시그널을 통해 시스템 골든 시그널을 놓치지 않도록 함.
    • SRE 책에서 분산 시스템 모니터링 섹터에 나온 4 골든 시그널을 잘봐야 시스템에 골든 시그널을 안놓칠 수있다고 한다.

Saturation : 초과 되거나, 큐잉되는 정도

 

  • 효율적인 얼럿시스템이 될려면 , 노말상태를 평상시에 잘 관리해두는 것부터 출발 
  • CPU Limit 해제에 따른 노드 모니터링 보강 

 

3. 당근마켓 SRE 밋업 : AlertDelivery: grafana를 활용한 효율적인 알림 시스템 구축

https://youtu.be/poPZvLi0O08?si=Q5ekfFHz58MGNFL2

 

 


맺음말: 내 생각 정리 및 실생활 적용

 

사내 확인 해볼것들 

  • 우리는 http 몇 rps 지?
  • MAU 는 몇일까?

그라파나 대시보드에  

  • pod restart reason 
  • Probe failed

등을 표시하면 좋겠다.