SRE 발표 및 사례 (구글 / 당근마켓)
2025. 11. 10. 21:28ㆍ카테고리 없음
1. 구글 클라우드(SRE 로 더 신뢰할 수있는 시스템 구축하기)
: https://www.youtube.com/watch?v=lxRx_UdTXbU&t=99s
- 주요 5가지 분야
- 개발자와 운영자간 silo(사일로) 타파 ( 개발자는 새 기능 배포 / 운영자는 안정성 추구 둘간의 의사소통을 촉진하여 사일로 타파)
- 오류를 일상으로 받아들임 : Error Budget 으로 관리
- 점진적 변화 구현
- 도구와 자동화 활용
- 모든 것을 측정 : 신뢰성 측정 (SLA)
- 오류에 대한 대비책을 항상 가지고 있어야 한다.
- 가용성 = 정상 시간 / 총 시간 : 서비스가 작동되고 사용가능한 시간의 비율을
- SRE 에선 더 정교한 지표로 아래 방식으로 지표화한다.
- 가용성 = 정상 상호작용(200 OK) / 총 상호작용 : 서비스가 작동되고, 실제 사용할 수있는 사용자들의 비율
- SRE 에선 더 정교한 지표로 아래 방식으로 지표화한다.
- 모니터링 도구는 SLO 가 충족되지않을 위험이 존재할때, 임계점에 다다랐을 알람을 준다.
- 수요 예측 및 용량 계획 : 늘어나는 사용자를 예측하고 그에 준하는 인프라를 갖췄는지 확인
- 변경관리 : 장애의 약 70% 는 라이브 시스템의 변경에 기인함.
- 점진적 롤아웃 실행
- 인간의 실수는 시스템 문제다. 사람을 "수정"할 수는 없지만, 사람이 올바른 선택을 하도록 잘 지원하기 위해 시스템과 프로세스를 수정할 수는 있음.
2.당근마켓 SRE 밋업 : 당근마켓 서비스를 모니터링하는 방법
: https://www.youtube.com/watch?v=3iLTBBC9ZX4
1) 당근마켓 트래픽 변화와 조직 환경
- 1년 반 전 대비 HTTP 요청은 2배, gRPC 요청은 약 5~6배 증가하여 현재 초당 약 35만 건을 처리 중임.
- 내부 추천 시스템 및 광고 시스템 고도화로 내부 콜(gRPC)이 크게 증가함.
- MAU는 1,200만에서 1,800만으로 상승했으며, 서비스 워크로드 수는 90개에서 약 400개로 4배 이상 증가함.
- 다양한 언어(Node.js, Java, Go, Ruby 등)를 사용하는 마이크로 서비스 환경을 지원함.
- SRE팀은 인원수는 적지만 증가하는 스케일러빌리티를 감당해야 하는 부담을 가짐.
http 75k rps , gRPC 60k rps
-> http 145k rps , gRPC 60k rps
MAU 1200만 -> 1800만
2) 모니터링 정책 및 기반 구축
- SRE는 지원 조직 성격이 강하므로, 개발자와의 정책 얼라인먼트가 필수적이며 컨퍼런스 문서를 통해 이를 명확히 함.
- 전사 단일 클러스터 운영, 네임스페이스 기반 프로젝트 분리 등의 정책을 문서화함.
- 모든 서비스에 요구되는 공통 모니터링 영역을 정의하고 기본기를 다지는 것을 최우선으로 함.

- USE Method: 네트워크 포화도(Saturation)나 CPU 로드 증가 등 유틸라이제이션 중심의 전통적 방법론.
- RED Method: Rate(초당 요청 수), Error(에러 빈도), Duration(응답 속도)를 측정하며 애플리케이션 개발자에게 더 중요함.
- 4 Golden Signals: Latency, Traffic, Error, Saturation 네 가지 핵심 시그널을 통해 시스템 골든 시그널을 놓치지 않도록 함.
- SRE 책에서 분산 시스템 모니터링 섹터에 나온 4 골든 시그널을 잘봐야 시스템에 골든 시그널을 안놓칠 수있다고 한다.
Saturation : 초과 되거나, 큐잉되는 정도
- 효율적인 얼럿시스템이 될려면 , 노말상태를 평상시에 잘 관리해두는 것부터 출발
- CPU Limit 해제에 따른 노드 모니터링 보강
3. 당근마켓 SRE 밋업 : AlertDelivery: grafana를 활용한 효율적인 알림 시스템 구축
https://youtu.be/poPZvLi0O08?si=Q5ekfFHz58MGNFL2
맺음말: 내 생각 정리 및 실생활 적용
사내 확인 해볼것들
- 우리는 http 몇 rps 지?
- MAU 는 몇일까?
그라파나 대시보드에
- pod restart reason
- Probe failed
등을 표시하면 좋겠다.