장애가 났는데 30분 후에 알게 되면 이미 매출 손실. 5분 안에 알람 받는 시스템 구축법. 25년 경력 회사 가이드.
3계층 모니터링
1. 인프라 (서버·DB)
- CPU·메모리·디스크·네트워크
- Grafana + Prometheus 또는 Uptime Kuma
- 임계점 (CPU 80%, 메모리 90%, 디스크 85%)
2. 애플리케이션 (PHP·DB)
- PHP 에러 로그 (Sentry·Bugsnag)
- DB slow query 1초 이상
- API 응답 시간 분포
3. 사용자 경험
- Real User Monitoring (Cloudflare RUM)
- JS 에러 (Sentry)
- 전환 funnel 이탈
알람 채널
| 심각도 |
채널 |
| 치명적 (사이트 다운) |
SMS·전화 |
| 주요 (속도 저하) |
카카오톡·슬랙 |
| 경고 (디스크·메모리) |
이메일 |
로그 보존
- Apache·nginx 액세스 로그 — 90일
- 에러 로그 — 1년
- 보안 로그 — 3년 (법령)
- 오프사이트 백업 (S3·BackBlaze)
모니터링 시스템 구축 무료 진단. 상담.