1. 장애 배경
- 테크리드가 새로 옴. 그는 허수아비 이고 그 뒤의 PM이 팀원, 인사, 기술까지 모든 것을 결정
- 테크리드는 거의 매일 음주 상태로 근태가 매우 불량했음
- 잘 관리되던 클라우드를 버리고, 온프레미스 환경을 새로 구축해 보안이 부실한 채로 서비스 중
- MSA 방식에서 모놀리스로 전체 시스템 구조를 변경
- 거버넌스 및 시스템 모두 SPOF(Single Point of Failure) 환경으로, 장애 발생 가능성이 높았던 상태
- 버그가 많은 코드가 메인브랜치에 리뷰없이 Merge 되고 전략없이 배포되는 부실한 개발 프로세스
- 시스템에는 기술부채가 한 없이 누적되고 있었고, 자원 낭비, 메모리 누수 등 상태 심각
2. 장애 및 대응
- 테크리드가 상상속의 버그를 임의 수정한 핫픽스를 PR 리뷰, QA 없이 바로 프로덕션에 배포
- 장애 발생. 고객들 서비스 센터로 몰려가 복구 요청
- 테크리드는 장애 상황에서 장애 대응, 운영팀의 시스템 접근을 고의적으로 방해
- 장애 발생 3시쯤 후에, 장애 대응팀이 간신히 시스템 롤백 진행
- 일단 롤백 후, 그럭저럭 서비스가 도는 상태까지 10일 이상 소요, 전사적 매출 급감
3. 장애 복구 방해 상황
- 서비스 장애 발생 후에도 PM과 테크리드는 문제 해결 보다는 “설계 의도”라는 변명만 하고 있음
- 심지어 요구사항에 없는 새로운 코드를 푸시하려는 시도도 포착됨
- 일단 장애 대응팀이 그 팀의 추가적인 배포는 차단한 상태
- 로그를 확인하고 원인 분석을 해야 하는데 서버 암호를 임의로 변경함
- 서버실 비번도 변경하여 물리적인 서버에의 접근도 불가
- 테크리드의 private repo로 코드를 fork 한 뒤, 메인 repo는 삭제하여 코드 접근도 불가
- 테크리드와 PM은 '일단 서비스가 돌고 있으니 뭐가 문제냐'라고 우기는 중
- 여차하면 서버실 전원을 차단하여 전체 시스템을 꺼버리겠다고 협박하는 중
4. 책임자 처리 현황
- 징계위에 회부하여 이번 장애 사태의 주동자들 파면 절차에 들어감
- 사태 주동자들은 이런 저런 이유와 절차적 문제 제기로 징계 절차를 최대한 지연 시키는 중
- 새로운 조직을 구성하여 개발 및 배포 프로세스를 정비하려고 하나 상당한 시일 소요 예정
5. 사후 대책 (예정)
- 잘못된 코드는 폐기 후 재작성, 사용 가능한 코드는 철저히 리팩터링.
- 단순 엔드유저를 넘어 사용자가 서비스의 프로덕트 오너 역할을 수행할 필요
한 줄 요약:
- 이번 사태는 국가라는 플랫폼의 리더십 실패와 운영 미숙으로 인한 최악의 장애 사례로 시스템 전반의 구조적 개선과 국민의 적극적인 참여가 필수적
*
반응형
'나라 이야기' 카테고리의 다른 글
이해민 의원 후원 (0) | 2024.07.17 |
---|---|
잼버리, 회고를 하자. (2) | 2023.08.12 |
기여금 입학 허용 (0) | 2023.06.22 |
수능과 대입 (0) | 2023.06.22 |
디지털새싹 캠프 회고 간담회 (5) | 2023.03.19 |