1. 장애 배경

  • 테크리드가 새로 옴. 그는 허수아비 이고 그 뒤의 PM이 팀원, 인사, 기술까지 모든 것을 결정
  • 테크리드는 거의 매일 음주 상태로 근태가 매우 불량했음 
  • 잘 관리되던 클라우드를 버리고, 온프레미스 환경을 새로 구축해 보안이 부실한 채로 서비스 중
  • MSA 방식에서 모놀리스로 전체 시스템 구조를 변경
  • 거버넌스 및 시스템 모두 SPOF(Single Point of Failure) 환경으로, 장애 발생 가능성이 높았던 상태
  • 버그가 많은 코드가 메인브랜치에 리뷰없이 Merge 되고 전략없이 배포되는 부실한 개발 프로세스
  • 시스템에는 기술부채가 한 없이 누적되고 있었고, 자원 낭비, 메모리 누수 등 상태 심각

 

2. 장애 및 대응

  • 테크리드가 상상속의 버그를 임의 수정한 핫픽스를 PR 리뷰, QA 없이 바로 프로덕션에 배포
  • 장애 발생. 고객들 서비스 센터로 몰려가 복구 요청
  • 테크리드는 장애 상황에서 장애 대응, 운영팀의 시스템 접근을 고의적으로 방해
  • 장애 발생 3시쯤 후에, 장애 대응팀이 간신히 시스템 롤백 진행
  • 일단 롤백 후, 그럭저럭 서비스가 도는 상태까지 10일 이상 소요, 전사적 매출 급감

3. 장애 복구 방해 상황

  • 서비스 장애 발생 후에도 PM과 테크리드는 문제 해결 보다는 “설계 의도”라는 변명만 하고 있음
  • 심지어 요구사항에 없는 새로운 코드를 푸시하려는 시도도 포착됨
  • 일단 장애 대응팀이 그 팀의 추가적인 배포는 차단한 상태
  • 로그를 확인하고 원인 분석을 해야 하는데 서버 암호를 임의로 변경함
  • 서버실 비번도 변경하여 물리적인 서버에의 접근도  불가
  • 테크리드의 private repo로 코드를 fork 한 뒤, 메인 repo는 삭제하여 코드 접근도 불가
  • 테크리드와 PM은 '일단 서비스가 돌고 있으니 뭐가 문제냐'라고 우기는 중
  • 여차하면 서버실 전원을 차단하여 전체 시스템을 꺼버리겠다고 협박하는 중

4. 책임자 처리 현황

  • 징계위에 회부하여 이번 장애 사태의 주동자들 파면 절차에 들어감
  • 사태 주동자들은 이런 저런 이유와 절차적 문제 제기로 징계 절차를 최대한 지연 시키는 중
  • 새로운 조직을 구성하여 개발 및 배포 프로세스를 정비하려고 하나 상당한 시일 소요 예정

5. 사후 대책 (예정)

  • 잘못된 코드는 폐기 후 재작성, 사용 가능한 코드는 철저히 리팩터링.
  • 단순 엔드유저를 넘어 사용자가 서비스의 프로덕트 오너 역할을 수행할 필요

한 줄 요약:

  • 이번 사태는 국가라는 플랫폼의 리더십 실패와 운영 미숙으로 인한 최악의 장애 사례로 시스템 전반의 구조적 개선과 국민의 적극적인 참여가 필수적

*

반응형

'나라 이야기' 카테고리의 다른 글

이해민 의원 후원  (0) 2024.07.17
잼버리, 회고를 하자.  (2) 2023.08.12
기여금 입학 허용  (0) 2023.06.22
수능과 대입  (0) 2023.06.22
디지털새싹 캠프 회고 간담회  (5) 2023.03.19
Posted by hl1itj
,