쉽게 살 수 있을까 ? :: 내란 사태의 판교식 요약

내란 사태의 판교식 요약

나라 이야기 2024. 12. 19. 00:45

1. 장애 배경

테크리드가 새로 옴. 그는 허수아비 이고 그 뒤의 PM이 팀원, 인사, 기술까지 모든 것을 결정
테크리드는 거의 매일 음주 상태로 근태가 매우 불량했음
잘 관리되던 클라우드를 버리고, 온프레미스 환경을 새로 구축해 보안이 부실한 채로 서비스 중
MSA 방식에서 모놀리스로 전체 시스템 구조를 변경
거버넌스 및 시스템 모두 SPOF(Single Point of Failure) 환경으로, 장애 발생 가능성이 높았던 상태
버그가 많은 코드가 메인브랜치에 리뷰없이 Merge 되고 전략없이 배포되는 부실한 개발 프로세스
시스템에는 기술부채가 한 없이 누적되고 있었고, 자원 낭비, 메모리 누수 등 상태 심각

2. 장애 및 대응

테크리드가 상상속의 버그를 임의 수정한 핫픽스를 PR 리뷰, QA 없이 바로 프로덕션에 배포
장애 발생. 고객들 서비스 센터로 몰려가 복구 요청
테크리드는 장애 상황에서 장애 대응, 운영팀의 시스템 접근을 고의적으로 방해
장애 발생 3시쯤 후에, 장애 대응팀이 간신히 시스템 롤백 진행
일단 롤백 후, 그럭저럭 서비스가 도는 상태까지 10일 이상 소요, 전사적 매출 급감

3. 장애 복구 방해 상황

서비스 장애 발생 후에도 PM과 테크리드는 문제 해결 보다는 “설계 의도”라는 변명만 하고 있음
심지어 요구사항에 없는 새로운 코드를 푸시하려는 시도도 포착됨
일단 장애 대응팀이 그 팀의 추가적인 배포는 차단한 상태
로그를 확인하고 원인 분석을 해야 하는데 서버 암호를 임의로 변경함
서버실 비번도 변경하여 물리적인 서버에의 접근도 불가
테크리드의 private repo로 코드를 fork 한 뒤, 메인 repo는 삭제하여 코드 접근도 불가
테크리드와 PM은 '일단 서비스가 돌고 있으니 뭐가 문제냐'라고 우기는 중
여차하면 서버실 전원을 차단하여 전체 시스템을 꺼버리겠다고 협박하는 중

4. 책임자 처리 현황

징계위에 회부하여 이번 장애 사태의 주동자들 파면 절차에 들어감
사태 주동자들은 이런 저런 이유와 절차적 문제 제기로 징계 절차를 최대한 지연 시키는 중
새로운 조직을 구성하여 개발 및 배포 프로세스를 정비하려고 하나 상당한 시일 소요 예정

5. 사후 대책 (예정)

잘못된 코드는 폐기 후 재작성, 사용 가능한 코드는 철저히 리팩터링.
단순 엔드유저를 넘어 사용자가 서비스의 프로덕트 오너 역할을 수행할 필요

한 줄 요약:

이번 사태는 국가라는 플랫폼의 리더십 실패와 운영 미숙으로 인한 최악의 장애 사례로 시스템 전반의 구조적 개선과 국민의 적극적인 참여가 필수적

*

저작자표시 비영리 변경금지

'나라 이야기' 카테고리의 다른 글

이해민 의원 후원 (0)	2024.07.17
잼버리, 회고를 하자. (2)	2023.08.12
기여금 입학 허용 (0)	2023.06.22
수능과 대입 (0)	2023.06.22
디지털새싹 캠프 회고 간담회 (5)	2023.03.19

Posted by hl1itj

,

티스토리툴바