1. 한국 마이크로소프트가 보고한 바에 따르면 19일 오전 6시56분에 클라우드 서비스 '애저'(Azure)에 처음 장애가 발생해 오후 12시 41분에 복구가 완료됐습니다. 이후 같은 날 오후 4시 크라우드스트라이크의 보안 소프트웨어를 최신 버전으로 업데이트하면 블루스크린이 뜨며 PC가 작동을 멈추는 장애가 발생했습니다.
2. 크라우드스트라이크의 '팰컨 센서' 소프트웨어 업데이트와 마이크로소프트 윈도 운영체제가 충돌해 발생한 이번 사고는 세계 최대 IT 장애로 불리고 있습니다. 이로 인해 미국, 유럽 등 주요국에서 항공사부터 은행, 병원, 방송 등 주요 사회 인프라가 중단되는 사고가 발생했습니다. 국내에선 애저와 크라우드스트라이크 사용 비중이 비교적 낮아 10개 기업이 피해를 입었고, 이 중 6개 기업은 복구과 완료된 것으로 조사됐습니다. 허나 신고되지 않은 장애가 더 있을 것으로 추정됩니다.
3. 크라우드스트라이크는 2011년 설립된 미국의 사이버 보안 기업으로, 설립 당시부터 지금까지 클라우드 보안 서비스 사업에 집중해 온 해당 분야의 대표 업체입니다. 회사 측에 따르면 포춘 100대 기업 중 62개 기업이 이 회사의 클라우드 보안 서비스를 사용하고 있고, 전 세계 2만9000개 이상의 고객사를 두고 있습니다. 주요 제품인 '팰컨'은 네트워크에 연결된 노트북, 휴대폰, 단말기 등 다양한 원격 장치 간 연결을 사이버 보안 위협으로부터 보호하는 엔드포인트 보안 솔루션의 대표주자로 손꼽힙니다.
4. 마이크로소프트에 따르면 이번 업데이트 오류로 전 세계 850만대 윈도 디바이스가 영향을 받았고, 이는 전체 윈도 디바이스의 1% 미만에 해당합니다. 마이크로소프트는 "비율은 적지만 광범위한 경제 및 사회적 영향을 가진 중요 서비스를 운영하는 기업에서 크라우드스트라이크를 사용하고 있음을 반영한다"고 전했습니다. 이번 장애 중 일부 시스템은 자동으로 복구되지 않을 수 있어 최소 수일에서 길게는 수주일이 걸릴 것으로 전망되고 있습니다. PC에 장애가 발생한 이용자들은 '안전 모드'에 들어가 문제가 된 업데이트 파일을 직접 삭제해야 합니다.
5. 이번 IT 대란은 보안 사고나 사이버 공격으로 일어난 일이 아니었습니다. 무수히 많은 소프트웨어 공급자들이 상호연결된 클라우드 인프라 내에서 하나의 오류가 얼마나 광범위한 시스템에 영향을 줄 수 있는지 단적으로 보여준 사례로 기록될 전망입니다. 이전부터 소프트웨어 공급망에 대한 보안과 대규모 장애에 있어 시스템 복구 체계에 대한 우려는 계속해서 재기되어 왔던 문제입니다. 이번 대란은 기술 생태계 전반에 걸쳐 안전한 소프트웨어 공급망과 시스템 복원력에 대한 고민을 원점부터 다시 하게 만든 사건입니다.
6. 클라우드는 컴퓨팅 자원과 데이터를 하이퍼스케일 데이터센터에서 중앙집중식으로 관리하는 클라우드는 AI·데이터 시대의 필수 인프라로 자리잡고 있습니다. 처음엔 컴퓨팅 인프라를 필요할 만큼만 저렴하게 빌려쓴다는 개념이었지만, 점차 최신 기술이 빠르게 접목되면서 대량의 데이터를 처리하고 분석하는 데 있어 필수적인 인프라로 자리를 잡았습니다. 특히 막대한 데이터를 초고성능 칩으로 처리해야 하는 AI 시대 클라우드는 결코 빠질 수 없는 필수 인프라로 자리매김하고 있습니다.
7. 이번 대란으로 동네 슈퍼마켓부터 공항과 은행 등 사회 필수 인프라까지 얼마나 광범위하게 마이크로소프트의 영향력이 펼쳐져 있는지 알 수 있었습니다. 이처럼 IT 시스템에서 클라우드에 대한 의존도가 높아지고 있는 가운데, 소수 빅테크가 클라우드 인프라를 지배하는 구조에 대한 우려가 커질 것으로 보입니다. 전 세계 클라우드 시장은 아마존웹서비스(AWS), 마이크로소프트 애저, 구글 클라우드 등 '빅3'가 전체 70%에 가까운 점유율을 보유하고 있습니다. 국내에서도 AWS와 마이크로소프트 애저 사용 비중이 80% 이상입니다.
8. 클라우드는 기업의 데이터를 '남의 손'에 맡긴다는 근본적인 불안감이 존재합니다. 과거에도 클라우드 서비스 장애로 광범위한 서비스 중단이 일어난 경우가 있었지만, 개별 기업이 손 쓸 수 있는 일은 많지 않았습니다. 이번 대란으로 인해 여러 클라우드 서비스 업체를 동시에 사용하는 '멀티 클라우드'와 온프레미스와 퍼블릭 클라우드를 혼용하는 '하이브리드 클라우드', 장애 복구를 위한 시스템 이중화 등 IT 시스템 설계에 대한 기업들의 고민이 커질 것으로 보입니다.
9. 이번 대란 이후 마이크로소프트 윈도 운영체제의 보안 취약성, 크라우드스트라이크의 업데이트 배포 과정의 검증 누락 가능성 등 이슈와 의혹이 계속 이어질 것으로 보입니다. 국내는 상대적으로 주요 기업과 기관의 피해가 적었지만, 앞으로 클라우드 인프라에 대한 의존도가 높아질 경우 어떻게 이런 광범위한 장애에 대응해야 하는지 논의가 필요한 상황입니다.
10. 향후 장애에 대한 보상 문제도 주목됩니다. 이런 장애 사고의 경우 약관상으론 서비스 비용만 보전해주고 피해 보상을 해주지 않는 경우가 대부분입니다. 향후 소송전이 일어날 가능성도 제기됩니다. 또 이번 사고를 계기로 클라우드 서비스 이용 책임과 보상 기준이 되는 '서비스 수준 협약(SLA)' 재검토가 필요하다는 목소리도 나옵니다. |