클라우드플레어, 네트워크 장애 원인 밝히고 재발 방지 대책 발표
클라우드플레어는 지난 18일 발생한 대규모 네트워크 장애의 원인이 사이버 공격이 아닌 데이터베이스 시스템 권한 변경 때문이라고 밝혔다.
해당 장애로 인해 챗GPT, 구글, 유튜브, 엑스 등 다수의 서비스가 접속 장애를 겪었다. 클라우드플레어는 오류 보고서 발표와 더불어 사용자 생성 입력 방식 개선 및 킬 스위치 활성화 등 재발 방지 대책을 마련하겠다고 전했다.
클라우드플레어는 전 세계 인터넷 트래픽의 약 5분의 1을 처리하는 기업으로, 이번 장애는 인터넷 생태계 전반에 영향을 미쳤다.
매튜 프린스 클라우드플레어 최고경영자(CEO)는 자사 블로그를 통해 장애 발생 현황을 공개하며, 문제 해결 과정을 설명했다.
장애는 세계협정시(UTC) 기준 오전 11시 20분(한국 시간 오후 8시 20분)에 시작되었으며, 핵심 트래픽 대부분은 오후 2시 30분(한국 시간 오후 11시 30분)에 복구되었다. 모든 서비스는 오후 5시 6분(한국 시간 익일 오전 2시 6분)에 완전히 복구되었다.
프린스 CEO는 "데이터베이스 시스템 권한 중 하나가 변경됐다"라며, "데이터베이스가 관리 시스템에서 사용하는 기능 파일에 여러 항목을 출력하면서 문제가 발생했다"고 설명했다. 또한 "문제를 파악 후 이전 버전 파일로 대체해 현재는 핵심 트래픽이 정상적으로 처리되고 있다"고 덧붙였다.
클라우드플레어는 이번 장애로 인해 불편을 겪은 사용자들에게 사과하며, 재발 방지를 위한 구체적인 대책을 발표했다. 사용자 생성 입력 방식 개선을 통해 시스템의 안정성을 높이고, 글로벌 킬 스위치를 활성화하여 긴급 상황 발생 시 신속하게 대응할 수 있도록 하겠다는 계획이다.
클라우드플레어는 또한 오류 보고서를 발표하여 시스템 과부하를 방지하고, 높은 복원력을 갖춘 시스템 구축을 통해 장애 발생 시에도 트래픽이 원활하게 작동하도록 보장하겠다고 밝혔다.
프린스 CEO는 "2019년 이후 또다시 최악의 서비스 중단이 발생했다"라며, 앞으로 더욱 안정적인 서비스를 제공하기 위해 노력하겠다고 강조했다.
