주 메뉴 바로가기 본문 내용 바로가기

재해복구시스템의 중요성

아크데이타 고광연 대표이사

데이터센터 리스크 정의

데이터센터는 서버, 스토리지, 네트워크 등 기업의 IT환경을 지원하는 고성능 전자 시스템을 보관하는 장소로 적절하게 관리되지 않을 경우 데이터 손실의 위험은 물론 직원 및 건물에 심각한 물리적 위해를 초래함

- 데이터센터의 리스크는 크게 세가지로 분류됨

  1. 외부 위험 : 외부 위험은 데이터 센터의 통제 밖에 있는 리스크로 자연 재해나 전기공급 등의 외부 요인으로 인한 운영 중단을 말하며 사용자 실수로 인한 장애가 포함됨
  2. 시설 위험 : 시설 위험은 데이터센터 시설 자체와 관련된 인프라 리스크로 크게 전력, 누수, 온도, 화재, 통신, 보안, 시설 구조 7가지로 분류됨
  3. 데이터시스템 결함 : 네트워크 통신중단, 바이러스 발생, 서버 통신 오류 등 데이터 시스템에 문제가 생기는 리스크로 데이터시스템 관리의 위험을 말함

외부 리스크
시설 리스크
데이터 시스템 리스크
자연 재해
전력
네트워크
운영 중단
누수
서버장애
사용자 실수
온도 / 기후
바이러스
시민 장애 (테러 등)
화재
소프트웨어 장애
 
통신
 
 
보안
 
 
시설 구조
 

데이터센터 리스크로 인한 국내외 재난(피해 사례)

 

2001년 9.11테러로 인한 세계무역센터 붕괴 사건

재해복구시스템 (Disater Recovey, 이하 DR)을 구축을 해 놓은 기업과 아닌 기업의 차이가 극명하게 들어나 전 세계적으로 DR의 중요성을 부각시킨 사고

모건스텐리의 경우 세계무역센터를 본사로 주 전산시스템 역시 이곳에 위치하여 피해가 극심할 것으로 예상했지만 원거리에 위치한 재해복구시스템을 즉각적으로 가동하여 24시간 이내에 본사를 제외한 전세계업무를 재개하여 피해를 줄임

반면 위기관리 시스템기반의 재해복구 체계를 갖추지 못했거나 미흡했던 150여 개의 기업들은 순차로 도산해 그 피해액이 무려 1200억 달러에 육박함

IT 인프라 관점에서 DR 시스템이 얼마나 큰 역할을 수행하는지 증명한 대표적인 사건

 

붕괴되고 있는 세계무역센터 (출처 : AP통신)

 

카카오 판교 데이터센터 화재

2022년 10월 카카오 서버가 입주해 있는 판교 소재의 SK주식회사 C&C의 데이터센터 화재로 서버 3만 2천여대가 피해를 입으며 카카오 플랫폼의 상당수 서비스가 중단됨

화재의 원인은 전기실 내 배터리 또는 랙(선반) 주변의 ‘전기적인 요인에 의한 발화’인 것으로 추정

화재는 약 8시간만에 진화되었으며 사고로 인해 카카오가 추산한 공식적인 서비스 장애시간은 총 127시간30분(5일7시간30분)으로 유료 서비스 피해 보상액 규모만 400억여원을 넘을 것으로 추산됨

카카오의 경우 재해복구, 데이터 원격지 소산, 업무 연속성 계획(BCP)에 대한 기본적인 이해 가 부족하여 사고 피해가 더 커져 다시 한번 DR시스템의 중요성과 필요성을 보여준 사례임

 

데이터센터 리스크 회피 방법

  • - HA (High Availability) 구축
    고가용성(HA, High Availability)이란 문자 그대로 "가용성이 높다"는 뜻으로 "고장 나지 않음"을 의미함
    여기서 말하는 가용성이란 가용 가능한 시간의 비율을 99.999% 사용 가능하게 하는, 즉 전산 시스템으로 하면 1년에 5분 15초 이하의 장애시간만을 허용하는 매우 높은 수준의 고품질 시스템을 말함
    즉 HA는 완전한 시스템의 설계를 통해 장애상태를 만들지 않도록 하여 오랜 기간동안 지속적으로 정상운영이 가능하게 하는 것을 목표로 함
    이런 높은 수준의 가용성을 보장하기 위해 DR 또는 Clustering 구축, Failover solution의 도입과 데이터백업 및 복제가 요구됨

  • - 재해복구시스템 (DR)구축
    DR은 각종 재해 및 위험요소에 의해 정보시스템이 중단됐을 때 이를 정상으로 회복시키는 것을 의미
    여기서 말하는 재해란 지진, 화재, 홍수 등 자연재해는 물론 통신장애, 기계적 결함, 사용자의 실수 같은 내, 외부적 요인에 의한 장애를 통틀어 말함
    예기치 못한 사고가 생길 경우를 대비하여 원격지에 별도로 전산센터를 두어 데이터 등 정보자산을 보호하고, 재해가 발생하면 즉각적으로 주전산센터를 대체하여 빠르게 서비스를 재개하여 기업으로 하여금 경영활동을 계속 할 수 있도록 하는 것이 DR의 궁극적인 목적임

  • - 업무지속계획 (Business Continuity Planning, BCP) 수립
    Business Continuity Planning 통칭 BCP라고 불리는 업무지속계획은 재난 발생 시 비즈니스 연속성을 유지하기 위한 방법론으로 9·11 미국 테러 사건 이후 급부상하고 있는 개념임
    재해∙재난으로 정상적인 운용이 어려운 데이터 백업과 같은 단순 복구 뿐 아니라 고객 서비스 지속성 보장, 핵심 업무 기능을 지속하는 환경을 조성해 기업 가치를 최대화하는 것을 말함
    따라서 업무지속계획은 특정 기업, 조직의 업무 환경에 맞도록 구성되어 운영되어야 하며 BCP 수립 시 가장 중요한 점은 기업의 주 사업을 파악하고 중요 데이터를 선별하여 제한된 시간 안에 핵심 업무의 복구가 될 수 있도록 하는 것임. 더 나아가 업무의 연속성을 위협하는 위험요인을 주기적으로 분석하여 위기대응 역량을 강화하는 것이 필요

 

재해복구시스템 구축 트렌드  

원격지에 운영계와 완전히 똑같은 고가의 장비로 아이덴티컬(identical)하게 재해복구시스템을 구축하지 않고 이기종장비 또는 클라우드상에 구축하는 것이 요즘 트랜드임

DR서버를 저비용의 오픈소스 데이터베이스를 활용하면 비용효율적으로 구축이 가능하며 많은 기업들이 선호하고 있음

또한 DR시스템을 조회용 서버로 활용하여 운영서버의 부하를 줄이고 업무 가용성을 높여 사용하기도 함

DR시스템은 이기종 장비 또는 이기종 데이터베이스간의 복제는 물론 클라우드 플랫폼으로 데이터를 복제하여 사용자가 원하는 환경에 구축이 가능함

DR구축시 별도의 회선 증설이 필요하지 않으며 조회 업무 시스템으로 활용이 가능하여 효율적으로 서버운영이 가능함

위로