본문 바로가기
자격증/정보처리기사

[시사] 카카오를 데이터 센터 화재 (RPO, RTO, 재해복구 설비) 를 통한 정보처리기사 개념 공부

by 말린밴댕이_공부 2022. 11. 10.
반응형

시사를 통한 다음 정보처리기사 기출 예상 입니다.

빨간 글씨가 시험에 나오지 않을까 싶습니다.

 

지난 10월 15일 성남시에 있는 sk판교 캠퍼스에 불이 나면서 카카오가 아주 먹통이 일어났었다.

 

네이버도 같이 불이 났지만 신속하게 해결했던 상황을 볼 수 있었다.

 

데이터 센터가 한곳이 불이 났다는 것이 정말 말이 되는건가 싶었다.

물론 조금의 시간이 지체될 수 있었지만 이틀이나 지속되는것은 그리고 아직 3일이 지난 티스토리의 pc복구는 되지 않는 카카오의 모습을 볼 수 있다.

 

우리는 이러한 시사적으로 가장 3일간 화두가 된 이것들이 내년 기출문제에 나올거라고 예상할 수 있다.

 

데이터를 보관하고 처리하는 데이터센터와 인터넷 센터가 자연재해와 재난으로부터 보호해주는 시스템은 어디갔나 싶다.

 

네이버는 자체 데이터센터가 있어서 즉시 문제가 생기니까 failover(장애 극복 기능) 데이터와 서비스를 즉시 옮기는 것을 볼 수 있다.

 

failover (장애 극복 기능) : 컴퓨터 서버, 시스템, 네트워크 등에서 이상이 생겼을때 시스템을 자동전환하는 기능 

 

데이터 센터 사고중에 대표적으로 구글에서도 화재가 일어나 유튜브를 요번년도 초반에 잠시 사용을 했었던것을 기억해보자. 그들은 20~30분내외로 신속하게 처리를 했던 모습을 기억할것이다.

 

데이터베이스의 이중화 삼중화가 이렇게 안해놨다는건가? 싶을정도로 문어 다발식에 정말 당황스럽다.

*데이터 베이스 이중화

: 시스템 오류로 인한 데이터베이스 서비스 중단이나 물리적 손상 발생시 이를 복구하기 위해 동일한 데이터베이스를 복제해 관리하는 것

 

그럼 카카오는 이중화를 안해놨을거냐? 당연히 이런 이중화 삼중화를 해놨을 것이다.

데이터 센터에 문제가 생겨서 프라이빗 클라우드의 문제가 생긴것이라고 생각한다.

우리가 카카오가 안될때 평소보다 더 많이 사용하질 않았다고 생각하지 않았나? 계속 시도해보고 들어가고 평소보다 확인하는 빈도수가 더 많이 늘게 되가지고 트래픽이 몰려 다른 옮기 서버도 과부하에 걸려 문제가 생기지 않았을까? 라는 추측을 한번 해보기도 한다.

데이터베이스의 이원화 하는 고가용성 즉, 특정 서버에 장애가 생겼을때 다른 서버가 이를 받아 서비스를 계속하는 이 메커니즘은 왜 안되었을까?

그것은 바로 데이터 센터의 전체적인 화재로 인해서 HA로 해결 할 수 없는 일이라고 판단한다.

 

*HA (고가용성, High Availability)

:  예상대로 장기간 동안 지속적으로 작동하는 시스템 또는 구성요소를 나타냄 

*DR(재해 복구, Disaster Recovery)

: 자연재해나 인재 발생 시 주요 인프라 및 시스템의 복구 또는 지속성을 가능하게 하는 일련의 정책과 절차를 포함

 

그럼 우리는 DR 즉, 다른 지역에 천재지변을 하지 않았을것인가? 라는 추측을 하게 된다.

카카오 측에서 판교 데이터 센터에 대해서 이원화를 했다고 말을 하였지만 그것이 HA인지 DR인지에 대해서는 명쾌한 말씀이 없으셨다.

이러한 화재가 났을때 보조 센터에서 대부분이 오류가 해결을 하게 되는 상황을 왜 만들지 않았을까.. 싶기도 한다.

반면에 너무 부정적인 시선으로만 바라만 볼 수는 없다.(물론 필자는 열받긴 한다.)

카카오처럼 무료로 제공하는 시스템에서 데이터센터를 그대로 복제를 하게 된다면 그만큼의 비용은 N배로 늘어나기 때문에 그럴 수 있다고 생각하긴 개뿔 열받긴한다.

 

 

 

 

우리는 재해복구 설비를 크기 네가지로 나눌 수 있다.

구분 설명 RTO
미러사이트(Mirror Site) 업무 환경과 거의 동일한 환경으로 동기화되고 있거나, 함께 보조적으로 운영된다. 수 분 이내
핫 사이트(Hot site) 재난 발생으로 영향을 받는 업무 기능을 즉시 복구할 수 있도록 전산센터와 동일한 모든 설비와 자원을 보유하고 있다. 4시간 이내
웜 사이트(Warm Site) 부분적으로 설비를 가지고 있는 백업 사이트로서, 대개 디스크 드라이브, 테이프 드라이브와 같이 가격이 저렴한 주변기기를 가지고 있으나, 주 컴퓨터는 가지고 있지 않다. 수일 이내
콜드 사이트(Warm Site) 재난 발생시 새로운 컴퓨터를 설치할 수 있는 컴퓨터실을 미리 준비해 둔 것으로서 전기, 냉방, 공간 정도만 마련되어 있으며 별다른 전산 장비는 가지고 있지 않다. 수주 ~ 1개월

RTO (목표 복구 시간, Recovery Time Object)

: 시스템이 얼마나 빨리 복구가 되는지 서비스가 재개될때까지 걸리는 시간 목표 지칭하는 용어

RPO (복구 시점 목표, Recovery Point Object)

: 재해로 인하여 중단된 서비스를 복구하였을 때, 유실을 감내할 수 있는 데이터의 손실 허용시점 

 

이러한 사태가 일어난 기업이든 일어나지 않은 기업이든 모두 이러한 실수를 반복되지 않도록 법을 만들고 장기적으로 해결해나야 하는 과제라고 생각한다.

반응형

댓글