2024/09/19

, ,

PikPak, 데이터센터 화재로 인한 복구 현황

PikPak, 데이터센터 화재로 인한 복구 현황

싱가포르 알리바바 클라우드 데이터센터 화재

아는 사람은 다 알겠지만, 지난 9월 10일 일어난 싱가포르 알리바바 클라우드 데이터센터 (해당 데이터센터는 Toutiao, Steam, Alibaba, Lazada(동남아시아 쇼핑 웹사이트), Cloudflare 등 많은 회사에서 사용 중) 화재로 인해 현재 PikPak 서비스를 정상적으로 사용할 수가 없다. 픽팍으로선 불가항력 문제라 복구될 때까지 기다릴 수밖에 없는데, 일단 현재 알리바바에서 발표한 복구 현황은 다음과 같다. 수시로 업데이트되고 있으니 자세한 것은 아래 출처 링크를 확인.

픽팍은 ‘고가용성 버전’이 아닌 ‘일반 가용성 버전’을 사용 중인 것으로 여겨진다. 고가용성 같은 경우 보통 마스터/슬레이브로 클러스터가 구성되어 있어 이번 사고처럼 마스터 서버가 사용할 수 없을 때 (마스터와 실시간 동기화되어 있는) 슬레이브 서버로 대체되어 사용자는 지속해서 서비스를 사용할 수 있다. 하지만, 가격이 비싸다는 것.

참고로 PikPak은 스토리지는 알리바바 클라우드, 스트리밍(PCDN) 및 클라우드 다운로드(오프라인 다운로드)는 쉰레이(썬더) 서비스를 이용하는 것으로 여겨진다.

복구 현황에 대한 개인적 경험

2024/09/19: 이번 데이터센터 화재로 일부 자료가 손실될 것이라는 염려가 있는데, 화재 직후 다운로드 및 재생이 안 되던 자료가 지금 원활하게 이용이 가능한 것으로 보아 생각보다 복구가 빠르게 진행되는 것으로 보인다.

보상과 관련한 이메일 문의


2024/09/19: 텔레그램 픽팍 공식 채널에 올라온 보상과 관련한 이메일 문의 내용.

안녕하세요. 저희가 이용하고 있는 Alibaba Cloud Singapore 서비스에 화재가 발생했습니다.

문제가 해결되면 서비스가 정상으로 돌아옵니다.

서비스 이상으로 인해 손실된 프리미엄 일수를 보상해 드리며, 자세한 내용은 서비스 복구 후 공지사항을 확인해 주시기 바랍니다.

감사해요,
PikPak팀

출처: 「[Exception (In Process)]Fire incident in Singapore Availability Zone C Data Center

[진행 상황 업데이트] 2024년 9월 16일(베이징 시각), 영향을 받은 하드웨어 및 기계의 마이그레이션 및 복구가 계획대로 진행 중이며, 나머지 영향을 받은 클라우드 제품은 점진적으로 복구되고 있습니다. 영향을 받은 일부 하드웨어 및 기계는 접근이 허용되지 않는 건물의 위험하고 차단된 구역에 위치하고 있으며, 일부 하드웨어 및 기계는 데이터 보안을 보장하기 위해 주의 깊게 건조해야 하므로 일부 롱테일 기계 및 인벤토리의 복구에는 시간이 더 오래 걸릴 수 있습니다. 복구 상태에 대한 자세한 내용은 당사에 문의하세요.

[진행 상황 업데이트] 2024년 9월 14일 오후 7시(베이징 시각) 기준 일부 마이그레이션 장비는 장비 건조, 배선, 전원 켜기, 검증, 디버깅 등 설치를 위한 필수 준비 작업을 진행하고 있습니다.

[진행 상황 업데이트] 2024년 9월 13일 오후 6시 30분(베이징 시각) 기준 1층의 하드웨어 장비가 현재 안전하게 마이그레이션 중입니다. 운영 및 유지보수 엔지니어는 2층에 입장하여 평가를 진행할 수 있는 권한이 부여되었습니다. 보호 조치를 시행한 후 2층 장비에 대한 안전 마이그레이션이 시작됩니다.

[진행 상황 업데이트] 2024년 9월 12일 오후 5시 25분(베이징 시각) 기준 운영 및 유지보수 엔지니어가 건물 1층 구역에 입장하는 권한을 얻었습니다. 현재 안전 마이그레이션을 위한 조건을 평가하는 중이며 하드웨어 장비에 대한 응급 보호를 수행하고 있습니다.

[진행 상황 업데이트] 2024년 9월 11일 오후 8시 23분(베이징 시각) 기준 소방서에서 여전히 현장의 안전 리스크를 처리하고 있으며 운영 및 유지보수 엔지니어가 서버 빌딩에 입장할 수 있는 권한을 기다리고 있습니다. 현장 평가를 통해 물리적 조건이 현장에서 서비스를 복원하기에 적합하지 않다고 결정되면 응급 대응팀이 서버 장비 마이그레이션 복구 계획을 시행합니다.

[진행 상황 업데이트] 2024년 9월 11일 이른 아침 기준으로 네트워크 문제로 인해 영향을 받은 거의 모든 클라우드 제품 서비스가 정상적으로 복구되었습니다. 정전 서버 실에 있는 나머지 서비스는 복구를 위한 물리적 조건을 여전히 기다리고 있습니다. 2024년 9월 11일 20:23 기준으로 소방서는 여전히 현장의 안전 위험을 해결하고 있으며, 운영 및 유지보수 엔지니어는 서버 빌딩에 입장하기 위한 허가를 기다리고 있습니다. 현장 평가에서 물리적 조건이 현장의 서비스를 복구하는 데 적합하지 않다고 판단될 경우, 비상 대응 팀이 서버 장비 이전 복구 계획을 실행할 것입니다.

[진행 상황 업데이트] 01:46 현재 지역 소방서의 요청에 따라 화재 진압을 위한 물 분사가 지속되어 서버실에 물이 쌓이고 누수가 발생하여 전기 단락의 위험이 있습니다. 싱가포르 가용성 영역 C의 서버 빌딩 중 한 곳에 비상 정전이 적용되었으며, 가용성 영역 C의 다른 건물에 대한 네트워크 서비스는 점차 복구되었습니다.

[진행 상황 업데이트] 20:04 현재 화재 경보가 모두 해제되지 않았습니다. 화재 안전 통제로 운영 및 유지보수 엔지니어는 데이터센터가 위치한 건물에 들어갈 수 없으며, 당분간 데이터센터의 지속적인 온도 상승 위험을 제거할 수 없습니다. 현재 데이터센터의 일부 네트워크 장비는 고온 환경에서 이상을 보이며 이에 따라 일부 클라우드 제품의 네트워크 연결에 영향을 줍니다. 이후 온도 상승을 효과적으로 통제하지 못하면 싱가포르 가용성 영역 C의 네트워크가 완전히 중단될 가능성이 커집니다. 귀사의 비즈니스가 싱가포르 가용성 영역 C에 배포된 경우, 가능한 한 빨리 비즈니스 이전을 지원해 드리겠습니다.

[진행 상황 업데이트] 14:40 현재 영향을 받은 데이터센터의 화재 상황은 기본적으로 통제되었지만 시설 내 온도가 여전히 높습니다. 일부 Object Storage Service(OSS), 데이터베이스 및 기타 제품의 단일 가용성 영역(AZ) 버전은 영향을 받은 물리적 캐비닛이 재시작 조건이 갖추어지면 복원됩니다. 나머지 클라우드 제품의 고가용성 버전은 모두 사전 마이그레이션을 완료했습니다.

[진행 상황 업데이트] 제품 스케줄링 전략에 따라 12:15 현재 MaxCompute는 재해 복구를 성공적으로 완료했습니다.

[진행 상황 업데이트] 제품 스케줄링 전략에 따라 11:30 현재 Cloud Database Redis/MongoDB/RDS MySQL, OSS, OTS와 같은 클라우드 제품의 고가용성 버전은 재해 복구를 성공적으로 완료했습니다.

[진행 상황 업데이트] 이러한 이상은 싱가포르 데이터센터에서 리튬 배터리가 폭발하여 화재와 고온을 초래한 것으로 인해 발생했습니다. 소방관들이 현장에 도착하여 상황을 처리했습니다. 대부분의 클라우드 네트워크 제품과 클라우드 보안 제품은 10:55에 선제적 전환을 완료했습니다. 기타 클라우드 제품 서비스는 여전히 처리 중입니다. 가능한 한 빨리 프로덕션 워크로드를 마이그레이션하세요.

2024년 9월 10일 오전 10시 20분(베이징 시각)에 Alibaba Cloud 모니터링에서는 싱가포르 지역의 가용성 영역 C에서 네트워크 액세스 이상을 감지하였으며, 이에 따라 일부 클라우드 서비스가 비정상적으로 작동했습니다. 현재 Alibaba Cloud 엔지니어가 이 문제를 처리하고 있습니다. 궁금한 사항이 있으시면 언제든지 문의해 주세요.

비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다

Share:

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요