반응형
2012년 Netflix 서비스가 중단되는 사태가 발생하였습니다. 크리스마스이브에 발생한 사고입니다. 크리스마스 시즌이라서 가장 활발한 유입이 예상되던 시기였기에 Netflix 입장에서는 치명적인 사고로 기억될 것입니다.
서비스 중단의 원인은 당시 Netflix 서비스를 제공하던 AWS(Amazon Web Services)의 장애 때문이었습니다. 한 곳의 AWS 존(Zone)에서 Netflix 서비스를 제공한 것이 원인이었습니다. 해당 존에서 발생한 장애는 Netflix 서비스를 통째로 마비시켰던 것입니다. 이렇게 하나의 장애가 전체의 장애를 초래하는 것을 Single Point Of Failure라고 합니다.
아무리 훌륭한 서비스라도 중단된다면 고객의 신뢰를 잃게 됩니다. Netflix는 이때의 경험을 통해 여러 개의 존에서 서비스를 제공하도록 개선하였습니다. 이렇게 하여 No Single Point Of Failure 서비스를 제공할 수 있게 되었습니다.
No Single Point Of Failure는 일부의 장애가 전체의 장애가 되지 않도록 구성하는 것을 말합니다. 카산드라(Cassandra)와 같이 많은 수의 서버(노드)로 구성된 시스템의 경우 No Single Point Of Failure를 구현하지 않으면 치명적인 사고를 방치하는 것과 같습니다. 카산드라는 아래 그림처럼 여러 노드 중 일부에서 장애가 발생하더라도 전체의 장애로 확대되지 않습니다.
반응형
'NoSQL' 카테고리의 다른 글
CAP 원칙 (0) | 2020.08.18 |
---|---|
Scalability (1) | 2020.08.10 |
NoSQL, Column Family (0) | 2020.08.10 |
NoSQL, Document (0) | 2020.08.10 |
NoSQL, Key: Value (0) | 2020.08.10 |