OpsBR と設計レビューをして、design for failure をシステムに注入しよう
よりよいシステム設計ができることは、健全な運用のためには極めて重要です。それによって、システムは信頼できるものになり、障害にも強くなって発生回数を減らすことができます。
どんなソフトウェアシステムでも、あらゆる箇所が壊れる可能性があります。サーバーは物理的に壊れるし、ネットワークパケットは破損するし、単に再起動しただけでコールドスタートの問題が起きます。 よいシステムとは、設計上障害に強くなっているもので、そのためどんな種類の障害にも対応することができます。Design for failure のベストプラクティスは数多存在しますが、一例としては以下です:
この様なベストプラクティスを学ぶための教材は数多く存在しますが、実際に本物のシステムに適応するのはとても難しいです。 OpsBR は高い可用性をもつシステムについて学び経験し続けていて、何がうまく行って何がうまく行かないのかを知っています。皆さんの既存のシステムや新しいシステムの設計を OpsBR とレビューすることで、 運用の基準を基礎から引き上げることができるでしょう。