オブザーバビリティ導入の判断基準 — 規模ではなく複雑性×事業損失で決める

オブザーバビリティ導入の判断基準 — 規模ではなく複雑性×事業損失で決める

この記事の要点

  • 導入の判断軸は規模ではなく複雑性×事業損失
  • コストはホスト・データ量・保持・ユーザの複数軸で同時に効く。制御点は収集の段にある
  • 人手が限られる組織は自前運用よりマネージドが合う場面が多い

オブザーバビリティの必要性を語るとき、大企業のものという通念がつきまとう。本稿では、その通念を疑うところから始める。判断軸は会社の規模ではない。システムの複雑性と、止まったとき遅くなったときに事業がいくら失うか、その掛け算だ。

判断軸は規模ではない

規模の代わりに見るべき軸は四つある。どれも規模とゆるく相関するが、規模そのものではない。

必要性が高い側低い側
システムの複雑性分散・マイクロサービス・クラウドネイティブ単一の塊・少数サーバ
停止や劣化の事業損失売上やUXに直結社内利用・止まっても猶予がある
変更の頻度一日に何度もデプロイ数か月に一度しか変えない
障害を誰が直すか少人数で長時間の調査に耐えられない詳しい人が常駐し障害を把握

オブザーバビリティの必要性を判断する四つの軸

これらが右側に寄るほど、事前に作った画面では追いつかなくなり、後から問い直せる性質が要る。規模はこの四軸を間接的に押し上げるだけで、本体ではない。売上直結のサービスを動かす小さな会社は、社内向けの塊を動かす大企業より切実に必要とする。

中小企業に必要か — 要る中小と後回しでよい中小

関係ない、ではなく、要る中小と後回しでよい中小に分かれる。

状況判断
売上直結のオンラインサービスを運営している規模を問わず要る
クラウドネイティブ・分散構成で動いている要る。複雑性が監視の限界を超える
少人数で長時間の障害調査に人を割けない要る。むしろ大企業より切実
単一の塊・社内利用・停止の損失が小さい後回しでよい
詳しい担当が障害パターンを把握している当面は人で回せる。属人化のリスクは残る

少人数の中小ほど、調査を人力で押し切れないという意味で、自動で問いを立て直せる仕組みの恩恵が大きい。大企業のものという通念は、むしろ逆を向いている。人手の余裕がない側ほど効く。

コストの罠 — 課金の構造と制御点

投資判断で最も見落とされるのがコストの構造だ。なぜ膨らむのかは、テレメトリが流れる構成を追うと具体的に見える。

テレメトリのパイプラインと各段の課金・制御点

テレメトリは、発生源から収集を経て、取り込み、保存・保持、クエリへと流れる。課金はこの各段で別々に効く。発生源ではホスト数で課金され、自動スケールでホストが増えればそのまま増える。取り込みではデータ量で課金される。保存・保持では、保持期間と保持するデータのカーディナリティで効く。クエリではユーザ数やクエリ回数で課金されることもある。ホスト、データ量、保持、ユーザという複数の軸が同時に効くから、入口の見積りが当てにならない。

なぜ高カーディナリティがコストに効くのか。カーディナリティとは、ある次元が取りうる値の種類の多さだ。値の種類が多い次元をラベルに付けると、時系列の組み合わせが掛け算で増える。

たとえば応答時間という一つのメトリクスに、ホスト100、エンドポイント50、顧客ID200というラベルを付けると、100×50×200で100万の時系列が生まれる。顧客IDのような種類の多い次元を一つ足すだけで、時系列が桁違いに増え、保存量と請求が跳ねる。やっかいなのは、障害調査ではこの顧客IDのような高カーディナリティの軸こそが必要になる点だ。必要だが、放置すればコストを爆発させる。

ここで効くのが制御点だ。最初の構成図で、収集の段にあるエージェントやOTelコレクタは、取り込みの手前に位置する。ここでサンプリングの方針とカーディナリティの上限を決めておけば、下流の取り込みと保存に流れる量を絞れる。コストの管理は、課金される下流ではなく、その手前の収集の段で行うのが筋になる。これは技術ではなく予算管理の論点だ。来月の請求が今月の使用量から読めるか、その予測可能性を製品の選定基準に入れる。

買うか運用するか

もう一つの分かれ道が、自前で運用するか、マネージドを買うかだ。

自前運用とマネージドの分かれ道

オープンソースのスタックは無償で能力も高いが、ストレージや保持期間やスケールを自分で抱える運用負荷が代償になる。ここで見落としがちなのは、観測の基盤そのものが、また一つの複雑な分散システムだという点だ。観測したいアプリに加えて、観測の仕組みまで運用することになる。少人数の組織がこれを抱えると本末転倒になりやすい。したがって人手が限られるなら、自前運用よりマネージドに寄せ、その分の費用を前述のコスト管理で抑えるほうが合う場面が多い。

組織と文化

オブザーバビリティは製品ではなく実践だ。開発者が自分のコードを計装し、運用と同じデータを見る文化が前提になる。ツールだけ買って実践がない状態は、高い棚卸し資産になる。誰が所有し、誰が計装の責任を持つかを先に決める。加えて、調査をAIが肩代わりする流れが来ている以上、入力となるデータの質がそのまま結果の質になる。将来を見るなら、いま計装とデータ設計に投資する判断が後で効く。

まとめ

判断は次の順番になる。複雑性と事業損失で必要性を見極める。要るなら、人手が限られる組織は自前運用を避けてマネージドから入る。入れるなら、コストの上限を先に決める。規模で線を引くのではなく、この三段で考える。総論はシリーズ総論:o11y(可観測性)とは、製品ごとの違いはオブザーバビリティ製品の比較と系譜で扱う。

よくある質問

中小企業にもオブザーバビリティは必要ですか

規模では決まりません。売上直結のオンラインサービスや分散構成を少人数で運用しているなら、調査を人力で押し切れない分、大企業より切実に効きます。

オブザーバビリティのコストはなぜ膨らむのですか

ホスト数・データ量・保持期間×カーディナリティ・ユーザ数という複数の軸で課金が同時に効くためです。管理は課金される下流ではなく、収集の段の制御点で行います。

自前運用とマネージドはどちらがよいですか

観測基盤そのものが複雑な分散システムです。人手が限られる組織はマネージドに寄せ、浮いた工数をコスト管理に回すほうが合う場面が多いです。