この記事の要点
- 導入の判断軸は規模ではなく複雑性×事業損失
- コストはホスト・データ量・保持・ユーザの複数軸で同時に効く。制御点は収集の段にある
- 人手が限られる組織は自前運用よりマネージドが合う場面が多い
オブザーバビリティの必要性を語るとき、大企業のものという通念がつきまとう。本稿では、その通念を疑うところから始める。判断軸は会社の規模ではない。システムの複雑性と、止まったとき遅くなったときに事業がいくら失うか、その掛け算だ。
判断軸は規模ではない
規模の代わりに見るべき軸は四つある。どれも規模とゆるく相関するが、規模そのものではない。
| 軸 | 必要性が高い側 | 低い側 |
|---|---|---|
| システムの複雑性 | 分散・マイクロサービス・クラウドネイティブ | 単一の塊・少数サーバ |
| 停止や劣化の事業損失 | 売上やUXに直結 | 社内利用・止まっても猶予がある |
| 変更の頻度 | 一日に何度もデプロイ | 数か月に一度しか変えない |
| 障害を誰が直すか | 少人数で長時間の調査に耐えられない | 詳しい人が常駐し障害を把握 |
これらが右側に寄るほど、事前に作った画面では追いつかなくなり、後から問い直せる性質が要る。規模はこの四軸を間接的に押し上げるだけで、本体ではない。売上直結のサービスを動かす小さな会社は、社内向けの塊を動かす大企業より切実に必要とする。
中小企業に必要か — 要る中小と後回しでよい中小
関係ない、ではなく、要る中小と後回しでよい中小に分かれる。
| 状況 | 判断 |
|---|---|
| 売上直結のオンラインサービスを運営している | 規模を問わず要る |
| クラウドネイティブ・分散構成で動いている | 要る。複雑性が監視の限界を超える |
| 少人数で長時間の障害調査に人を割けない | 要る。むしろ大企業より切実 |
| 単一の塊・社内利用・停止の損失が小さい | 後回しでよい |
| 詳しい担当が障害パターンを把握している | 当面は人で回せる。属人化のリスクは残る |
少人数の中小ほど、調査を人力で押し切れないという意味で、自動で問いを立て直せる仕組みの恩恵が大きい。大企業のものという通念は、むしろ逆を向いている。人手の余裕がない側ほど効く。
コストの罠 — 課金の構造と制御点
投資判断で最も見落とされるのがコストの構造だ。なぜ膨らむのかは、テレメトリが流れる構成を追うと具体的に見える。
テレメトリは、発生源から収集を経て、取り込み、保存・保持、クエリへと流れる。課金はこの各段で別々に効く。発生源ではホスト数で課金され、自動スケールでホストが増えればそのまま増える。取り込みではデータ量で課金される。保存・保持では、保持期間と保持するデータのカーディナリティで効く。クエリではユーザ数やクエリ回数で課金されることもある。ホスト、データ量、保持、ユーザという複数の軸が同時に効くから、入口の見積りが当てにならない。
なぜ高カーディナリティがコストに効くのか。カーディナリティとは、ある次元が取りうる値の種類の多さだ。値の種類が多い次元をラベルに付けると、時系列の組み合わせが掛け算で増える。
たとえば応答時間という一つのメトリクスに、ホスト100、エンドポイント50、顧客ID200というラベルを付けると、100×50×200で100万の時系列が生まれる。顧客IDのような種類の多い次元を一つ足すだけで、時系列が桁違いに増え、保存量と請求が跳ねる。やっかいなのは、障害調査ではこの顧客IDのような高カーディナリティの軸こそが必要になる点だ。必要だが、放置すればコストを爆発させる。
ここで効くのが制御点だ。最初の構成図で、収集の段にあるエージェントやOTelコレクタは、取り込みの手前に位置する。ここでサンプリングの方針とカーディナリティの上限を決めておけば、下流の取り込みと保存に流れる量を絞れる。コストの管理は、課金される下流ではなく、その手前の収集の段で行うのが筋になる。これは技術ではなく予算管理の論点だ。来月の請求が今月の使用量から読めるか、その予測可能性を製品の選定基準に入れる。
買うか運用するか
もう一つの分かれ道が、自前で運用するか、マネージドを買うかだ。
オープンソースのスタックは無償で能力も高いが、ストレージや保持期間やスケールを自分で抱える運用負荷が代償になる。ここで見落としがちなのは、観測の基盤そのものが、また一つの複雑な分散システムだという点だ。観測したいアプリに加えて、観測の仕組みまで運用することになる。少人数の組織がこれを抱えると本末転倒になりやすい。したがって人手が限られるなら、自前運用よりマネージドに寄せ、その分の費用を前述のコスト管理で抑えるほうが合う場面が多い。
組織と文化
オブザーバビリティは製品ではなく実践だ。開発者が自分のコードを計装し、運用と同じデータを見る文化が前提になる。ツールだけ買って実践がない状態は、高い棚卸し資産になる。誰が所有し、誰が計装の責任を持つかを先に決める。加えて、調査をAIが肩代わりする流れが来ている以上、入力となるデータの質がそのまま結果の質になる。将来を見るなら、いま計装とデータ設計に投資する判断が後で効く。
まとめ
判断は次の順番になる。複雑性と事業損失で必要性を見極める。要るなら、人手が限られる組織は自前運用を避けてマネージドから入る。入れるなら、コストの上限を先に決める。規模で線を引くのではなく、この三段で考える。総論はシリーズ総論:o11y(可観測性)とは、製品ごとの違いはオブザーバビリティ製品の比較と系譜で扱う。
よくある質問
中小企業にもオブザーバビリティは必要ですか
規模では決まりません。売上直結のオンラインサービスや分散構成を少人数で運用しているなら、調査を人力で押し切れない分、大企業より切実に効きます。
オブザーバビリティのコストはなぜ膨らむのですか
ホスト数・データ量・保持期間×カーディナリティ・ユーザ数という複数の軸で課金が同時に効くためです。管理は課金される下流ではなく、収集の段の制御点で行います。
自前運用とマネージドはどちらがよいですか
観測基盤そのものが複雑な分散システムです。人手が限られる組織はマネージドに寄せ、浮いた工数をコスト管理に回すほうが合う場面が多いです。