「しきい値」が変えるビジネス判断——機械学習を実際に使ってみた【機械学習入門④】

前回の記事（機械学習入門③）では、正解率の落とし穴、混同行列、AUCについて書いた。

今回はその続き。モデルを評価できるようになった後に待っているのが、「では実際にどう使うのか」という問いだ。ここが機械学習を学ぶ上で、個人的に一番「なるほど」と感じたところだった。

1 分類モデルは「確率」を出している
2 「見逃す」コストか「誤報」のコストか
3 実際に数字を動かしてみた——LendingClubの結果
4 モデルは作って終わりではない
5 学んだこと：機械学習は「答え」を出すのではなく「材料」を出す
6 学びを深めるのにおすすめの本
- 6.1 ①データとビジネス判断のつながりを学ぶなら
- 6.2 ②機械学習をビジネスに使う視点で学ぶなら

分類モデルは「確率」を出している

混同行列を計算するには、まずしきい値（閾値）を決める必要がある。

実は、分類モデルが出している予測値は「陽性か陰性か」という答えそのものではない。「陽性である確率」という数字だ。0.65とか0.12とか、0から1の間の連続値が出てくる。

その確率をカテゴリに変換するときに使うのがしきい値だ。「0.5以上なら陽性と判断する」というのがツールのデフォルト設定になっていることが多いが、このしきい値をどこに置くかで、モデルの振る舞いが大きく変わる。

しきい値を高くする（例：0.8）→「ほぼ確実なものだけ陽性とみなす」→プレシジョン（適合率）が上がるが、見逃しが増える
しきい値を低くする（例：0.2）→「少しでも怪しければ陽性とみなす」→リコール（再現率）が上がるが、誤検知が増える

どちらが正解か、という問いに対する答えはない。それはビジネスの目的によって変わる。

「見逃す」コストか「誤報」のコストか

リコールとプレシジョン、どちらを重視すべきか。これを考えるための具体例が面白かった。

①スマートフォンの虹彩認証

このシステムで怖いのは「他人を認証してしまう」こと。赤の他人がロック解除できてしまったら問題になる。だから重視すべきはプレシジョン（適合率）。陽性と判断したものが本当に陽性であることを重視する。

②自宅のセキュリティセンサー

怖いのは不法侵入を見逃すこと。誤報が多少増えても、侵入者を見逃してはいけない。だから重視すべきはリコール（再現率）。

③犯罪捜査

これが一番興味深かった。犯人を取り逃がしてはいけない（検挙率重視）ならリコール。冤罪を防ぐことを最優先にするならプレシジョン。同じ場面でも、何を守りたいかによって正解が変わる。

数字を動かすのはシステムではなく、人間がどういうリスクを許容するかという判断だ、ということが改めてよくわかった。

実際に数字を動かしてみた——LendingClubの結果

こうした知識を踏まえて、演習で実際にモデルを使った予測を試みた。使ったのは前回と同じソーシャルレンディングのデータだ。

ランダムに貸し付けた場合、全体の15%が貸し倒れになり、22万ドルの損失が出る計算になる。

ここで機械学習モデルを使い、「貸し倒れる確率が低い上位25%の案件だけに絞り込む」という判断をした場合、貸し倒れ率は15%から6.74%まで下がった。

計算してみると：

4,000万ドル × (1 − 0.0674) × 1.17 ≈ 4,365万ドル → 年間365万ドルのプラスに転換

-22万ドルの損失が+365万ドルの利益に変わる。機械学習を使うことで、リスクを識別してビジネス判断に落とし込めた、ということだ。

ただし、ここで重要なのは「AIがビジネスを変えた」のではなく、「しきい値をいくつに設定するか」「何%の案件に絞るか」を人間が決めたということだ。モデルは材料を出す。判断するのは人間だ。

モデルは作って終わりではない

もうひとつ学んだのが、モデルは運用を始めてからが本番という話だ。

一度構築したモデルも、時間が経つにつれて予測精度が落ちていく。主な原因はこういったことだ。

データのフォーマットが変わる
ビジネスの慣習・環境が変化する
学習に使ったデータが古くなる

ITインフラの仕事をしていると「作ったシステムはちゃんと動き続ける」が基本だが、機械学習モデルは「作った後も継続的に見ていく必要がある」。この感覚の違いは、実際に体験してみると実感がある。

学んだこと：機械学習は「答え」を出すのではなく「材料」を出す

しきい値・リコール・プレシジョン・実際の貸倒率改善——これらを通じて気づいたのは、機械学習は意思決定の「自動化」ではなく「高度化」だということだ。

どこにしきい値を置くか。誤検知を許すか、見逃しを許すか。その判断はビジネスの文脈を知っている人間にしかできない。

AIが「考えなくていい時代」を作るのではなく、AIが出した材料をもとに「より深く考える必要がある時代」が来ているのだと感じた。

→ 【機械学習入門⑤の記事はこちら】※公開後リンク追加予定

学びを深めるのにおすすめの本

①データとビジネス判断のつながりを学ぶなら

『統計学が最強の学問である』（西内啓、ダイヤモンド社）

機械学習やAIの話ではなく、「データから何を判断するか」という思考の基礎を鍛えてくれる一冊。難しい数式はなく、ビジネスにおけるデータ活用の考え方をわかりやすく整理している。リコール・プレシジョンといった概念を実感した後に読むと、より深く刺さる。

統計学が最強の学問である

created by Rinker

②機械学習をビジネスに使う視点で学ぶなら

『仕事ではじめる機械学習第2版』（有賀康顕・中山心太・西林孝、O’Reilly Japan）

機械学習をビジネスに導入する際の実践的な考え方を丁寧に解説している。KPIの設定、モデルの評価指標の選び方、運用・メンテナンスの視点まで網羅されており、「作って終わり」ではない機械学習の全体像を理解するのに役立つ。

仕事ではじめる機械学習第2版

created by Rinker

「しきい値」が変えるビジネス判断——機械学習を実際に使ってみた【機械学習入門④】

分類モデルは「確率」を出している

「見逃す」コストか「誤報」のコストか

実際に数字を動かしてみた——LendingClubの結果

モデルは作って終わりではない

学んだこと：機械学習は「答え」を出すのではなく「材料」を出す

学びを深めるのにおすすめの本

①データとビジネス判断のつながりを学ぶなら

②機械学習をビジネスに使う視点で学ぶなら

AIの最新記事8件

「しきい値」が変えるビジネス判断——機械学習を実際に使ってみた【機械学習入門④】

The Threshold Decision: How Machine Learning Actually Changes Business Outcomes [Intro to ML #4]

Why a 99% Accurate Model Can Be Completely Useless [Intro to ML #3]

「正解率99%」のモデルが使えない理由【機械学習入門③】

ChatGPTを使うほど頭が悪くなる？MITの研究が示した「認知負債」の怖い話

Does Using ChatGPT Make You Less Smart? What MIT’s “Cognitive Debt” Study Actually Found

機械学習、モデルより先に「データ整備」が9割だった【機械学習入門②】

Machine Learning: It’s 90% Data Prep Before You Even Build a Model [Intro to ML #2]