「いくら？」を予測する——分類と回帰、機械学習のもうひとつの顔【機械学習入門⑤】

前回の記事（機械学習入門④）では、しきい値の設定とリコール・プレシジョンのトレードオフについて書いた。

①〜④まで扱ってきた「タイタニック」や「ソーシャルレンディング」の例は、すべて「する／しない」「貸し倒れる／しない」という2択を予測する問題だった。これを機械学習では分類と呼ぶ。

今回は機械学習のもうひとつの大きな柱、「いくら？」という数値を予測する「回帰」の話だ。

1 分類と回帰——何が違うのか
2 自動車保険会社の問題
3 回帰の評価指標：RMSEとR²
4 予測値をビジネスにどう使うか
5 AutoML——モデル選択を自動化する
6 学んだこと：予測する「答えの型」がアプローチを決める
7 学びを深めるのにおすすめの本
- 7.1 ①回帰分析を含む機械学習の基礎を体系的に学ぶなら
- 7.2 ②保険・金融での機械学習活用イメージをつかむなら

分類と回帰——何が違うのか

機械学習の教師あり学習は、大きく2種類に分かれる。

分類：予測結果がカテゴリ。「する/しない」「A/B/C」のどれか。AUC・リコール・プレシジョンで評価する
回帰：予測結果が連続した数値。「いくら？」「何人？」「何度？」。RMSEやR²（決定係数）で評価する

どちらを使うかは、予測したい「答えの形」によって決まる。タイタニック（生死）・ソーシャルレンディング（貸し倒れ有無）は答えが2択なので分類。今回の自動車保険（支払額）は答えが金額なので回帰になる。

自動車保険会社の問題

演習で使ったのは自動車保険会社のケースだ。状況はこうだ。

加入者は約50,000人
保険料収入は一人あたり均一で$5,000
保険金支払いは平均で一人あたり約$5,000、合計で$2億5,000万ドル弱
「保険料の安さ」を売りにしているが、最近高額な請求が増え、利益率が落ちている

シンプルに言うと、もらう額と払う額がほぼ同じになっている。これでは事業として成り立たない。

ここで機械学習を使って「各加入者がどのくらいの保険金を請求してくるか」を予測できれば、ビジネスに活かせる——これが今回の問題設定だ。

回帰の評価指標：RMSEとR²

分類モデルの評価にAUCを使ったように、回帰モデルには専用の評価指標がある。主に使われるのがRMSE（Root Mean Square Error）とR²（決定係数）だ。

RMSE：予測値と実際の値の「ズレ」を数値化したもの。0に近いほど予測精度が高い。「平均でだいたいこのくらいの誤差がある」というイメージ
R²（決定係数）：このモデルがデータのばらつきをどれだけ説明できているかを示す。1に近いほど良い。0.7なら「ばらつきの70%をモデルで説明できている」と解釈する

分類のAUCが「順位づけの正確さ」を見ているとしたら、RMSEは「金額のズレ幅」を直接見ている指標だ。

予測値をビジネスにどう使うか

回帰モデルで「保険金支払額の予測値」が得られたとして、ビジネス的にどう活かすかを考えるのが面白かった。いくつかのアイデアが出た。

AI審査制：予測支払額が保険料収入を大幅に上回る申込者は、そもそも受け付けない
AI保険料率：予測支払額に応じて保険料を個別に変える。リスクが高い人には高い保険料を提示する
AIターゲットマーケ：予測支払額が低い層（属性・地域など）に絞ったマーケティング施策を展開する

同じ予測モデルでも「収入を増やすために使う」か「支出を減らすために使う」かで、打ち手がまったく変わる。そしてどの打ち手を選ぶかは、ビジネスの戦略や顧客への影響まで考える必要がある。

たとえばAI審査制を導入すれば利益は改善するが、顧客側にはその判断基準は見えない。AI保険料率を使えば、今より保険料が下がる人は喜ぶが、上がる人は離れるかもしれない。技術的に「できる」ことと、ビジネスとして「すべき」ことは別の話だ、という感覚がここで生まれた。

AutoML——モデル選択を自動化する

この演習と並行して、AutoML（自動機械学習）の紹介もあった。

機械学習では、どのアルゴリズム（ランダムフォレスト、XGBoost、線形回帰など）を使うかを選ぶ必要がある。しかし、AutoMLを使えば、複数のアルゴリズムで自動的に学習を試して、精度の良い順に結果を並べてくれる。

「とにかく精度の良いモデルが欲しい」という場合に非常に便利だ。データサイエンスの民主化が進んでいるとはよく言われるが、こういうツールを見ると、アルゴリズムの専門知識なしでも一定のモデルが作れる時代が来ているのだと実感する。

学んだこと：予測する「答えの型」がアプローチを決める

分類と回帰——どちらも「予測」という点では同じだ。違うのは、予測する答えがカテゴリか数値かという「型」だけだ。

ビジネスの問いを機械学習に落とし込む第一歩は、「何を予測したいのか？」「その答えはどんな形をしているか？」を明確にすることだと気づいた。「する/しない」なら分類。「いくら？」「どのくらい？」なら回帰。

この「問い方を決める」という作業が、アルゴリズムの選択より先に来る、最初の重要な判断だ。

→ 【機械学習入門⑥の記事はこちら】※公開後リンク追加予定

学びを深めるのにおすすめの本

①回帰分析を含む機械学習の基礎を体系的に学ぶなら

『Pythonではじめる機械学習』（Andreas Müller・Sarah Guido著、中田秀基訳、O’Reilly Japan）

分類・回帰・モデル評価まで、機械学習の基礎をPythonの実装と一緒に学べる定番書。コードを読まなくても、概念の解説が丁寧なので概要把握にも使える。回帰モデルの章では線形回帰からランダムフォレスト回帰まで幅広くカバーしている。

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

created by Rinker

②保険・金融での機械学習活用イメージをつかむなら

『機械学習による実用アプリケーション構築』（Adnan Masood・Muhammad Asif Khan著、株式会社クイープ訳、O’Reilly Japan）

医療・金融・保険など実業務への適用例を多数収録。「どの業界でどんな予測問題を設定するか」というビジネス視点での記述が豊富で、演習で感じた「打ち手を考える」プロセスをさらに深めるのに適している。

機械学習による実用アプリケーション構築 ―事例を通じて学ぶ、設計から本番稼働までのプロセス

created by Rinker

「いくら？」を予測する——分類と回帰、機械学習のもうひとつの顔【機械学習入門⑤】

分類と回帰——何が違うのか

自動車保険会社の問題

回帰の評価指標：RMSEとR²

予測値をビジネスにどう使うか

AutoML——モデル選択を自動化する

学んだこと：予測する「答えの型」がアプローチを決める

学びを深めるのにおすすめの本

①回帰分析を含む機械学習の基礎を体系的に学ぶなら

②保険・金融での機械学習活用イメージをつかむなら

AIの最新記事8件

「いくら？」を予測する——分類と回帰、機械学習のもうひとつの顔【機械学習入門⑤】

Predicting “How Much?” — Machine Learning Beyond Classification [Intro to ML #5]

「しきい値」が変えるビジネス判断——機械学習を実際に使ってみた【機械学習入門④】

The Threshold Decision: How Machine Learning Actually Changes Business Outcomes [Intro to ML #4]

Why a 99% Accurate Model Can Be Completely Useless [Intro to ML #3]

「正解率99%」のモデルが使えない理由【機械学習入門③】

ChatGPTを使うほど頭が悪くなる？MITの研究が示した「認知負債」の怖い話

Does Using ChatGPT Make You Less Smart? What MIT’s “Cognitive Debt” Study Actually Found