前回まで(機械学習入門⑦)は、AIで個人を予測するアプローチのメリットとリスクについて書いた。
今回からは、予測AIとは別の系譜——生成AIの話に入る。MBA講座でもまるごと一回分がこのテーマに割かれていて、「ChatGPTが何をやっているのか、仕組みから理解する」という内容だった。
普段使っているツールの中身を理解することで、何ができて何ができないか、どう使えばいいかの判断軸が変わる。そのことをこのセッションで改めて実感した。
生成AIの現在地:GPT-5は「博士号レベル」
まず現状認識から始まった。講座で引用されていたOpenAIのサム・アルトマンの言葉がある。
「GPT-3は高校生、GPT-4は大学生、GPT-5は博士号レベルの専門家と話しているような感覚だ。正直言って、GPT-4はもう使いたくない」
これは誇張ではなく、GPQA Diamondというベンチマーク(大学院レベルの高度な専門問題をGoogleで検索しても解けないような質問応答)で、最新モデルが人間の専門家を上回るスコアを出している。さらにChatGPT 5 proが数学の論文を読み込んで「まだ人が出していない証明」を提示した事例も紹介された。
Bond Capital(2025年)の資料では、ユーザーへのコストは劇的に低減し続けている一方、データセンターへの投資は膨大で収益化への道のりはまだ先があるという構造的な矛盾も指摘されていた。技術は加速しているが、ビジネスモデルはまだ模索中という状況だ。
予測AIと生成AIは何が違うか
これまでの記事で扱ってきたのは「予測AI」だ。与えられたデータをもとに、カテゴリを分類したり数値を予測したりする。「この融資は貸し倒れるか?」「この社員は離職しそうか?」というように、答えが0か1、あるいは具体的な数字として出てくる。
対して生成AIは、与えられたデータから「新しいデータ」を創り出す。テキスト、画像、音声、動画——あらゆるコンテンツを生成できる。
ただし、生成AIの内部では「予測」が使われている。テキストを生成するとき、LLMは「次に来る単語を予測する」を繰り返して文を組み立てている。「生成」と「予測」は対立概念ではなく、予測をうまく組み合わせた先に生成がある。
非構造化データをどう扱うか
前半シリーズではExcelのような表形式の「構造化データ」を扱ってきた。行と列があり、特徴量として直接使えるデータだ。一方で世の中の情報の大半は非構造化データ——画像、音声、自然言語——で構成されている。コンピュータは数字しか扱えないため、これらはそのままでは機械学習に使えない。
非構造化データを数値のベクトル(多次元の数字の配列)に変換する技術の発展が、生成AIの進化の根幹にある。
言語をベクトル化すると興味深いことが起きる。「意味の足し算・引き算」が可能になるのだ。「姪 − 女性 + 男性 = 甥」という計算が成立する。意味的に近い概念は近いベクトルに、遠い概念は遠いベクトルに表現されるためだ。LLMがゼロから「意味を理解しているように見える」のは、このベクトル空間での演算が積み重なった結果だ。
言語モデルとは「次の単語を予測するもの」
LLMの根本的な仕組みは、実はシンプルだ。「次に来る単語の確率を計算する」——それだけだ。
「山田太郎はスマホを___」という文があったとき、「探す(45%)」「いじる(30%)」「忘れる(2%)」……という確率分布を計算して、次の単語を選ぶ。これをひたすら繰り返すことで文章が生成される。スマートフォンの予測変換もこの仕組みと同じだ。
LLMはそれを、数千GBから数TBにのぼる膨大なコーパス(文書集合)で学習し、数千億規模のパラメータを持つ巨大なモデルで実現している。ただ、LLMを作っただけでは「賢いが必ずしも人間の期待通りには動かないモデル」にしかならない。
そこでChatGPTが採用したのがRLHF(人間のフィードバックに基づく強化学習)だ。人間が複数の回答候補から好ましいものを選ぶデータをもとに報酬モデルを訓練し、そのフィードバックでさらにモデルを調整する。この工程を経て「対話として自然で役に立つ」AIが生まれた。事前学習が大学の一般教養だとすれば、RLHFは専門分野と社会常識を学ぶ大学院教育に相当すると講座では説明されていた。
推論モデルへの進化:「三段論法から百段論法へ」
LLMのさらに先にあるのがLRM(大規模推論モデル)だ。強化学習と高性能コンピューティングを組み合わせ、結果だけでなく「思考のプロセス」そのものを学習させる。孫正義の言葉として「三段論法から百段論法へ」という表現が引用されていた。推論の連鎖の深さが桁違いになってきたということだ。
加えて、MetaのLlamaをはじめとするオープンソースLLMとの競争も激化しており、上位モデル間の性能差は縮小傾向にある。特定のモデルに依存するリスクは小さくなってきた。
画像生成の仕組み:拡散モデルとは何か
言語系に続いて、画像生成の仕組みも紹介された。中心となるのが拡散モデル(Diffusion Model)だ。一言で言うと「ノイズで壊して、逆向きに再生する」。
- 大量の画像にランダムなノイズを加えて徐々に「壊していく」プロセスをニューラルネットワークで学習する
- そのプロセスを逆向きに実行——「ノイズから画像を復元する」部分を使って画像を生成する
- 生成時にはプロンプトのテキストをベクトル化して条件として与え、「プロンプトらしい画像」の方向に誘導する
動画生成(OpenAI Sora、Google Veo3)や音声合成との組み合わせで、プロンプト一つで動画コンテンツを丸ごと制作することが現実になりつつある。伊藤園の「おーいお茶」がAIでパッケージデザインの生成・評価・絞り込みを行った事例も紹介された。
「仕組みを知る」ことで変わること
このセッションを通じて感じたのは、仕組みを理解することで「なぜこの使い方がうまくいくか」が直感的に分かるようになるということだ。
LLMが「次の単語の確率」で動いていると知れば、曖昧な指示を出すほど確率が拡散して精度が下がる理由が腑に落ちる。画像生成が「プロンプトのベクトルに向けてノイズを圧縮する」と知れば、具体的な要素を盛り込むほど精度が上がる理由が分かる。
ブラックボックスとして使うのと、仕組みを知った上で使うのでは、できることの幅が変わってくる。次回は「どう使えばもっとうまくいくか」——プロンプトエンジニアリングとRAGとエージェントの話に入る。
→ 【機械学習入門⑨の記事はこちら】※公開後リンク追加予定