ChatGPT「o3 mini」リリース間近⁉ サム・アルトマンが示唆

2025年1月18日

「o3-miniのテストを行ってくださった外部の安全性研究者の皆さん、ありがとうございます。
私たちは現在、バージョンを最終決定し、リリースプロセスを開始しました。約2週間後には出荷を予定しています。
また、フィードバックを受けて、APIとChatGPTを同時にローンチすることにしました！
（とても素晴らしい出来です。）」とのこと。

Xでサム・アルトマンが示唆「2週間後にo3-miniをリリース」

2024年9月12日に「o1 preview」「o1-mini」が発表されてから、およそ4か月が経とうとするなか、OpenAI社のCEOであるサム・アルトマン氏が自身のX（旧Twitter）アカウントで「2週間後にはo3-miniを出荷予定」との投稿を行いました。投稿日時は1月18日であるため、2月上旬にはリリースされる見込みとなります。

12月5日には「o1 Pro」が発表され、さらに「o1」モデルも正式版としてリリースされたが、その高い性能が話題になったのも束の間、X界隈では早くも「o3」の登場を待ち望む声で盛り上がっているようです。

先行リリースが予定されている「o3-mini」について、サム・アルトマン氏は「『o1 pro』と比較すると多くの点で性能は劣るものの、速度が速い点が特徴的だ」と述べている一方で、この発言に対して「もっと賢いモデルが欲しい。料金が高くても構わない。ふだんからコーディングに利用しているので、一度に数万行のコードを生成できたら素晴らしいが、経験上1500行ほどが限界だ」というリプライも寄せられており、やや期待外れ感を示すユーザーもいるようです。

ただし、「o3-mini」のリリースは、あくまでもo3シリーズ全体の開発の一部が完了してリリースプロセスに移行したにすぎず、引き続き全体の開発は進められています。以前「o1-mini」がリリースされてからおよそ3か月後に「o1」が正式リリースされたことを考えると、「o3」の登場が5月ごろにずれ込む可能性もあるかもしれません。

サム・アルトマン氏によれば、「o3」は「o1 pro」よりも大幅に賢くなる見通しで、現在は開発チームが「o3」に注力している段階だといいます。また「o3 pro」という、さらに高性能なモデルが登場する可能性も示唆しています。

「o3」の価格についてはユーザーからの問いかけに対し、「200ドルで利用可能になる」と答えており、ChatGPT Proプランを通じて提供される見込み。今後、標準モデルと高性能モデルの住み分けがますます進むだろうと予測されています。

そもそも「o3」ってどんなモデル？

近年、AI技術は驚異的な進化を遂げてきましたが、その中心となっていたのは、あらかじめ与えられた情報から直接答えを導き出す従来型のAIモデルでした。そんな中、より複雑な問題にも対応できるように設計された新しいAIモデル「o3」が注目を集めています。いったい「o3」には、どのような特徴があるのでしょうか。

AI研究の大きな課題のひとつに、複雑な数式や高度なプログラミングなど、“一度に解くには難しい問題”への対応が挙げられます。従来のAIモデルは、一気に答えを求めようとするため、どうしても誤答や不十分な回答が生まれる可能性がありました。

これに対し、「o3」は問題を小さなステップに分割し、それぞれを順番に解決するという方法を採用しています。これにより、ステップごとに正確さを担保しながら答えに近づけるため、複雑な課題にも対応しやすくなったのです。

「o3」がこのような高度な推論を可能にする鍵となるのが、「思考の連鎖（Chain of Thought: CoT）」と呼ばれる技術です。これは、まるで人間の思考プロセスを模倣するかのように、問題を複数の段階に分解し、それぞれをクリアしながら最終的な答えに辿りつく手法を指します。

「思考の連鎖」とは

問題：ケンは35個のチョコレートを持っていました。15個を食べて、さらに8個を買い足しました。現在、ケンは何個のチョコレートを持っていますか？

通常のAIモデルは、直接答えを出そうとしますが、複雑な計算が絡むと誤答する可能性があります。しかし、CoTを用いると、以下のようにステップバイステップで解答する

初めに持っていたチョコレートの数：35個
食べたチョコレートの数：15個
残ったチョコレートの数：35個 – 15個 = 20個
買い足したチョコレートの数：8個
現在のチョコレートの数：20個 + 8個 = 28個

このように、各ステップでの計算を明示的に行うことで、AIはより正確な答えを導き出すことができる

段階的な思考過程を経ることで、答えをより確実に導き出せるようになります。また、このプロセスを振り返ることで、万一途中に誤りがあっても修正できるため、ハルシネーション（AIの見当違いな生成）を減らす効果も期待できます。

広がる推論強化モデル

さて、「o1」モデルは、「GPT-4o」をベースに推論能力を強化した第一弾のモデルでした。その後、より高い推論性能を目指して開発されたのが「o3」です。「o3」は、難解な数学的・論理的問題を含むベンチマーク（ARC-AGIなど）で優れたスコアを示しており、「o1」と比べて3倍ものスコアを記録しました。

一方で、この性能向上により計算リソースの消費が増え、応答時間が長くなる傾向もあります。しかし、新たに採用された「熟慮型アライメント（Deliberative Alignment）」により、AIモデルが安全性に関する意思決定を段階的に処理する仕組みが導入されました。これによって誤った応答や倫理的に問題のある回答を抑え、総合的な性能を高めています。

「o3」の登場に合わせて、他社も推論強化モデルの開発を加速させています。たとえば、Googleは12月19日に「Gemini 2.0 Flash Thinking Experimental」を発表し、「DeepSeek」では「DeepSeek-R1」、Alibaba傘下Owenは「QwQモデル」を開発するなど、各社が次世代の高推論AIにしのぎを削っている状況です。

驚異的なベンチマーク結果

「o3」の性能を示すベンチマークスコアは以下のとおりです。

ARC-AGI…AIの抽象的推論能力を評価するベンチマーク。汎用人工知能（AGI）の進捗を測る指標として重要視されている
- 軽負荷環境：75.7点
- 高負荷環境：87.5点（人間の平均スコアが85点、従来モデル最高が55点）
AIME…アメリカ数学オリンピックの予選として行われる数学コンテストで、高校生を対象に高度な数学問題が出題される。この試験の問題がベンチマークとして使用されている
- 96.7点（1問ミスのみ）
GPQA Diamond…博士課程レベルの科学知識を問う問題セットで、AIの高度な知識理解と応用能力を評価する
- 87.7点
Frontier Math…最先端の数学的問題を集めたベンチマークで、AIの高度な数学的推論能力を評価
- 正答率25.2%（他モデルは2%未満）