かつて、OpenAIはGPT‑3.5からGPT‑4、4o、さらには安全性や推論能力を強化したoシリーズを通じて、生成AIの性能を向上させてきました。しかし、OpenAIのサム・アルトマンはXで「私たちのモデルと製品の提供がいかに複雑になっているかを認識しています」とこれまでのOpenAIの生成AIモデル群がユーザーにとって“ややこしく”なっていることを指摘し、「製品の提供をより良く簡素化したい」と自身のXアカウントで述べました。
本来であればo3-miniが登場した次なるモデルとしてo3をリリースするかと思われてきましたが、サム・アルトマンによると先程述べた事情を鑑みて、そうする予定はないとのこと。新たにGPTシリーズとoシリーズを統合したGPT-5をリリースすることで、ユーザーにとってより使いやすいプラットフォームを目指すようです。
GPT‑5は、従来のChatGPT体験をさらにシンプルかつ直感的にし、ユーザーが複雑なモデル選択に悩むことなく、高度な推論と安全性を享受できるものとなり、さらなる使いやすさを追求しています。
これまでのChatGPTの歴史を振り返りながら、GPT-5の実像に迫ります。
GPTシリーズとoシリーズ

OpenAIはGPT-3.5を搭載した生成AIプラットフォームChatGPTを2022年11月30日に公開しました。これは、AI業界に革新的な出来事で、これまで専門家しか扱えないような利用ハードルの高いAIを一般市民にまで利用できるようにカスタマイズされたことで、爆発的な広がりを見せます。
というのは、GPT-3.5のような大規模言語モデル(LLM)は私達が話している言語(自然言語)を扱うシステムであるのに、プロンプトを入力するのには専門的な知識が必要で、一般利用には向かないものだったからです。
しかし、ChatGPTが登場することによって、パソコンに文字を入力することさえできれば、誰でも生成AIを利用することができるようになったのです。
さて、このGPT-3.5は現在GPTシリーズと俗に呼ばれるモデル群の一つとなります。
GPT-3.5の登場以降、OpenAIは次々とアップデートを続け、GPT-4、GPT-4oなどとてつもない速さでモデルを進化していきました。
そしてついに登場したのがo1と呼ばれる推論型のモデルです。いわゆるoシリーズの登場です。
このo1を始めとするoシリーズは、複雑な推論や数学、科学、プログラミングなどの高度なタスクに特化して設計されたモデル群です。これらのモデルは、ユーザーの入力に対して段階的な思考プロセス(いわゆる「チェーン・オブ・ソート(CoT)」)を実行し、精度の高い解答を導く能力を強化しています。
CoTとは、単に答えを出すだけでなく、問題を分解し、中間の判断や推論過程を経ることで、より正確で説明可能な結果を得るというものなので、出力結果を得るまでに少し時間がかかるというのがデメリットの一つです。
一方、GPTシリーズとよばれるGPT-3.5や4、4oは、より汎用的で直感的なユーザー体験を重視したモデル群であると言え、従来のチャット体験や日常的なタスクに適したバランスの取れた性能を提供することを目的としています。その代わり、複雑な推論が苦手で計算能力も低く、ハルシネーション(厳格)が起こりやすいというのが欠点でした。
こうしたそれぞれに長所と短所があるGPTシリーズとoシリーズですが、サム・アルトマンはこれらのモデルが短い期間で登場したため、ユーザーにとってどのモデルを使うべきか、どのモデルがユーザーが行いたいタスクに合うのかが非常にわかりにくくなってしまっていることを課題としているのです。
そこで飛び出してきたのが冒頭の話題。
次なるアップデートは単にo3を登場させるのではなく、GPT-5としてGPTシリーズとoシリーズを統合するというのです。
では、GPT-5はどのようなものになるのでしょうか。
GPT-5はどんなモデルになる?

出典:TechCrunch Disrupt サンフランシスコ 2019 – 2 日目
GPT-5の話に移る前にややこしいのが、サム・アルトマンはまず数週間以内にGPT-4.5をリリースすると言及しています。これはGPT-4oに続く「非推論型」モデルの最終盤に当たる予定で、非推論タスクに関してはこのGPT-4.5を利用せよ、ということなのでしょう。いわばこれはGPTシリーズとoシリーズを統合させる前段階のものと位置づけています。
その次にリリースするのがGPT-5。数ヶ月以内にリリースする予定とのことですが、これこそサム・アルトマンが望むChatGPTのあり方を体現するモデルで、彼の言う最大目標「すべてのツールを使用でき、長時間考える必要があるかどうかを認識し、一般的に非常に幅広いタスクに役立つシステムを作成することで、oシリーズ モデルと GPTシリーズ モデルを統合すること」に当たるものだと言えます。
つまり、従来のGPTシリーズは幅広い用途に対応する汎用モデルとして設計され、明確な推論プロセスを重視していなかったのに対し、oシリーズは理数系のタスクで優れた推論能力を発揮するというこの両者の特徴を統合することで、ユーザーがどのモデルを選ぶかという煩雑さを解消し、シームレスで直感的なAI体験を提供する狙いがあるというわけです。
そこから予想できるユーザーにとってのメリットとしては、まずはモデル選択の必要性なども不要になるため、インターフェースがこれまでよりもシンプルになり、どのタスクに対しても最適なパフォーマンスを自動的に発揮するようになるというものです。
非推論型モデルで良いタスクの場合も、推論モデルで行うべきタスクも、このGPT-5さえ使っておけばよいということかもしれません。
2つ目のメリットとしては、安全対策技術として「熟慮型調整」という技術が組み込まれることにより、ハルシネーションの問題にこれまでよりも頭を悩まされることが少なくなりそうです。
個人的な願いとしてはかれこれ長い間アップデートが行われていない画像生成DALL-E3もついでにアップデートしてほしいところなのですが、今のところそのへんに対する言及は見られません。
課金プランの構成はどうなる?
では、GPT-5によって課金プランはどう変わるのでしょうか。
現在のこれまでのプランではPlusプランでは制限付きでo1やo3-miniなどが使え、Proプランではo1 Proモデルの利用やディープリサーチの利用(現時点でPlusプランでも月に10回、無料プランだと月に2回)ができたりと、モデルの選択や機能の幅に大きな違いがありました。(下図参照。現状を反映していない項目もあります)

とはいえ、GPT-5にモデルが統合されると、ユーザーによるモデルの選択という概念がなくなるわけですから、利用できるモデルに課金プランで違いをつけるということができなくなります。
GPT-5はユーザーが入力したタスクに応じて適切なモデルを利用して処理するという形になりますから、明確な差をつけにくいはずです。ではどうなるのでしょうか?
サム・アルトマンのX投稿によれば、
「ChatGPTの無料プランでは、(中略)標準的な知能設定でGPT‑5に無制限にチャットアクセスできるようになります。Plusサブスクライバーは、より高い知能レベルでGPT‑5を利用でき、Proサブスクライバーはさらに高い知能レベルで利用できるようになります。これらのモデルには、音声、キャンバス、検索、深いリサーチなどの機能も組み込まれる予定です」
ということで、課金プランによってGPT-5の“賢さ”が変わってくるというわけです。
改めて整理すると以下のイメージ
・無料ユーザー:ChatGPTの無料プランでは、標準的な知能設定で無制限にチャットが可能(ただし、悪用防止のための制限あり)
・Plus加入者:無料よりも高い知能レベルでGPT‑5を利用できる設定が提供される
・Pro加入者:さらに高度な知能レベルでGPT‑5を利用可能となり、音声、キャンバス、検索、深いリサーチ機能などが統合された機能が利用できる予定
ということで、無料ユーザーと課金ユーザーの格差はGPT-5になっても継続しそうです。
まだの人はぜひ課金をおすすめします。