日本時間2月18日午後1時から始まったGrok3の発表ライブ。イーロン・マスク氏も出席して計4名で行われたこの発表会では、Grok3のベンチマークや機能、さらには段階的なサブスクリプションの概要まで、今後のGrokの方向性を示す様々な紹介が行われました。
これまでの最新モデルであったGrok2との違いや、他の生成AIモデルとの違いなど、今回の発表ライブの内容から紐解いていきたいと思います。
Grok3の特徴
圧倒的な性能向上

Grok3は、前世代のGrok1やGrok1.5と比較して計算リソースが10~15倍に増強され、圧倒的な性能アップを実現した最新のモデルです。その背景には、「Colossus」と呼ばれるGPUクラスターの大規模拡張がありました。
まず、「Colossus」構想の第一段階では、100,000基のGPUをフル稼働させるクラスターが、わずか122日で構築されました。ゼロから大規模な演算環境を整備するまでのスピードは驚異的で、短期間で必要なハードウェアとソフトウェア基盤を整えた点が大きな注目を集めたとのこと。
その後、わずか92日間でGPUの数を倍増させ、最終的に200,000基のGPUが稼働する巨大クラスターへと進化。計算資源のさらなる拡大と並行して、電力・冷却システムなどのインフラもスケールアップが行われました。
その結果、Grok3の学習や推論に必要な演算処理を以前の10~15倍もの速度で行えるようになり、複雑なタスクを高速かつ正確に処理できる環境が整備されたということです。
こうした設備投資も生成AIの能力向上には欠かせないということが分かります。
また、膨大な計算リソースを活用してインターネット上のあらゆる知識を含む「全人類の知識」とも言える大規模データを取り込み、学習を進めています。その結果、より深い知識と文脈理解を獲得したほか、単に文章を生成するだけでなく、複雑な課題に対して論理的な推論を行い、最適解を導き出す能力が強化されました。
数学・科学・コーディング領域での圧倒的リード

ベンチマークの数値を見ても分かる通り、Grok3およびGrok3-miniは数学・科学数学・コーディングなど、複数の分野で従来モデルを凌駕する性能を示しています。ChatGPTの推論モデルo1や最新モデルo3-mini-highよりもスコアが高く、Grok3が優位に立っていることが分かります。

では、数学や科学といった理系分野以外での評価はどうなのかというと、Chatbot Arena(LMSYS)という複数のAIモデルの「使いやすさ」「回答の質」「正確性」などをユーザー視点で直接比較できるものを見ると、Grok3が他の先進モデルを抑えて最上位に位置づけられていることが分かります。このことから、対話型タスクにおいても高い自然言語理解・応答能力を備えていると言え、一般ユーザーにとっても使いやすいものになっていることが分かります。

さらに、Grok3では複数回の思考(テスト&コンピュート)を通じて自らの答えを吟味し、エラー検出や自己修正を行う仕組みを持っています。これにより、初期の回答以上の精度向上が図られています。
デモの様子

発表ライブでは物理問題にチャレンジするとして、Pythonスクリプトを用いた軌道計算とその可視化が行われました。
おそらくこの問題テーマは、xAI社の「科学的発見を進め、宇宙をより深く理解する」という理念に合わせたものだと思われます。
さて、このデモでは、地球から火星、そして火星から地球への軌道移動という宇宙輸送の実現可能な軌道を求める課題に挑戦しました。この課題は、宇宙船(もしくは乗組員)が安全に目的地に到達するための、正確な打ち上げ、遷移、着陸のタイミングや軌道計算が要求される非常に現実的かつ重要な問題であり、実際の輸送(Starshipなど)の参考になる可能性があるということです。
この課題に挑戦するため、まずGrok3の推論能力を活用して、Pythonでコードを自動生成させます。
生成されたスクリプトでは、matplotlibなどのライブラリを用いて、3Dでのアニメーション付きプロットを実現。スクリプト内では、ケプラーの法則に基づいた軌道計算を行うための数値的手法が採用され、実際の惑星運動を模倣する形で軌道が計算されました。計算結果として、地球と火星の位置が時間とともに変化し、両惑星間を往復する宇宙船の軌跡(緑色の球体として表現される)がアニメーションで表示されました(上図)。
アニメーションでは、地球と火星がそれぞれの位置に現れ、緑色のオブジェクト(宇宙船)が地球から火星へ、さらに火星から地球へと軌道上を移動する様子が描かれ、その計算能力の高さやコーディング能力の高さが際立ったデモとなりました。
とはいえ発表者自信もライブ内で、「実際の軌道計算にはもっと複雑な要素(例えば大気の影響や軌道摂動など)が絡む」と述べており、今回の実装は理論的な近似として非常に優れているが、今後の改良の余地があるとの認識も示されました。
ほかにもテトリスと他のゲームを融合させたようなゲームを作成する様子も紹介し、Grok3の創造力と実行力をアピールしていました。

Grok3のDeep Search

また、次世代の情報検索体験として「Deep Search」も紹介されました。
これは、ユーザーが入力する質問やクエリに対して、背景にある意図や文脈を徹底的に解析し、ユーザーが何を本当に知りたいのか、あるいはどのような情報が必要なのかを正確に把握し、より的確な情報提供を行うというものです。
複数のソースから得られた情報を照合・検証することで、正確性と信頼性を高めているほか、各情報源の内容を比較しながら、思考過程(どの情報がどのように結びついているか)を内部で処理し、最終的な回答に反映していくのだそう。
Deep Searchでは、最終回答だけでなく、その裏にある思考過程やサブタスクがユーザーに対して透明に示されるので、ユーザーはどのような情報が参考にされ、どの情報源が評価されたのか、さらにはどのような検証プロセスが行われたのかを確認し、回答の信頼性を自ら納得できる設計になっています。
Grok3が使えるプランは?
まず、Grok3はプレミアムPlus会員向けに先行提供され、最新機能や高度なツールが体験できるようになっています。同時に、一般ユーザー向けの無料版と、Web版でも展開され、幅広いユーザー層に対して利用機会を提供するとのこと。特に、Web版は最新機能が反映されやすい仕組みになっており、アプリ版との機能差もある点が強調されているので、Web版もしっかりチェックしてみましょう。
また、音声対話機能の実装が予定されているということで、音声でのやり取りも今後可能になってくるほか、会話のトーンや感情も再現する技術の開発が進められているということです。
さらに、会話の記憶機能(DM機能)も開発中で、ユーザーとの継続的な対話がより自然に行われ、パーソナライズされたものになっていくといいます。
Grok3はAPIとしても提供される予定で、企業が自社の業務や製品に組み込むことができるようになります。したがって、ビジネス用途での利用シーンも今後増えてくるかもしれません。
現状、Grok3はベータ版として提供されるため、ユーザーからのフィードバックをもとに継続的にアップデートされていくとのことです。