このところ複数の情報源によってOpenAIのAIエージェントとなる「Operator」の開発者向けリリースが2025年1月中に行われるのでは、との報道がなされています。
最近よく耳にするAIエージェントとはいったいどういうものなのか、「Operator」はどういうものになるのか、現在分かる範囲でお伝えします。
Operatorはどんなエージェント?
AI製品に関するリークで高い信頼性をもつエンジニアのTibor Blaho氏によれば、macOS用のChatGPTデスクトップアプリに「Operator」の「切り替え 」と 「強制終了 」のショートカットを定義する隠しオプションがあることが分かったということです。
OpenAIのウェブサイトには、すでにOperator/OpenAI CUA (Computer Use Agent) – 「Operator System Card Table」、「Operator Research Eval Table」、「Operator Refusal Rate Table 」への言及があるということで、一層その信ぴょう性を増しています。
Operatorは簡単に言えば、ユーザーの指示に基づいてコンピューターを自律的に制御し、タスクを実行するというもの。
同様の機能としては、Claudeを開発するAnthropicが「Computer Use」というエージェント機能をすでに実装しており、OpenAIもそのあとに続くという形です。
できることとしては、コードの作成のほか、旅行計画における予約の実行、複雑なタスクを一連の処理として自動化するなど、ユーザーがやるべきことを簡素化するものとして、自律的に動くことが求められる機能になります。
サム・アルトマンによれば、「次の大きなブレークスルーはエージェントになる」ということで、OpenAIがエージェントの開発に力を入れていないわけではありません。むしろ重要視しているほどで、開発のスピード感にも力を入れている様子がうかがえます。
リリース当初は、開発者向けのAPIを通じて提供され、まずは企業や研究者が使える環境が整えられる見通し。
Operatorの性能
このOperatorの性能についても先ほどのTibor Blaho氏がリークした内容によれば、次のようになります。
OpenAIのウェブサイト内部でOperatorに関するパフォーマンスや評価基準を示すテーブルが発見され、安全性評価が記録されており、開発段階で重要な評価項目となっていることが分かります。
まず、Operatorは違法行為や有害なコンテンツに対して、ほぼ100%の確率で拒否することができるようです。有害な行為というのは例えていうと個人情報の検索や犯罪につながるタスクの実行等です。
そのうち、マネーロンダリングや不正な暗号資産取引といった違法な金融行為については、拒否率が97%となり、若干の改善余地があることが分かりました。
具体的なベンチマークについては、ファイルの作成や削除といった管理、アプリの起動や閉鎖、簡単なプログラムの実行、システム設定の変更といった、コンピューターの基本操作能力を評価するもの(OSWorld)では、Operatorのスコアは38.1%となり、ClaudeのComputer Useの22%に比べてたかいものの、人間の能力が72.4%ということなので、人間のレベルには遠く及ばないといった感じです。つまり、実際にコンピューターを汎用的に操作する能力はそれほど高くはないものの、現状の他のAIモデルに比べると高い性能を誇っているということです。
一方、ウェブページの読み込みやフォームへの入力、検索機能の活用、ECサイトでの商品の購入、ウェブAPIの利用やオンラインデータの取得といったウェブ上でのタスク実行能力をはかるベンチマーク(WebVoyager)では、87%と高い能力を示しており、これは人間の85.3%という平均スコアに比べて高い値を示しています。
これはつまり一般的な人がウェブブラウジングを必要とする作業や、APIを取得してツールを連携するといった作業などに有効にOperatorが活用できることを示唆しています。
項目 | OSWorld | WebVoyager |
評価対象 | コンピューター操作全般(ローカル環境) | ウェブブラウジング(オンライン環境) |
スコア範囲 | 0~100% | 0~100% |
人間のスコア | 72.4% | 85.3% |
Operatorのスコア | 38.1% | 87.0% |
対象タスク例 | ファイル管理、アプリケーション起動、設定変更 | フォーム入力、API利用、オンライン購入 |
例えば、Bitcoinウォレットの作成というタスクでは成功率が10%で、クラウドプロバイダーの仮想マシン起動というタスクでは成功率が60%でした。
まとめ
OpenAIが開発している「Operator」は、コンピューター操作やウェブ上のタスクを自動で行うことを目的としたAIです。その性能を測るベンチマークテストの結果から、Operatorは得意な分野と改善が必要な分野があることがわかります。
パソコン操作全般を評価する「OSWorld」では、ファイルの管理やアプリの起動といった基本的な作業において、Operatorのスコアは38.1%と、人間の平均スコア72.4%には届いていません。この結果から、まだ複雑な作業や柔軟な操作には改良の余地があると言えます。
一方、ウェブサイトを使ったタスクを評価する「WebVoyager」では、情報検索やフォーム入力のような作業で87.0%という高スコアを記録し、人間(85.3%)を上回る性能を示しています。特にオンライン環境での効率性が強みであり、データ収集や予約システムの自動化といった場面で役立つ可能性が期待されています。
Operatorは、現時点で特にウェブ関連の自動化に優れた性能を持つ一方、ローカルなパソコン操作における課題も明らかになっています。今後の開発により、これらの弱点が克服されれば、日常の業務や個人の生活をさらに効率化するツールとして活用されること間違いなし。
また、安全性の面でも、違法行為や不適切な内容に対する対策が厳格に施されており、信頼性の高いAIエージェントとしての成長が期待されています。AIエージェントの普及でネット空間の犯罪行為が横行していては元も子もありません。
Operatorはまだ開発途上にあるものの、特化した能力を発揮しており、AIを活用した自動化の未来を大きく前進させる可能性を秘めています。1月のリリースは研究者や開発者向けのものではありますが、彼らがさらなる改良を施してくれたうえで一般利用にも早期につながることを期待します。