OpenAIの最新AIモデル「o3」が、AGI(汎用人工知能)の実現に向けて大きな一歩を踏み出したことが明らかになりました。2024年12月20日に発表されたこのモデルは、数学や科学的推論、プログラミングの能力を中心に、前モデルの「OpenAI o1」を大きく上回る性能を示しています。
o3モデルの最も注目すべき成果は、AGIの実現に向けたベンチマーク「ARC-AGI」での画期的な評価です。このテストは「人間が簡単に解けるが、AIには困難な課題」を通じて、AGIに近い思考能力を評価するものです。o3は、人間の水準とされる85%を上回る87.5%の正答率を記録しました。これは、従来のAIモデルでは数%前後に留まっていたスコアを大幅に上回るものです。
o3の特徴的な点は、「段階的に推論を積み重ねる」という人間の思考プロセスに近いアーキテクチャを採用していることです。これにより、AIの「考える」という概念を根本から覆し、複雑かつ高精度が求められる専門家レベルの問題をも解決できる可能性が示されました。
プログラミングの分野でも、o3は驚異的な性能を発揮しています。ソフトウェア開発のベンチマーク「SweetBench Verified」において71.7%の正確性を達成し、前モデルo1の約50%を大きく上回りました。o3は幅広いプログラミング言語に対応し、エラー検出やコードの自動最適化が可能となっています。
数学的能力においても、o3は目覚ましい成果を上げています。数学オリンピックレベルの試験「Amy」で96.7%の正確性を記録し、複雑な数式や問題の計算はもちろん、論理的思考の分野でも高い能力を示しました。
さらに、物理や化学といった専門分野でも、o3は難解な問題に対する論理的なアプローチが可能です。大学博士レベルの化学問題では、87.7%の正答率を達成しており、研究者のサポートツールとしての活用も期待されています。
OpenAIは、o3の安全性を確保するために「外部安全性テスト(Deliberative Alignment)」を導入しました。このテストは、モデルが推論能力を使ってプロンプトの意図を推論し、安全性を高める仕組みです。AIがタスク解決に用いる「チェーン・オブ・ソート(Chain of Thought/COT)」という生成プロセスを評価することで、ユーザーがAIの根拠をある程度把握できるよう配慮されています。
o3の一般公開については明言されていませんが、軽量化モデルの「o3-mini」が2025年1月下旬の公開を予定しており、それに続く形でo3もリリースされると見込まれています。o3-miniは、o3に比べて性能とコストのバランスを重視したモデルで、高性能かつ柔軟な推論能力を持つAIを手軽に利用できるよう設計されています。
o3の登場は、AI技術の進化とAGIの実現を目指す上で大きな成果を達成した革新的モデルとして評価されています。しかし、同時にAI技術の急速な進歩に伴う倫理的な課題や、高度なAIへのアクセスの不平等性といった問題も浮き彫りになっています。
o3が一般公開されれば、AI技術の歴史が塗り替えられる可能性があります。今後、o3モデルの具体的な活用事例や、AGI実現に向けた更なる進展が期待されており、AI研究者や技術者たちの注目を集めています。