日本語特化のVision-Language Modelを開発！産総研主催のAIハッカソンが成功裏に終了

産総研主催のABCI生成AIハッカソンで日本語VLM開発に成功

国立研究開発法人産業技術総合研究所(産総研)が主催する「ABCI生成AIハッカソン」が2025年2月4日から13日にかけて開催され、日本語に特化したVision-Language Model(VLM)の開発に成功したことが明らかになりました。

このハッカソンは、産総研が運用する最先端のAI向けスーパーコンピュータ「ABCI 3.0」を活用し、生成AIモデルの開発や最適化を目的としたイベントです。参加者たちは10日間という限られた期間で、ABCIの高性能な計算資源を駆使して、日本語VLMの開発に挑戦しました。

VLMとは、画像と言語を同時に理解し処理できる AI モデルのことを指します。これまで英語を中心に開発が進められてきましたが、日本語に特化したVLMの開発は遅れていました。今回のハッカソンでは、この課題に取り組み、日本語の特性を考慮したVLMの開発に成功しました。

開発されたVLMの特徴として、以下の点が挙げられます：

日本語テキストと画像の高度な連携理解
日本特有の文化的コンテキストの考慮
漢字、ひらがな、カタカナを含む複雑な文字体系への対応
日本語特有の曖昧さや含蓄の処理能力

ハッカソン参加者の一人は、「ABCI 3.0の圧倒的な計算能力のおかげで、通常なら数ヶ月かかるモデルの学習を10日間で完了することができました。これにより、試行錯誤を繰り返し、モデルの性能を大幅に向上させることができました」と語っています。

開発されたVLMは、様々なタスクで高い性能を示しました。例えば、日本の風景写真に対する詳細な説明生成、日本語の質問に対する画像内容に基づく回答、日本の文化や習慣に関連する画像とテキストの関連付けなどで優れた結果を出しています。

産総研の研究者は、「このVLMは日本語のニュアンスや文化的背景を理解した上で、画像と言語を結びつけることができます。これは、機械翻訳や自動字幕生成、視覚障害者向けの画像説明システムなど、幅広い応用が期待できます」と今回の成果の意義を強調しています。

また、このハッカソンでは、モデルの軽量化や推論速度の最適化にも取り組みました。その結果、スマートフォンやエッジデバイスでも動作可能な小型版VLMの開発にも成功しています。これにより、日常生活のさまざまな場面でVLMを活用できる可能性が広がりました。

産総研は今回の成果を踏まえ、開発されたVLMを研究コミュニティに公開する予定です。これにより、日本語VLMの研究開発がさらに加速することが期待されています。また、産業界との連携も強化し、実用化に向けた取り組みも進めていく方針です。

ABCI生成AIハッカソンの成功は、日本のAI研究開発力の高さを示すとともに、産学連携の重要性も浮き彫りにしました。今後、こうした取り組みがさらに活発化し、日本発の革新的なAI技術が次々と生まれることが期待されています。

日本語VLMの実用化により、画像認識や自然言語処理の分野で日本独自のソリューションが提供できるようになり、国内外の様々な産業分野での活用が進むと予想されます。教育、医療、製造業、観光など、幅広い分野での応用が期待され、日本のAI技術の国際競争力強化にもつながるでしょう。