中国AI開発の新たな主役として急速に台頭し始めているのが、杭州発のスタートアップ「DeepSeek(深度求索)」だ。わずか数年で、OpenAIやGoogleなど米国の巨頭が数十億ドル規模で投じている生成AI開発競争に、独自の技術力と圧倒的なコスト効率で切り込んできた。その最新のイノベーションが、2025年10月20日に発表・オープンソース化された新モデル「DeepSeek-OCR」である。
DeepSeek-OCRの最大の特長は、「視覚モダリティによる長文コンテキスト圧縮技術」にある。従来の大規模言語モデル(LLM)は、長文を処理する際に膨大な計算資源とメモリ消費を余儀なくされてきた。DeepSeek-OCRはこれを、大幅に圧縮可能にする独創的なアプローチで乗り越えた。具体的には、光学的な二次元マッピングによってテキスト情報を画像ピクセルに変換し、わずかな「視覚トークン」だけで長文を高精度に再現する。この手法により、圧縮率が10倍でも認識精度97%という驚異的なパフォーマンスを達成し、A100 GPU一枚で毎日20万ページ超のドキュメント処理が可能となった。
モデル設計にも革新がある。本モデルはDeepEncoderとDeepSeek3B-MoE-A570Mデコーダの2大コンポーネントからなる。DeepEncoderはSAM-baseの局所認識とCLIP-largeのグローバル把握を併用し、16倍のサンプリング率で情報を圧縮。300ページの書籍を20ページに縮約しても97%の情報を保持できる。一方、MoE(Mixture of Experts)デコーダは、異なる言語や構成の文書に専門特化した「エキスパート」サブモデル群を柔軟に起動し、実運用時は3Bパラメータ大モデルながら必要計算コストは570Mパラメータに抑えられる。その効率性は、人間のプロ技能者数百人分に相当する。
実際の応用シーンでは、PPT資料ならわずか64トークン、複雑な学術論文(数式や化学式含む)は400トークンで完全再現可能。多言語混合文書のテストでもアラビア語や僧伽羅語などの認識に成功し、さらに汎用的な画像理解も実現している。事実上、「あらゆる構造化・非構造化文書」「多言語ドキュメント」「数学・化学・物理の専門図表」の解析を一括して処理可能な新世代AIとして位置づけられる。
学習データにも抜かりはない。3000万ページ超の多言語PDFデータ(100言語、うち中英文2500万ページ)、加えて300万件のWordドキュメント(数式・HTML表含む)、さらにLAIONやWukongなどの画像データセットから2000万件のOCR場面データ(中英文各1千万件)を収集・活用している。「モデル飛輪」機構により、マイナー言語などでも自己学習的に精度向上を図り、最終的には幅広い言語、多彩な文書タイプに対応した高品質AI OCR基盤を築いた。
この技術革新は、金融、医療、出版、研究など多様な業界に大きなインパクトを与える。たとえば、膨大な財務報告書を一瞬で構造化データ化、医療分野では歴史的な紙カルテの高速デジタル化、出版では古典籍の超短時間データ化など、従来人手では莫大な労力と時間を要したプロセスを劇的に自動化する。さらに「視覚記憶」の特性と長文コンテキスト圧縮技術は、GPTなどの大規模言語モデルが抱える「文脈長制約(context window)」の問題にも大きな突破口を提示する。
DeepSeekはわずか数ヶ月・600万ドルの低コストで世界トップ水準のAIを開発した功績も高く評価され、「2025年 TIME誌ベスト発明」にも中国勢として選出された。他にも中国発スタートアップQwen(通義千问)などが大規模言語モデル、画像生成分野での進展を示しており、産業界では「中国勢がAI開発の主役に躍り出た」とする論調が強まっている。中国は、膨大なデータ資源・独自アルゴリズム・柔軟かつ効率的な研究体制を武器に、生成AI分野で国際的な存在感を急速に高めている。
このように、DeepSeek-OCRを筆頭に中国AIスタートアップの台頭は、AI産業のイノベーションとグローバル競争構造そのものを塗り替えつつある。今後も中国発AIモデルの進化と社会実装事例に、世界が注目する状況が続くだろう。