タグアーカイブ Google DeepMind

Gemini 3.5 Flash発表、エージェントとコード生成で最上位性能を達成

Gemini 3.5 Flash発表、エージェントとコード生成で最上位性能を達成

Google DeepMindが2026年5月15日、新たなAIモデル「Gemini 3.5」シリーズを発表した。その第一弾として「3.5 Flash」が即日公開され、一般ユーザーから開発者、大企業まで幅広く利用可能になった。

このモデルは「フロンティア知能と行動を融合させた」と表現されるように、高度な推論能力と実世界でのタスク実行力を両立させている。特にエージェント性能とコーディング性能で突出しており、従来の旗艦モデルと同等以上のベンチマークスコアを、4倍の出力速度で実現した。

本記事では、Gemini 3.5 Flashの具体的な性能、Antigravityプラットフォームとの連携、企業導入事例、そして個人向けエージェント「Gemini Spark」までを詳しく解説する。

Gemini 3.5 Flashの登場と基本的位置づけ

Gemini 3.5 Flashの登場と基本的位置づけ

Gemini 3.5シリーズは、Google DeepMindが「より有能でインテリジェントなエージェントの構築」を目的に開発した最新モデル群だ。最初にリリースされた3.5 Flashは、高速応答に定評のあるFlashシリーズの系譜を受け継ぎつつ、旗艦モデルに匹敵する知能を獲得した点が最大の特徴となる。

フロンティア性能の定義

「フロンティア性能」とは、現在実現可能な最高水準のAI能力を指す。この領域では、モデルが単に質問に答えるだけでなく、複雑なワークフローを自律的に計画し、ツールを呼び出し、長期にわたるタスクを完遂することが求められる。

3.5 Flashはこの定義に正面から応える形で設計された。開発者が数日かけるコードベースの移行作業や、監査担当者が数週間要する文書分析を、短時間かつ低コストで遂行できるようになっている。Google DeepMindの発表によれば、コスト面でも他のフロンティアモデルの半額以下で同等以上の成果を出せるとしている。

コード性能とエージェント性能の両立

3.5 Flashの真価は、コーディング能力とエージェント能力の両面で高い成果を示したことにある。従来のモデルは、どちらか一方に特化するか、速度を犠牲にして知能を高める設計が一般的だった。しかし3.5 Flashは、このトレードオフを実用レベルで解消している。

従来の旗艦モデル(Before)
コード生成 高い精度だが 遅い エージェント 長時間タスクでタイムアウト
※性能と速度の間にトレードオフが存在した
Gemini 3.5 Flash(After)
コード生成 高精度 かつ 4倍高速 エージェント 長期タスクも自動完遂
※知能と速度を両立し、トレードオフを解消

この変化により、開発者は応答速度を気にせず複雑なタスクをAIに任せられるようになる。コードベース全体の移行や、複数エージェントを使った並列処理といった高度な活用が現実的になった。

ベンチマークスコアが示す実力

ベンチマークスコアが示す実力

3.5 Flashの性能は、複数の厳格なベンチマークによって裏付けられている。特にエージェント性能を測る指標での躍進が顕著だ。

主要ベンチマークの結果

Google DeepMindの発表資料によると、3.5 Flashは以下のスコアを達成した。

  • Terminal-Bench 2.1(コーディングとエージェントの複合テスト)で76.2%
  • GDPval-AA(エージェント能力のEloレーティング)で1656 Elo
  • MCP Atlas(マルチツール連携の評価)で83.6%
  • CharXiv Reasoning(マルチモーダル理解)で84.2%

これらの数値は、前世代の旗艦モデル「Gemini 3.1 Pro」を上回るだけでなく、一部の指標では競合するクローズドモデルを凌駕する結果となっている。

速度と品質のトレードオフ解消

Artificial Analysisのインデックスでは、3.5 Flashは「知能と出力速度」の散布図で右上の象限に位置している。これは「高い知能を持ちながら極めて高速」であることを示す。具体的には、1秒あたりの出力トークン数が他のフロンティアモデルと比較して4倍に達する場面もある。

従来の選択肢(Before)
低速・高知能モデル 応答に時間がかかりUXが悪化
高速・低知能モデル 精度不足で実用に耐えない
Gemini 3.5 Flash(After)
高速かつ高知能 両立により実用性が飛躍的に向上

これにより、リアルタイム性が求められるチャットアプリや、長時間継続するエージェントタスクの両方で、安定したパフォーマンスを発揮できるようになった。

エージェントタスクの実践力

エージェントタスクの実践力

3.5 Flashの真価は、単独のモデル性能だけでなく、Googleのエージェント開発プラットフォーム「Antigravity」との組み合わせによって最大化される。

Antigravityプラットフォームとの連携

Antigravityは、複数のサブエージェントを協調させて複雑なワークフローを実行するためのハーネスだ。3.5 Flashをこの基盤に載せることで、次のようなタスクが実証されている。

  • 無秩序なファイル群を動的な条件で自動リネーム・分類
  • AlphaZeroの論文を解析し、6時間で完全にプレイ可能なゲームをコーディング
  • レガシーコードベースをNext.jsへ変換・移行
  • 都市景観の生成やブランディングコンセプトの並列作成

これらのタスクは、従来であれば熟練の開発者が数日から数週間かける規模のものだ。3.5 FlashとAntigravityの組み合わせは、単なる「便利なツール」を超えて、開発プロセスそのものを再定義する可能性を秘めている。

長期タスクの自動化事例

Google DeepMindの発表では、3.5 Flashが2つのエージェント(ビルダーとプレイヤー)を並行稼働させ、高速な自己改善ループによってゲームを開発するデモが紹介された。また、研究論文用のインタラクティブなアニメーション生成や、テキスト説明文からのインタラクティブハードウェア設計なども披露されている。

STEP 1 ユーザーが自然言語でタスクを指示
STEP 2 Antigravityが複数のサブエージェントを起動
STEP 3 3.5 Flashがコード生成・テスト・改善を自動実行
STEP 4 完成した成果物をユーザーが受け取る

このフローは、1人の開発者が複数のAIエージェントを指揮する「AIオーケストレーション」の典型例だ。開発者は細かい実装ではなく、全体の方向性と品質判断に集中できるようになる。

企業導入の具体的事例

企業導入の具体的事例

3.5 Flashは発表と同時に、複数の大手企業で実運用が始まっている。Google DeepMindは業界パートナーと密接に連携し、実際の業務で発生する「手間」と「複雑さ」を特定した上でモデルを最適化した。

ShopifyやSalesforceでの活用

Shopifyは、複数のサブエージェントを並列実行し、グローバル規模での加盟店の成長予測を高精度化している。長期的なデータ分析を並列化することで、従来より詳細かつ正確な予測が可能になった。

Salesforceは、自社の「Agentforce」プラットフォームに3.5 Flashを統合した。複数のサブエージェントがコンテキストを保持したまま複数ターンのツール呼び出しを実行し、複雑なエンタープライズタスクを確実に自動化する。これにより、営業担当者が手作業で行っていた見積書作成や顧客データの突合といった業務が大幅に効率化される見込みだ。

金融・会計分野での応用

Macquarie Bankは、100ページを超える複雑なドキュメントを推論し、顧客オンボーディングを高速化する試験運用を開始した。低レイテンシで関連情報を取得し、信頼性の高い推奨事項を提示できる点が評価されている。

会計ソフトウェアのXeroは、サプライヤーの特定や1099税務フォーム用の情報収集といった、数週間かかる管理業務をエージェントに委任する仕組みを構築中だ。これにより、小規模事業者が煩雑な管理タスクから解放され、本業に集中できるようになる。

Databricksは、エージェント型ワークフローを用いてリアルタイム情報の監視と大規模データセットの横断的な推論を行い、データサイエンティスト向けの問題診断と解決策の提案を自動化している。

個人向けエージェント「Gemini Spark」

個人向けエージェント「Gemini Spark」

3.5 Flashは企業向けだけでなく、個人ユーザーの生活にも直接的な変革をもたらす。Google I/O 2026で発表された「Gemini Spark」は、3.5 Flashを中核に据えたパーソナルAIエージェントだ。

24時間稼働のパーソナルエージェント

Gemini Sparkは、ユーザーの指示のもとで24時間365日稼働し、デジタルライフ全般を支援する。メールの整理やスケジュール調整、情報収集といった日常的なタスクを自律的に処理し、ユーザーはより創造的な作業に時間を割けるようになる。

現在は信頼できるテスター向けに展開が始まっており、米国ではGoogle AI Ultraサブスクライバー向けのベータ版が翌週に提供開始される予定だ。日本での展開時期は未発表だが、グローバル展開の一環として近い将来に利用可能になると見られている。

コーディングアシストと検索での応用

3.5 Flashのコーディング能力は、Google検索のAIモードにも統合されている。情報エージェントが24時間働き、動的な生成UIを通じてインタラクティブな解説を提供する。例えば、複雑な数理パターン「Gyroid構造」をビジュアルで示しながら説明するといった使い方が可能だ。

また、Android StudioやGoogle AI Studioを通じて、開発者が3.5 Flashを直接利用できる環境も整っている。個人開発者や中小企業の技術担当者でも、フロンティアクラスのAIを手軽にプロジェクトに組み込めるようになった。

安全性と今後の展望

安全性と今後の展望

高性能なエージェント型AIには、相応の安全対策が不可欠だ。Google DeepMindは、3.5シリーズの開発にあたり「Frontier Safety Framework」に準拠した厳格な安全策を施している。

Frontier Safety Framework

サイバー攻撃やCBRN(化学・生物・放射性物質・核)関連の有害コンテンツ生成を防ぐセーフガードが強化された。同時に、安全なクエリを誤って拒否する「過剰拒否」の問題も改善されている。

このバランスは、新しい安全トレーニング手法と、AIの内部推論を応答前にチェックする解釈可能性ツールの導入によって実現された。モデルが「何を考えているか」を事前に把握し、問題があれば出力前に修正する仕組みだ。

3.5 Proの予告

Google DeepMindは、より大規模な「3.5 Pro」の開発も進めている。すでに社内で使用されており、翌月には公開される見込みだ。Flashの高速性を保ちつつ、さらに高度な推論能力を求めるユースケースに対応する位置づけとなる。

3.5シリーズ全体として、Googleは「エージェントファースト」の開発プラットフォーム戦略を加速させている。AIが単なるアシスタントから、自律的に行動する「デジタルワーカー」へと進化する過渡期にあることを示す重要な発表といえる。

この記事のポイント

  • Gemini 3.5 Flashはエージェント性能とコード生成でフロンティアクラスの成果を達成
  • 従来の旗艦モデルと同等以上の知能を4倍の速度で提供し、実用性が大幅に向上
  • Antigravityとの連携で複数エージェントの協調動作が可能になり、長期タスクの自動化が現実的に
  • ShopifyやSalesforceなど大手企業での導入がすでに始まっており、金融・会計分野でも活用が進む
  • 個人向けエージェントGemini Sparkや検索AIモードへの統合により、一般ユーザーの生活にも直接影響を与える
Gemini Omni登場、マルチモーダル動画生成の新時代

Gemini Omni登場、マルチモーダル動画生成の新時代

Google DeepMindは2026年5月17日、新たなマルチモーダル生成AIモデル「Gemini Omni」を発表した。テキスト、画像、音声、動画といったあらゆる形式の入力を組み合わせ、高品質な動画を生成・編集できる点が最大の特徴だ。

ファーストモデルとなる「Gemini Omni Flash」は、発表と同時にGeminiアプリ、Google Flow、YouTube Shortsで提供が開始された。自然言語による会話形式での動画編集や、現実世界の物理法則を反映したリアルな映像生成が可能になっている。

この記事では、Gemini Omniが従来の動画生成AIと何が異なるのか、具体的な機能とその仕組み、そしてコンテンツ制作の現場にもたらす変化について解説する。

従来の動画生成AI(Before)
テキスト 入力 動画生成AI 出力 動画
※入力はテキストまたは画像の単一形式が主流。複数形式の組み合わせは困難
Gemini Omni(After)
テキスト 画像 音声 動画 入力 Gemini Omni 出力 高品質動画
※複数形式の入力を組み合わせ、世界知識を反映した一貫性のある動画を生成可能

上の概念図にあるように、Gemini Omniの最大の進化はインプットの柔軟性にある。テキストプロンプトだけでなく、画像や音声、既存の動画そのものを「参照素材」として組み合わせ、そこからまったく新しい映像を生み出せるのだ。DeepMindの記事によれば、将来的には画像や音声の出力にも対応する予定だという。

自然言語で動画を編集する新体験

自然言語で動画を編集する新体験

Gemini Omniが提供する最も画期的な機能のひとつが、会話形式による動画編集だ。従来の動画編集は、タイムライン上でクリップを切り貼りし、エフェクトを重ねる作業の連続だった。Omniでは、編集内容を自然言語で指示するだけで、AIが映像を理解して変更を加える。

DeepMindの発表によれば、Omniは過去の指示内容を記憶し、編集のたびに映像全体の一貫性を維持する。登場人物の見た目や物理法則、シーンの流れが破綻しない。これは単なる「映像の切り貼り」ではなく、AIが映像の文脈を理解しているからこそ実現するものだ。

映像の一部を変更、または一変させる「トランスフォーム」

Omniは、映像内の特定のオブジェクトだけを変更する、あるいはシーン全体をガラリと変えることができる。DeepMindのデモでは、「彫刻をバブル材質に変える」というプロンプトで、彫刻だけが泡状に変化する映像が紹介されている。

この機能は、例えば商品紹介動画の背景だけを差し替えたい、プロモーション映像の季節感を変更したいといった実務ニーズに直結する。撮影済みの映像を素材として、新たなクリエイティブの出発点にできるのだ。

アクションを再構築し、予想外の映像を生成

撮影済みの動画に対して「このシーンで起こっていることを変えてほしい」と指示するだけで、Omniは映像内のアクションそのものを再構築する。新しいキャラクターの追加も、光が音楽に同期して灯るような複雑な演出も可能だ。

発表資料には「手が鏡に触れた瞬間、鏡が美しい液体のように波打つ」というプロンプト例が掲載されている。こうした物理法則に基づく映像表現は、従来の動画生成AIでは難しかった領域だ。

複数ターンにわたる動画の洗練

Omniの編集は、1回の指示で終わらない。環境の変更、アングルの切り替え、スタイルの変更、特定のディテール調整といった指示を段階的に重ねることで、映像を徐々に洗練させていける。DeepMindは「バイオリニストの演奏動画」を例に、環境変更→バイオリンを透明化→肩越しのアングル変更という一連の編集を示している。

この「対話的な編集の積み重ね」は、ディレクターが編集者に指示を出す感覚に近い。クリエイティブの方向性を言葉で伝え、結果を見ながら微調整するワークフローが、AIによって実現しつつある。

世界知識が映像にリアルな文脈を与える

世界知識が映像にリアルな文脈を与える

Gemini Omniのもうひとつの核は、Google DeepMindが「世界知識(world knowledge)」と呼ぶ能力だ。Omniは単に見た目がリアルなシーンを構築するだけでなく、「次に何が起こるべきか」を推論する。物理法則、歴史的事実、科学的知識、文化的文脈を踏まえた映像生成が、単なるフォトリアルを超えた説得力のあるストーリーテリングを可能にする。

より正確な物理演算の再現

Omniは重力、運動エネルギー、流体力学といった物理法則の直感的な理解が従来よりも改善されているという。DeepMindが示した「ビー玉が高速でカラクリ装置の上を転がる連続ショット」のプロンプト例では、ビー玉の動きが物理的に破綻しない映像が生成された。

動画制作の現場では、物理演算が破綻した映像は視聴者に違和感を与え、説得力を損なう。特に製品の動作デモや、教育用の科学解説動画では、物理的正確さが信頼性に直結する。Omniのこの改善は、商用・教育コンテンツの品質を引き上げる要素だ。

知識と創造性の融合

Omniはパターンマッチングを超えたレベルで、言語と映像、意味を結びつける。DeepMindの例として挙げられた「AからZまでの珍しいアイテムを各文字ごとに表示する動画」では、カピバラ(C)、ディスコグローブ(D)、ラバランプ(L)といった具合に、各文字に対応するアイテムをAIが自律的に選定し、映像化している。

これは「指示された映像を生成する」というより、「概念を理解した上で映像化する」という質的に異なる能力だ。クリエイターがアイデアを言葉で伝えれば、AIがそれを映像的な表現に落とし込んでくれる。企画段階でのモックアップ作成や、プレゼンテーション用のビジュアル資料作成が大幅に効率化する可能性がある。

複雑な概念を視覚化する説明動画の生成

Omniは短いプロンプトから、複雑な概念をわかりやすく解説する説明動画を生成できる。DeepMindの例では、タンパク質の折り畳み(プロテインフォールディング)を、すべて粘土で作られたクレイメーション(粘土アニメ)風の映像で解説したデモが紹介された。

「複雑なトピックを短時間で視覚化できる」という点は、教育コンテンツや企業の研修資料、製品のオンボーディング動画など、幅広い用途に応用できる。特にスタートアップや中小企業にとって、高品質な説明動画を低コストで制作できる可能性は大きい。

あらゆる組み合わせから動画を生成する力

あらゆる組み合わせから動画を生成する力

Gemini Omniのインプットの柔軟性を示す機能として、DeepMindは「複数形式の参照入力」を強調している。画像、テキスト、動画、音声のいずれかを「参照素材」として与えることで、それらをブレンドしたひとつの映像を生成できる。

Gemini Omniのマルチモーダル入力フロー
STEP 1 様々な形式の参照素材を用意
🖼️ 画像 🎵 音声 🎬 動画 📝 テキスト
STEP 2 Gemini Omniが入力を理解し、映像を生成
画像 キャラクターの外見を指定 動画 動きのパターンを参照 音声 リズムに合わせて映像を同期
STEP 3 統一された映像として出力
🎬 すべての参照素材をブレンドした、一貫性のある高品質動画
参照素材(入力)  処理  最終出力

現時点で音声入力は「声」による参照のみサポートされているが、DeepMindは他の形式の音声入力にも順次対応していく方針だ。画像からキャラクターの外見を、動画から動きのパターンを、音声からリズムやトーンを取り込むといった複合的な制作が可能になる。

画像・音声・動画を「参照」して統一された映像を出力

DeepMindの発表では、3つの異なる素材(画像、動画、音声)を組み合わせて「SF映画風の映像」を生成する例が示された。画像でシーンのスタイルを、動画でカメラワークやエフェクトを、音声で映像のリズムをコントロールできる。

別の例では、人物のイラストとウォークサイクルの動画を組み合わせて、歩きながらリアルな実写映像に変化していく映像を生成している。これらは、クリエイターが持つ複数の素材アセットをAIが「調和」させてひとつの作品に仕上げるという、新しい制作フローを示唆する。

スタイル、動き、エフェクトを自在に適用

参照素材を使うことで、映像のスタイル、動き、エフェクトを細かくコントロールできる。プロンプトだけで指示する場合と比べて、参照素材があることで「こういう感じ」というニュアンスをAIに正確に伝えやすくなる。

「スケートボードにアニメーションのモーションエフェクトを追加する」という例では、撮影済みの映像とAIによるエフェクト生成がシームレスに融合した。実写とCGの境界線が曖昧になっている現在、Omniは実写素材を出発点に、AIによる拡張を重ねるというハイブリッドな制作スタイルを加速させるだろう。

自分のアバターで動画を制作、そして責任ある開発

自分のアバターで動画を制作、そして責任ある開発

Google DeepMindは、AIの責任ある開発と利用のためのポリシーを明確にしている。その一環として提供されるのが「Avatars」機能だ。これは自分の声と姿をデジタル化したアバターを作成し、そのアバターを使って動画を生成できるというもの。

デジタルアバター機能

アバター機能を使うと、生成された動画はユーザー自身の声と姿を反映したものになる。これはパーソナライズされたコンテンツ制作を可能にする一方、なりすましや悪用のリスクもはらむ。DeepMindは、音声や発話を伴う動画編集機能については、テストを重ねた上で責任ある形での提供方法を模索している段階だとしている。

SynthIDによる電子透かしとコンテンツの透明性

Omniで生成されたすべての動画には、人間の目では認識できないSynthIDのデジタル透かしが埋め込まれる。これにより、GeminiアプリやChrome、Google検索を通じて、その動画がAIによって生成されたものであることを簡単に検証できる。

AIによるコンテンツ生成が一般化するにつれ、その真正性を担保する仕組みの重要性は高まっている。動画メディアの信頼性に関わるこの取り組みは、プラットフォームとしてのGoogleの姿勢を示すものだ。Web制作者やマーケターにとっては、配信する映像コンテンツの透明性を確保する手段として注目に値する。

Gemini Omniの利用を開始するには

Gemini Omniの利用を開始するには

現在提供されているのは「Gemini Omni Flash」モデルで、Google AI Plus、Pro、Ultraの各プラン加入者がGeminiアプリとGoogle Flowで利用できる。また今週より、YouTube ShortsとYouTube Create Appでは無償で提供が開始される予定だ。

今後数週間以内には、API経由で開発者やエンタープライズ顧客にも提供が拡大される。これにより、既存の制作ワークフローやサービスにOmniの動画生成機能を組み込んだアプリケーションの登場が期待される。

この記事のポイント

  • Gemini Omniはテキスト・画像・音声・動画の組み合わせ入力に対応した動画生成AIで、最初のモデル「Flash」が提供開始された
  • 自然言語による会話形式で動画を編集でき、複数ターンの指示で映像を段階的に洗練できる
  • 物理法則や世界知識に基づいたリアルで一貫性のある映像生成が可能になった
  • 生成動画にはSynthIDの電子透かしが埋め込まれ、コンテンツの透明性が確保される
  • API提供により、今後のサービス連携や制作フローへの組み込みが加速する見込みだ