Category Archive AI・開発支援

OpenAI、生命科学特化型AI「GPT Rosalind」を大幅刷新。複雑な研究ワークフローを自律支援

OpenAI、生命科学特化型AI「GPT Rosalind」を大幅刷新。複雑な研究ワークフローを自律支援

OpenAIは2026年6月3日、生命科学研究に特化したAIモデル「GPT-Rosalind」の最新アップデートを発表した。この新版は、GPT-5.5の自律的なコーディングや外部ツール活用の能力を基盤に、医薬品化学やゲノム科学といった創薬の中核領域での知能を大幅に強化している。単なる性能向上に留まらず、実際の研究ワークフローに密着した新機能と評価指標が加わった点が最大の特徴だ。

具体的には、実験計画の批判的レビュー、化学構造の解析、長期的なデータ分析タスクなど、研究者が日々直面する複雑な作業において、処理効率と精度を両立させている。さらに、対話的な研究環境を実現するプラグイン群も公開され、AIが論文や実験データを横断的に解釈し、具体的な次の一手を提示できるようになった。

この記事では、GPT-Rosalindの具体的な改良点、研究現場での活用方法、そしてこの技術が生命科学産業にもたらす実務的なインパクトについて、詳しく解説していく。

複雑な創薬プロセスを支える「審査官」としての知能

複雑な創薬プロセスを支える「審査官」としての知能

今回のアップデートで最も注目すべき点は、AIが研究データの単なる分析者から、研究戦略そのものを批判的に評価する「査読者」の役割を担い始めたことだ。OpenAIの記事では、ある遺伝子治療薬の治験データパッケージをGPT-Rosalindに評価させた事例が紹介されている。

AIに与えられたのは、デュシェンヌ型筋ジストロフィーを対象とした架空の遺伝子治療薬「AAV9-microDys-X」の第1/2相試験データだ。GPT-Rosalindは、このデータを承認申請の根拠として使うにはどのような穴があるか、FDAのような厳しい視点で項目ごとに圧力テストを行った。

AIが見抜いた実験デザインの落とし穴

GPT-Rosalindの回答は、研究開発の現場を知る者にとって非常に実践的な内容だった。例えば、タンパク質の定量法についてだ。この試験では、導入したマイクロジストロフィンというタンパク質の量を、ウェスタンブロット法で測定していた。しかしAIは、使用されたMANEX1A抗体が、治療用のマイクロジストロフィンだけでなく、患者の体内に元からあるごくわずかな正常ジストロフィン(復帰線維由来)にも結合してしまう可能性を指摘した。

これは、測定値が見かけ上、実際より高く出てしまう「アッセイの特異性」に関する根本的な問題だ。AIは、より正確に治療効果を測るには、標的質量分析や導入遺伝子に特異的な抗体を使った直交的な検証が必要だと、具体的な改善策まで提案している。

このほかにも、以下のような多角的な問題点が指摘された。

  • 筋肉生検を行った部位が左右で異なることによる、空間的なばらつきの影響
  • 比較対照として用いられた外部の自然歴データ群と、治験参加者との背景因子の違い
  • 被験者の年齢層が4〜7歳であり、自然な運動機能の発達と治療効果が交絡する可能性
  • 治療用ベクターとして使われたAAV9ウイルスに対する免疫反応と、心筋炎リスクの評価不足

重要なのは、これらの指摘が公開済みの一般論ではなく、目の前のデータパッケージに対する徹底した「アイテムごとの圧力テスト」として行われた点だ。OpenAIの記事によれば、GPT-Rosalindはこの複雑な査読タスクを高精度でこなす。これは、創薬企業が社内の専門家レビューを経る前に、AIによる網羅的な事前評価で議論の質を高め、開発の手戻りリスクを減らせる可能性を示している。

従来の実験計画レビュー(Before)
研究者 データをまとめる 社内会議 複数回の指摘 手戻り
※専門家の知見が集まるまで、デザインの問題点が見落とされがち。指摘に時間がかかり、実験をやり直すコストが発生する。
AIを活用した事前レビュー(After)
研究者 実験計画書を作成 GPT-Rosalind 盲点を即時指摘 計画を修正してから実験開始
※AIが抗体の特異性や統計手法の不備を事前に発見。実験の手戻りを大幅に削減し、開発期間の短縮に貢献する。
従来フロー  AI支援フロー

専門知識を要するタスクでの圧倒的な性能向上

専門知識を要するタスクでの圧倒的な性能向上

GPT-Rosalindの真価は、生命科学の様々な専門領域を網羅する、新たに設計された評価ベンチマークのスコアによっても裏付けられている。OpenAIは、実際の研究ワークフローを模倣した複数のベンチマークを開発し、モデルの性能を測定した。

創薬化学ベンチマーク「MedChemBench」

創薬化学は、化合物を薬に変えるための学問だ。OpenAIが設計した「MedChemBench」は、化合物の構造理解から、構造活性相関(SAR)、薬効や毒性の予測、複数のパラメータを考慮したリード化合物の最適化、そして合成経路の設計(逆合成解析)まで、実際の創薬化学者の頭の中をそのままトレースするようなベンチマークである。

GPT-RosalindはこのMedChemBenchで27.5%のスコアを達成し、ベースとなったGPT-5.5の25.1%を上回った。特筆すべきは、この性能向上を達成するために消費したトークン数が、GPT-5.5と比較して7.2%も少なかったことだ。これは、より少ない計算リソースでより正確な答えを導き出せる、モデルの推論効率が向上したことを意味する。

ゲノミクス・定量生物学ベンチマーク「GeneBench」

ゲノムデータの解析は、単にツールを順番に動かせば良いというものではない。データの品質管理から始まり、モデリング手法の選択、そして結果の解釈に至るまで、長いステップの中で研究者が適切な判断を下し続ける必要がある。このような「長期的で自律的な分析能力」を測るのが「GeneBench」だ。

機能ゲノミクスや空間トランスクリプトミクス、プロテオミクスなど、多様なドメインの問題を含むこのベンチマークで、GPT-Rosalindは21.6%の正答率を達成。GPT-5.5の20.4%を上回りつつ、消費トークン数は実に31%も削減した。これは、複雑なデータ分析タスクをより効率的に、かつ破綻なく最後まで遂行できる能力が格段に向上した証拠だ。

実験現場の強い味方「LabWorkBench」

AIが論文やデータ分析に強いことは知られているが、実際に白衣を着て実験室(ウェットラボ)に立つ研究者の手助けができるかは別問題だ。OpenAIは、実際の実験プロトコルに基づき、トラブルシューティングや最適化を支援する能力を測る「LabWorkBench」を新たに導入した。

このベンチマークでGPT-Rosalindは63.2%のスコアを叩き出し、GPT-5.5の55.8%から大幅に向上した。ここでも消費トークンは5.3%削減されている。例えば、細胞培養でコンタミネーションが疑われる場合の原因究明や、PCR反応の条件検討など、熟練した研究者の経験に頼っていた領域で、AIが強力な支援を提供できる段階に入ったことを示している。

STEP 1 研究者が「PCRのバンドが薄い」とAIに相談
STEP 2 GPT-Rosalindがプロトコルと実験ノートの記載を解析
STEP 3 アニーリング温度の不適切さを指摘し、最適な温度を提案
STEP 4 研究者が条件を変更し、実験が成功。次のステップへ
問題認識  原因解析  解決策提示  実行と完了

研究現場とAIをつなぐ実用的な分析プラグイン

研究現場とAIをつなぐ実用的な分析プラグイン

いくらAIの性能が高くても、研究者の日常的なツールと切り離されていては宝の持ち腐れだ。OpenAIはこの課題に対し、生命科学研究専用の2つのCodexプラグインを公開した。

NGS分析プラグインでゲノムデータを対話的に探索

「Life Sciences NGS Analysis」プラグインは、次世代シーケンシングデータの解析を対話型で行えるようにするものだ。OpenAIのデモでは、液状腫瘍生検のctDNAデータを分析し、KRAS G12C変異に注目するプロセスが示されている。

このプラグインの強みは、単に解析パイプラインを自動実行するだけではない。処理されたデータから、再発性の変異やサンプルの軌跡をインタラクティブなノートブックとして可視化し、研究者がデータと直接対話しながら調査を進められる点だ。例えば、シングルセルRNAシーケンシングの解析では、品質管理の指標やUMAPによる細胞集団の可視化、細胞タイプのアノテーションまでを一貫して実行し、その過程で生じた判断の根拠やフィルタリングの履歴をすべて保存する。

これにより、解析結果の再現性と信頼性が飛躍的に高まる。従来のように、研究者が手作業でスクリプトを修正し、結果を目視で確認するのに費やしていた膨大な時間を、より創造的な仮説立案に充てられるようになる。

研究エビデンスを収集・解釈するリサーチプラグイン

もう一つの「Life Sciences Research」プラグインは、外部の論文や公開データベースから必要な情報を収集し、生物学的な解釈を加える役割を担う。先ほどのKRAS G12C変異の例でいえば、このプラグインが関連する阻害剤の情報や耐性メカニズムに関する文献を自動で収集し、研究者に提示する。

さらに、タンパク質の立体構造ビューアや塩基配列ビューアといったネイティブなファイル形式に対応したビューアも追加された。これにより、AIが提案した阻害剤がタンパク質のどの部分に結合するのかを、3次元構造を見ながらその場で検討できる。AIが提示するテキスト情報と、研究者自身の視覚的な専門判断をシームレスに統合できる環境が整ったのだ。

NGS解析プラグイン ctDNAデータ処理
KRAS G12Cなどの重要変異を特定し、解析ノートブックを自動作成。データの品質管理から可視化までを一貫実施。
リサーチプラグイン 文献・DB横断検索
特定した変異に関連する阻害剤や耐性情報を論文から自動収集。生物学的な意義を解釈し、創薬への洞察を提供。
構造ビューア連携 3次元で結合を確認
AIが提案する阻害剤候補と標的タンパク質の結合様式を、インタラクティブな構造ビューアでその場で検証。次の実験計画に直結。
データ処理  知識統合  構造確認

信頼できる形での産業展開と社会実装

信頼できる形での産業展開と社会実装

強力な生物学的知能を有するAIを、どう社会実装するか。OpenAIはこの点について、明確な信頼構築の枠組みを示している。

GPT-Rosalindの利用は、明確な公共の利益をもたらす正当な科学研究を行う組織に限定され、強固なガバナンスと安全管理体制を持つことを条件とした「トラステッドアクセス」構造を通じて提供される。これは、技術の民主化と悪用防止のバランスを取るための、現時点での現実的な解と言える。

この世界的な展開の中で、OpenAIはデンマークの大手製薬企業Novo Nordiskとの協業を発表した。Novo NordiskのAI・デジタルイノベーション担当グループバイスプレジデント、Mishal Patel氏はOpenAIの記事の中で、「生命科学研究は複雑でデータが豊富、かつ学際的だ。研究者に意味のある価値を提供するには、AIモデルが信頼できる科学データに基づき、検証されたツールに接続され、研究者が日常的に使うワークフローに統合されていなければならない」と述べ、両社の協力関係への期待を示している。

この動きは重要だ。単に高性能なAIを作って終わりではなく、実際の創薬現場でどのようにデータを分析し、仮説を検証し、開発スピードを加速させるかという、極めて実務的な価値検証の段階に入ったことを意味する。GPT-Rosalindの強みは、文献情報、ゲノムデータ、トランスクリプトームデータ、タンパク質の立体構造といった異なる階層の情報を結びつけ、一貫した生物学的なストーリーとして研究者に提示できることにある。これは、複雑化する創薬プロセスにおいて、人間の認知負荷を大きく下げる可能性を秘めている。

この記事のポイント

  • GPT-Rosalindは、実験計画の批判的レビューや創薬化学、ゲノム解析など、専門性の高いタスクで性能が向上し、従来モデルより少ない計算リソースで高精度な回答を実現する
  • NGS解析や文献調査の専用プラグインによって、データ分析から仮説立案までの研究ワークフローがシームレスに統合された
  • Novo Nordiskとの協業に象徴されるように、実際の創薬現場での実用性と価値検証の段階に入った
  • AIの社会実装にあたり、公共の利益と強固なガバナンスを条件とした信頼構築モデルが採用されている
ChatGPTメモリがDreamingで進化、長期記憶と時間経過を自動反映

ChatGPTメモリがDreamingで進化、長期記憶と時間経過を自動反映

OpenAIが2026年6月4日、ChatGPTのメモリ機能を抜本的に改良したと発表した。新たに「Dreaming V3」というシステムを導入し、大規模なユーザー数と長期間の利用を想定したメモリ管理を実現する。

従来の「保存メモリ」は、明示的な指示がなければ情報を覚えられず、時間とともに内容が陳腐化する課題を抱えていた。今回のアップデートで、ChatGPTはバックグラウンドで会話履歴を分析し、自動的にメモリを最新化する。Plus・Proユーザーは同日より利用可能で、FreeユーザーとGoユーザーへの展開も数週間以内に開始される。

メモリ機能「Dreaming」の仕組み

メモリ機能「Dreaming」の仕組み
従来の保存メモリ(2024年〜)
ユーザー 「シンガポールに行くのを覚えておいて」
ChatGPT メモを保存。しかし会話で触れられない情報は忘れる
課題:明示指示がないと保存されず、時間経過で内容が古くなる
Dreaming V3(今回のアップデート)
Dreamingプロセス バックグラウンドで全チャット履歴を自動分析
結果 旅行終了後は「行った」に自動更新。好みも継続反映
改善:宣言不要で全情報を新鮮に保つ。時間経過にも自動対応

Dreamingは、ChatGPTがあなたとのあらゆる会話から学習し、メモリを合成するバックグラウンド処理だ。従来の「ノートを取ってくれるが、書かなかったことは忘れる同僚」のような挙動から、「会話の文脈全体を理解し、常に最新情報を反映するパートナー」への変化と言える。

なぜDreamingが必要になったのか

ChatGPTのメモリ機能は2024年4月に初登場した。これは「保存メモリ」と呼ばれ、ユーザーが「覚えておいて」と指示した情報だけを保存する仕組みだった。しかし実際の会話では、明示的に指示されない暗黙の好みや状況が大量に存在する。保存メモリだけでは、数カ月前の旅行計画が終了しても「まだ旅行中」と誤認識するなど、情報の鮮度が落ちる問題が避けられなかった。

2025年4月にDreamingの初期バージョンが導入され、保存メモリを補完する形で改善が図られた。しかし当時はまだ、単独のメモリシステムとして十分に機能する段階にはなかった。今回のDreaming V3は、この補助的な役割を超え、完全なメモリ管理システムとして再設計されている。

Dreaming V3が実現する3つの目標

Dreaming V3が実現する3つの目標

OpenAIは「優れたメモリ」を定義する3つの柱を提示している。過去の会話から有用な文脈を引き継ぐこと、ユーザーの好みや制約に従うこと、そして時間経過を考慮して情報を最新に保つことだ。Dreaming V3の評価結果は、この3軸すべてで大幅な改善を示している。

文脈の引き継ぎ:過去の自分を忘れない

メモリなし(Before)
ユーザー 「私のカメラ構成に合うレンズは?」
ChatGPT 一般的な回答。ユーザー自身で互換性を調べる必要あり
Dreamingメモリあり(After)
ユーザー 同じ質問
ChatGPT 過去の会話からカメラ構成を記憶し、互換性のある製品を推薦

新しいチャットを始めるたびに自己紹介からやり直す必要がなくなる。たとえば、過去にカメラ機材について相談していれば、ChatGPTは「私の撮影構成に合うもの」という曖昧な質問にも、過去の会話を踏まえた的確な製品を提案できる。これは、長期間にわたる複雑なプロジェクトで特に威力を発揮する。

好みと制約の反映:暗黙のルールを理解する

ユーザーの好みには、明示的な指示(「スタンの話はもう出さないで」)から、個人の制約(「私はベジタリアンです」)、そして地理情報のような暗黙の好み(「サンフランシスコ近郊に住んでいる」から現地情報を優先する)まで様々な形がある。Dreaming V3は、これらの情報を会話の流れから自然に拾い上げ、矛盾のない応答を継続的に生成する。

OpenAIの評価では、「ベジタリアン」と伝えたユーザーが後日食事の提案を求めた際、Dreamingが自動的に菜食対応の選択肢を提示するかがテストされた。結果は、従来の保存メモリ単体に比べて大幅な正答率の向上を示したという。

時間経過への対応:記憶を自動で更新する

陳腐化したメモリ(Before)
ChatGPTの認識 「ユーザーはまだシンガポールにいる」
帰国後も旅行中の前提で回答してしまう
Dreamingで自動更新(After)
ChatGPTの認識 「2026年7月にシンガポールへ旅行した」
現在地に合わせたレコメンドを再開

従来の最大の弱点は、時間の経過によるメモリの陳腐化だった。Dreamingはここで真価を発揮する。たとえば「7月にシンガポール旅行」という記憶は、旅行が終われば自動的に「2026年7月にシンガポールに行った」という過去の出来事に書き換えられる。ChatGPTはその後、自宅近辺の情報を優先して提供するようになる。

OpenAIの評価では、時間経過が正しい回答に影響を与えるシナリオで、Dreamingが顕著な改善を達成したと報告されている。これは、単なる事実記憶ではなく、時間的文脈を理解した応答が可能になったことを意味する。

計算効率の改善と無料ユーザーへの展開

計算効率の改善と無料ユーザーへの展開

Dreaming V3のもう一つの重要な進化は、計算効率だ。OpenAIによれば、今回の改良によりDreamingを無料ユーザーに提供するために必要な計算リソースが約5分の1に削減された。これは、大規模なユーザーベースに対して実用的なメモリシステムを展開する上で決定的なブレイクスルーである。

以前は、Dreamingの処理負荷が高く、Freeユーザーに品質基準を満たしたメモリ機能を提供することが難しかった。今回の効率化により、数週間以内にFreeユーザーとGoユーザーへの段階的なロールアウトが開始される。同時に、Plus・Proユーザーのメモリ容量も拡張される予定だ。

STEP 1 Dreaming V0(2025年)でPlus・Pro向けに導入。計算負荷が高く無料展開は困難
STEP 2 Dreaming V3で計算リソースを約5倍削減。アーキテクチャレベルで効率化
STEP 3 全ユーザー向けの品質基準を満たし、Free・Goユーザーへの展開を開始
■ 青=Plus/Pro向け初期展開 ■ 緑=計算効率の改善 ■ 橙=無料ユーザーへの展開

この効率化は、単にユーザー数を増やすためだけではない。OpenAIの長期的なビジョンである「全ユーザーに共有メモリ基盤を提供する」という目標に向けた、アーキテクチャ上の重要なマイルストーンでもある。

メモリの透明性とユーザーコントロール

メモリの透明性とユーザーコントロール

Dreamingが自動で合成したメモリは、すべてメモリサマリーページで確認できる。このページでは、ChatGPTがあなたについて把握しているハイライトを一目で把握し、必要に応じて情報の追加や更新、特定の話題に関する指示を与えることが可能だ。さらに詳細を知りたい場合は、チャットを通じて深掘りすることもできる。

これは、AIのパーソナライズ機能において重要なバランスだ。高い利便性を提供しつつ、ユーザーが自分のデータの全体像を把握し、コントロールできる状態を維持している。自動化と透明性の両立が、Dreamingの設計思想に組み込まれている。

Dreamingがもたらす実務への影響と今後の展望

Dreamingがもたらす実務への影響と今後の展望

Dreaming V3の登場は、ChatGPTを単発の質問応答ツールから、長期的なパートナーへと進化させる転換点だ。特に、プロジェクト管理や継続的な学習相談、ビジネス上の意思決定支援など、時間をかけて関係性を構築するユースケースで真価を発揮する。

OpenAIはこのアップデートを「これまでで最も高性能なメモリシステム」と位置づけており、今後も改良を続けるとしている。Dreamingは、将来的により高度なエージェント機能や、複数のChatGPTセッションを横断したタスク実行の基盤となる可能性が高い。

一方で、バックグラウンドで常に会話履歴を分析することへのプライバシー感度は、ユーザーによって異なるだろう。OpenAIはメモリの確認・削除を容易にするインターフェースを提供しているが、AIの記憶が深まるにつれて、データ管理の重要性も比例して高まる。このバランスが、今後の普及速度を左右する要素の一つになる。

Dreaming導入前のChatGPT利用パターン
ユーザー 毎回ゼロから質問
ChatGPT 各セッションが独立。過去を踏まえた継続的支援が困難
結果:単発ツールとしての利用に留まる
Dreaming V3導入後のChatGPT利用パターン
ユーザー 最初の1文でパーソナライズされた応答を得る
ChatGPT 長期プロジェクトを理解し、時間経過も加味した継続支援が可能
結果:日常に溶け込む知的パートナーへ進化

このデモは、DreamingがChatGPTの役割を根本から変えることを示している。もはや「賢い検索エンジン」ではなく、あなたの文脈を理解し続ける存在になる。

この記事のポイント

  • Dreaming V3は、バックグラウンドで全チャット履歴から自動的にメモリを合成する
  • 「文脈引き継ぎ」「好みの反映」「時間経過対応」の3軸で大幅な改善を達成
  • 計算効率が約5倍向上し、Free・Goユーザーへの展開が開始される
  • メモリサマリーページで、ChatGPTの把握内容を常に確認・編集可能
  • 長期的なプロジェクト支援やパーソナライズの質が飛躍的に向上する
GitHub Copilotデスクトップアプリ登場、エージェント駆動開発の拠点に

GitHub Copilotデスクトップアプリ登場、エージェント駆動開発の拠点に

GitHubが2026年6月2日、新たなGitHub Copilotアプリをテクニカルプレビューとして公開した。このアプリは、複数のAIエージェントを並行して管理・指示するための「エージェントネイティブ」なデスクトップ体験を提供する。

Copilot Pro、Pro+、Business、Enterpriseの既存ユーザーはすぐに利用を開始できる。My Workビュー、ワークツリーによるセッション分離、Agent Merge、Canvas、サンドボックス、高度なコードレビュー、SDK、刷新されたCLIなど、エージェント主導開発の基盤として設計された機能群を詳しく見ていく。

GitHub Copilotアプリ:エージェントネイティブ開発のコントロールセンター

GitHub Copilotアプリ:エージェントネイティブ開発のコントロールセンター

多くの開発者が日常的に複数エージェントを動かすようになるにつれ、ウィンドウを切り替えながらセッションを追跡する従来のやり方では限界が出てきた。Copilotアプリはその断絶を解消する。

「My Work」ビューは、接続されたリポジトリ全体にわたって稼働中のセッション、Issue、プルリクエスト、バックグラウンド自動化を一覧表示する。各セッションは固有のgit worktree(ブランチの独立した作業コピー)で実行されるため、エージェントどうしが互いの作業を壊すことはない。worktreeの作成や後片付けはアプリが自動的に処理する。

さらにAgent Merge機能は、プルリクエストをレビューからチェック、マージまで運ぶ。CIの監視、必須レビュアーの確認、失敗したチェックの修正をCopilotが代行し、開発者は「CIをグリーンに戻す」「フィードバックに対応する」「条件を満たしたらマージする」といった自動化の範囲を選べる。

GitHub Blogに掲載されたAvanade Inc.のDavid Jobling氏(Master Technology Architect)のコメントによれば、「Forward Deployedのエンジニアは多数のエージェントを一元的に扱い、複数のイニシアチブを管理できる。プランやオートパイロットへのアクセスが容易になり、必要に応じてインタラクティブなセッションを実行したりコードに介入したりできる」と評価している。

この統合感をビフォーアフターで示すと、次のような差になる。

従来のエージェント開発(Before)
エージェントA バグ調査中 → ターミナルウィンドウが散乱
エージェントB PR実装中 → 変更内容が不明瞭
エージェントC レビュー対応中 → フィードバックの追跡に苦労
※複数のエージェントが個別に動作し、文脈が分散
Copilotアプリによる統合管理(After)
My Workビュー エージェントA・B・Cを一覧表示
ワークツリー 各セッションを独立した作業コピーで分離
Agent Merge CI確認 → レビュー対応 → マージまで自動化
※すべてのセッションを一元的に発信・監視・マージ

このデモのように、Copilotアプリはエージェントが「ただコードを提案する」存在から「プロジェクト全体を駆動する」存在へ変わるための統制盤になる。

Canvas:意図を見える化する双方向作業面

Canvas:意図を見える化する双方向作業面

チャットは指示や曖昧さの解消に強い。しかしエージェントが本格的な作業を始めると、チャットスレッドは判断やログ、修正指示の長いスクロールになり、作業そのものの全体像を見失いがちだ。

そこで導入されたCanvasは、人間とエージェントが同じ面で作業する双方向の作業サーフェスだ。プラン、プルリクエスト、ブラウザセッション、ターミナル、デプロイ状況、ワークフローの状態など、エージェントが作業を進めるにつれてCanvasが更新され、開発者はその場で編集、順序変更、承認、方向転換ができる。

従来のチャット単体(Before)
チャット: エージェントに「バグ調査して」依頼 → 長文のログが延々と続く
結果: どこで何が行われたか把握しづらい
Canvasによる可視化(After)
プラン
エージェントが立てた計画を表示・編集
PR
プルリクエストの変更内容を確認
ターミナル
セッションの実行結果
※人間もエージェントも同じキャンバス上で編集・承認・指示

チャットが「思考の場」だとすれば、Canvasは「作業の場」だ。これが、GitHubが提唱するエージェント体験(AX)の出発点になる。

サンドボックス:本番に触れずにエージェントを動かす隔離環境

サンドボックス:本番に触れずにエージェントを動かす隔離環境

コードを提案するだけでなく、実際にコードを実行し、テストし、結果を調べて反復できることがエージェントの実用性を高める。そのために用意されたのが、ローカルとクラウドの2種類のサンドボックスだ。

ローカルサンドボックス
マシン上で隔離実行
・ファイルシステムやネットワーク接続を制限
・ポリシーを一元的に設定・適用
・オフライン作業に最適
クラウドサンドボックス
GitHub上で完全分離のLinux環境
・一時的な環境、セッション終了で破棄
・組織のポリシーを自由に定義
・任意のデバイスからリモート操作

ローカルではマシンのリソースを直接使いつつもポリシーで範囲を絞り、クラウドでは完全に独立したエフェメラル環境が手に入る。いずれも本番環境に手を触れることなく、エージェントがコードの実行と検証を繰り返せる。

コードレビュー機能:エージェント出力にスケールする審査

コードレビュー機能:エージェント出力にスケールする審査

エージェントが生成するプルリクエストが増えるほど、コードレビューの負荷は増す。Copilotコードレビューは、適応的なエージェントシステムでノイズをふるい分け、開発者は本当に重要な判断に集中できる。

新たに追加された「中程度」レビューティアでは、より高精度な推論モデルを利用してレビューの適合率と再現率を向上させる。管理者はリポジトリごとに「低」か「中」を割り当てられ、リスクの低いコードには軽量なモデルを、影響度の高いリポジトリには強力なモデルを振り分けられる。

また、/security-reviewスキルはセキュリティに特化した評価経路を用意し、一般提供された/rubberduckスキルは複数のモデルファミリーを利用して実装を批判的に検証し、新たな問題点を見つける。

さらに、Azure DevOpsユーザーはCopilotコードレビューをネイティブに利用できるようになった。ワンクリックレビュー、インラインコメント、コミット可能な修正提案といった機能がそのまま使える。

従来のレビュー(Before)
多数のPRに圧倒され、手動レビューに追われる
・見落としのリスク
・時間が足りない
Copilotコードレビュー(After)
Copilotが自動レビューを実施、人間は重要な判断に集中
・中程度の推論モデルで高精度チェック
・/security-reviewでセキュリティ専用評価
・/rubberduckで実装の批判的検討
・自社ポリシーに合わせてカスタマイズ

このように、レビューの質とスループットを両立させる仕組みがCopilotアプリの中核に組み込まれている。

Copilot SDKとCLI:開発者自身のツールを構築する土台

Copilot SDKとCLI:開発者自身のツールを構築する土台

エージェント機能はアプリの中だけにとどまらない。Copilot SDKが一般提供され、Node.js/TypeScript、Python、Go、.NET、Rust、Javaといった主要言語から同じエージェントランタイムを利用できる。自社のコード分析ツール、カスタムリリースノート生成、サポートワークフローに組み込むエージェントなどを、共通の土台の上に構築できる。

Copilot SDK(一つのランタイム)
デスクトップアプリ CLI クラウド自動化 モバイル
Node.js/TypeScript、Python、Go、.NET、Rust、Java等に対応。独自のコード分析ツールやリリースノート生成ツールもSDK上で構築可能。

CLIも大きく刷新された。再設計されたTUIではタブでプルリクエスト、Issue、Gistにアクセスでき、音声入力にも対応する(音声データは端末外に出ない)。/everyを使えば定期的なプロンプト実行やバックグラウンドタスクのスケジュールが組める。クラウド自動化では、エージェントがGitHubイベントに反応してIssueを開いたりコメントを残したりできる。初期設定では書き込みアクションの前に都度許可を求めるが、信頼を確立した後はオートパイロットに切り替え可能だ。

さらにMemory++と/chronicleによって、アプリ、CLI、VS Code、github.comをまたいだセッションの文脈が連続する。パートナー企業(LaunchDarkly、Sonar、Amplitude、PagerDutyなど)が構築したエージェントアプリも統合され、開発者はGitHubを離れることなく、馴染みのツールをエージェント主導のワークフローに組み込める。

エージェント主導開発の未来を見据えて

プロフェッショナルなソフトウェア開発には、判断、検証、説明責任が不可欠だ。GitHub Copilotアプリ、サンドボックス、コードレビュー、自動化、文脈連続性、パートナーエコシステムは、エージェントがより多くの作業を担いながらも、開発者が品質、ポリシー、デリバリーの統制を保つための一つのシステムとして結実している。

GitHub Blogの記事では、エージェント主導の開発がプラットフォーム全体で拡大する中、可用性を第一に据え、これらのシステムを堅牢化し、チームが日々の開発で依存できる速さと信頼性を確保していく姿勢が示されている。

この記事のポイント

  • GitHub Copilotアプリは複数エージェントを並行管理し、worktreeとAgent Mergeで混乱を防ぐコントロールセンターとして機能する
  • Canvasにより、チャットの指示を視覚的な作業面に展開し、人間とエージェントが同じキャンバス上で協調できる
  • ローカルとクラウドのサンドボックスで、本番環境に触れずにエージェントがコードを実行・検証できる
  • コードレビュー機能は中程度推論モデルやセキュリティ専用スキルで品質を保ち、Azure DevOpsでもネイティブ利用可能
  • SDKと刷新されたCLIにより、開発者自身のツールや自動化を同じエージェントランタイム上に構築できる
VS Codeで始めるGitHub超入門!リポジトリ作成からAI活用まで

VS Codeで始めるGitHub超入門!リポジトリ作成からAI活用まで

VS CodeとGitを連携させれば、エディタから離れることなくGitHub上のバージョン管理が完結する。コードを書きながらコミット、ブランチの切り替え、プッシュまで行えるため、作業の中断が大幅に減る。

本記事では、フォルダの初期化から変更の追跡、ブランチのマージ、リモートへの公開、さらにMCP(Model Context Protocol)を使ったAI支援まで、実務で頻繁に使う一連の流れを手順を追って解説する。Gitの概念を簡単な言葉で補足しながら進めるので、バージョン管理が初めてでも迷わないはずだ。

VS Codeで始めるGitとGitHubの基本

VS Codeで始めるGitとGitHubの基本

GitとGitHubの役割

Gitはソースコードの変更履歴を管理するプログラムだ。GitHubはその履歴を保管するリモートの場所で、いわば「コードの倉庫」である。Gitでローカルに記録した履歴をGitHubにアップロードすることで、チームでの共有やバックアップが実現する。

VS Codeが開発効率を上げる理由

VS Code(Visual Studio Code)はMicrosoftが提供する無料のソースコードエディタだ。内部にGit機能が統合されており、GUI上でリポジトリの初期化やコミット、ブランチ操作を行える。ターミナルとエディタを行き来する手間を省き、エディタのサイドバーやコマンドパレットからほとんどのGit操作を実行できる。

リポジトリの初期化と最初のコミット

リポジトリの初期化と最初のコミット

まずはローカルのフォルダをGitリポジトリとして初期化し、ファイルを追跡してコミットする流れを確認しよう。

VS Codeを起動し、左側のアクティビティバーにあるExplorerアイコン(重なったファイルのような形)をクリックする。次に「Open Folder」ボタンから、GitHubに上げたいコードが入ったフォルダを開く。

続いて、アクティビティバーの上から3番目にあるSource Controlアイコンを選択する。すると「Initialize Repository」ボタンが表示されるので、これをクリックする。これでフォルダがGitリポジトリとして機能し始める。

初期化直後は、Source Controlパネル内のファイル名の横に「U」(Untracked)が表示される。ファイルを追跡対象にするには、ファイル名の隣のプラス記号をクリックする。全ファイルを一括でステージングしたい場合は「CHANGES」の右にあるプラスを押せばよい。ステージングされるとファイルの状態は「A」(Added)に変わる。

ステージングした変更を記録するには、Source Controlパネル上部のメッセージ入力欄にコミットメッセージを記入し、「Commit」ボタンを押す。ここでCopilotの提案機能を使えば、差分に合ったメッセージを自動生成することも可能だ。

ブランチの作成と切り替え

ブランチの作成と切り替え

コマンドパレットからのブランチ作成

デフォルトでは通常「main」ブランチが使われる。新機能の開発や修正作業は、別のブランチを切って進めるのが一般的だ。

Shift + Command + P(Mac)またはCtrl + Shift + P(Windows)でコマンドパレットを開き、「create branch」と入力する。候補から「Git: Create Branch…」を選び、任意のブランチ名(例「new-features」)を入力してEnterで確定する。すると新しいブランチが作成され、自動的にそのブランチに切り替わる。ウィンドウ左下のブランチ名表示で確認できる。

作業ブランチでの変更と確認

新しいブランチ上でコードを編集すると、後述するようにエディタの左側(ガター)に色付きのインジケータが現れる。この状態でファイルを保存し、Source Controlパネルから変更をステージングしてコミットする流れは先ほどと同じだ。

変更の追跡と差分の確認

変更の追跡と差分の確認

ガターに表示される変更インジケーター

VS Codeでファイルを編集すると、行番号の左側にあるガターと呼ばれる領域に色分けされた目印が表示される。新しく追加した行には緑色のバー、既存の行を修正した箇所には青色の模様付きバー、行を削除した場所には赤色の矢印が現れる。これによって、どの変更が未コミットなのかを瞬時に把握できる。

エディタ上の変更インジケーター(例)
1 function greet() {
2 const name = getParam();
3 alert(“Hello, ” + name);
4 console.log(“debug”);
5 }
追加行  変更行  削除行(ガターに三角で表示)

このように、エディタの左側にある「ガター」に色付きのインジケーターが表示され、どの行を追加・変更・削除したかが一目でわかる。

差分の表示(並列表示とインラインビュー)

変更内容を詳しく比較したいときは、Source Controlパネルでファイル名をクリックする。すると左右に分割された差分ビューが開き、変更前後のコードを横に並べて確認できる。分割ビューの右上にある三点リーダーから「Inline View」を選ぶと、ひとつの画面内に差分がインラインで表示される。このビュー上で直接編集を加えることも可能だ。

ブランチのマージとGitHubへの公開

ブランチのマージとGitHubへの公開

マージ手順

作業ブランチでの変更をmainブランチに取り込むには、まずmainブランチに切り替える。ウィンドウ左下のブランチ名をクリックし、表示される一覧から「main」を選択する。その後、Source Controlパネルの三点リーダーから「Branch」にカーソルを合わせ、「Merge…」をクリックする。マージ元として先ほどまで作業していたブランチを選べば、mainブランチに変更が統合される。

リポジトリのプッシュと公開

ローカルのリポジトリをGitHub上に公開するには、Source Controlパネルにある「Publish Branch」ボタンを押す。VS Codeが公開時の可視性(プライベートかパブリックか)を尋ねてくるので、目的に合わせて選択する。処理が完了すると、通知からそのままGitHub上のリポジトリを開ける。

リポジトリのクローン

リポジトリのクローン

既存のリポジトリを手元に複製して作業したい場合は、GitHubのリポジトリページで緑色の「<> Code」ボタンをクリックし、URLをコピーする。VS Codeのコマンドパレットを開き「clone」と入力して「Git: Clone」を選び、URLを貼り付ける。保存先フォルダを指定すると、クローンが開始される。完了後に「Open」を選択すれば、すぐにローカルで開発を始められる。

MCPでAIを活用する

MCPでAIを活用する

GitHub MCP拡張機能のインストール

MCP(Model Context Protocol)は、AIツールが安全に外部サービスと連携するためのプロトコルだ。VS CodeでGitHubのMCPを利用すると、Copilotチャットがリポジトリの情報を参照しながらコード生成やIssue作成を行えるようになる。

アクティビティバーのExtensionsアイコンを開き、「@mcp github」で検索する。該当するGitHub公式の拡張機能をインストールし、認証を許可すると、下部のパネルにMCPサーバーが追加される。これで準備は完了だ。

Copilotチャットとの連携

チャットウィンドウから自然言語で「フラッシュカードアプリに新機能を追加して」などと指示すると、Copilotが必要なツールを自動的に呼び出し、コードやIssueを生成する。手作業でファイルを開いて確認していた手順をAIに任せられるため、プロトタイピングの速度が格段に上がる。

この記事のポイント

  • VS Codeに統合されたGit機能を使えば、エディタだけでコミットやブランチ操作が完結する
  • リポジトリの初期化から最初のコミットまでは四つのステップで完了
  • ガターの色分けインジケーターで、追加・変更・削除を瞬時に識別できる
  • ブランチのマージやGitHubへの公開もボタンひとつで実行可能
  • MCP拡張機能を導入すると、Copilotがリポジトリの文脈を理解したAI支援を提供する
GitHub Shop新作「ESC」コレクション、開発者のまま外へ出かけよう

GitHub Shop新作「ESC」コレクション、開発者のまま外へ出かけよう

GitHubは2026年5月28日、公式ショップの新作コレクション「ESC」を発表した。Tシャツやキャップ、スライドサンダル、さらにはタコキャット型のドリンクホルダーまで、デスクを離れて過ごす夏のためのグッズが揃っている。単なるノベルティではなく、開発者コミュニティの遊び心を形にしたラインアップだ。

このコレクション最大の特徴は、HTMLタグをあしらったアパレルと、CopilotやOctocatのトロピカルデザインだ。「デスクの外にも良いアイデアは転がっている」という考え方が企画の起点になっている。プールサイドやビーチでリラックスしながら、ふとバグの解決策を思いつく瞬間を後押しする仕掛けだ。

HTMLタグが服に 開発者ジョークを身にまとう

HTMLタグが服に 開発者ジョークを身にまとう

「ESC」コレクションの中心は、普段着として着られるアパレル製品だ。特に話題を呼んでいるのが、Tシャツ、キャップ、スライドサンダルにそれぞれHTMLタグの<body>、<header>、<footer>をあしらったデザインである。

これまでのGitHub Shopではキャップや靴下が定番だった。一方で「Tシャツはないのか」という声がコミュニティから多く寄せられていた。今回の<body>Tシャツは、まさにその要望に応えたかたちだ。

一般的なアパレルブランドのネーミング(Before)
サマーハット ロゴTシャツ プールサンダル
GitHub Shop の開発者目線ネーミング(After)
<header> ハット <body> Tシャツ <footer> スライド
※HTMLドキュメントの基本構造をファッションに落とし込んだネーミングで、開発者同士なら一目で通じる遊び心がある。

<header>ハットは新しいカラーバリエーションが追加されている。頭部を飾るという意味で、HTMLのセマンティクスと物理的な位置が見事に一致している点が面白い。スライドサンダルに<footer>と書かれているのも、同じ発想だ。

このネーミングは単なるジョークに留まらず、開発者文化のアイデンティティを日常生活に溶け込ませる工夫と言える。GitHub Shopの担当者は、デスクの外でこそ優れた問題解決が生まれるというメッセージを、商品名そのものに込めたのだろう。

ビーチでもCopilot トロピカルデザインのCabanaセット

ビーチでもCopilot トロピカルデザインのCabanaセット

より大胆なデザインを求める開発者には、トロピカル柄のCabanaセットが用意された。上下が揃いになったシャツとショーツには、OctocatことMona、GitHub Copilot、そしてラバーダックのキャラクターがヤシの木や花とともに描かれている。

ラバーダックは「ラバーダックデバッグ」と呼ばれるプログラミング技法に由来する。コードの問題を誰かに説明する過程で自己解決する手法で、開発者にはおなじみの存在だ。GitHub Copilotと並べて配置することで、AI時代の新しいペアプログラミングを連想させるデザインになっている。

Cabana セットのデザイン要素
Mona(Octocat) GitHubの象徴的キャラクター
Copilot AIペアプログラミングパートナー
Rubber Ducky ラバーダックデバッグの象徴
※3つのアイコンがトロピカルなヤシの木や花柄と組み合わさり、リゾートと開発者文化を融合させている。

派手なCabanaセットの対極として、より控えめなリネンシャツも用意されている。Hibiscus Tocatリネンシャツは、ハイビスカス柄の中に小さくOctocatを忍ばせたデザインで、開発者と気づかれずに開発者アピールできる逸品だ。

さらに、クーラートートバッグも注目に値する。Invertocatデザインの保冷バッグは、ビーチやプールサイドに飲み物を持ち運ぶのに最適なサイズ感だ。開発者がコードから離れて過ごす時間を、きちんとサポートする機能性を持っている。

ドリンクを冷やす小さなパーカー 人気商品をミニチュア化

ドリンクを冷やす小さなパーカー 人気商品をミニチュア化

ESCコレクションのユニークなアイテムとして、ブラックInvertocatパーカーのデザインをそのまま缶クーラー(クージー)に落とし込んだ製品がある。フード付きパーカーを模した小さなドリンクホルダーで、人気アパレル商品のミニチュア版という発想が秀逸だ。

本家のInvertocatパーカーはGitHub Shopのベストセラーである。今回それを「缶用」として展開したことは、スケーリングとユーモアの両面で開発者マインドをくすぐる。実用品でありながら、コードレビューで突っ込みたくなる会話のきっかけにもなるだろう。

製品スケールの比較
人間サイズ Invertocat パーカー (ベストセラーアパレル)
缶サイズ Hoodie Can Coozie (ドリンクを冷やすミニパーカー)
※デザインは同一だが、実用目的が「保温」から「保冷」に逆転している点が開発者向けの遊び心だ。

さらに、プール用のドリンクフロートとしてMonaフロートも登場した。Octocatの形状をした浮き輪型ドリンクホルダーで、プールに浮かべながら飲み物を楽しめる。開発者のデスク周りにOctocatグッズが並ぶように、水辺にもOctocatを持ち込む発想である。

これらの商品からは、「開発者であることをオフの時間にも楽しもう」というブランドの一貫した姿勢が感じられる。コードを書くことだけが開発者ではない。問題解決の思考は日常のあらゆる場面で活きるという考え方だ。

ショッピング体験にも技術を パーソナライズ機能と今後の展開

ショッピング体験にも技術を パーソナライズ機能と今後の展開

GitHub Shopのサイト自体にも技術的な工夫が施されている。商品画像の背景にはLiDARスキャナーが使われており、ユーザーは色味やズームを自由に変更して、自分好みのビジュアルで商品を確認できる。ECサイトの枠を超え、開発者に「どんな技術で実装しているのか」を想像させる仕掛けだ。

これは単なるファッション販売ではなく、GitHubブランドの世界観をデジタル上で体験させる戦略と言える。商品を選ぶ行為そのものをインタラクティブな開発者体験に昇華している点がユニークだ。

ESCコレクションの発表と併せて、GitHubは近くワールドカップ関連の特別企画も準備していると予告している。開発者文化と世界的なスポーツイベントをどう結びつけるのか、続報が待たれるところだ。

この記事のポイント

  • GitHub Shopの新作「ESC」コレクションは、デスクを離れた場所でのリラックスをテーマにしている
  • HTMLタグにちなんだアパレルや、Copilot・Octocatをあしらったトロピカルデザインが特徴
  • ベストセラーパーカーを模した缶クーラーなど、実用品に開発者向けの遊び心を落とし込んでいる
  • 商品画像にLiDARスキャナーを使うなど、ショッピング体験そのものにも技術的工夫がある
  • コードから離れる時間が、むしろ良いアイデアを生むというブランド思想が商品全体を貫いている
VS Code 1.123リリース、エージェント画面刷新とチャット機能の進化

VS Code 1.123リリース、エージェント画面刷新とチャット機能の進化

Visual Studio Codeのバージョン1.123が2026年5月末にリリースされた。このアップデートの中核は、AIエージェントとの対話体験を根本から再設計したことにある。エージェント画面のグリッド表示、スタンドアローン環境とのセッション受け渡し、そしてチャット機能の柔軟性向上が主な柱だ。

基盤となるElectronは42へとメジャーバージョンアップし、内部ブラウザのChromiumが148、ランタイムのNode.jsが22.xへと刷新された。これにより、VS Code全体の安定性とパフォーマンスが底上げされている。開発者はこの新バージョンにより、AIとの共同作業をより自然に、より強力に進められるようになる。

本記事では、今回のアップデートで開発現場に最もインパクトを与える4つの変更点を掘り下げ、その実務的な意味を解き明かす。

Electron 42基盤刷新がもたらす安定性とパフォーマンス

Electron 42基盤刷新がもたらす安定性とパフォーマンス

VS Code 1.123の最大の土台変更は、フレームワークの中枢であるElectronをバージョン42に引き上げたことだ。この一言で片付けるにはあまりに影響範囲が広い。Electronとは、ウェブ技術(HTML、CSS、JavaScript)でデスクトップアプリケーションを構築するためのプラットフォームである。VS CodeもこのElectronの上に成り立っている。

従来のVS Code 1.122(Before)
Electron 41 Chromium 144
レンダリングエンジンが旧バージョンのため、一部の新しいCSS機能やブラウザAPIに未対応
Node.js 20.x ランタイムで動作
VS Code 1.123(After)
Electron 42 Chromium 148
最新のブラウザAPIとCSS機能をサポート、統合ブラウザの互換性が向上
Node.js 22.x ランタイムで動作、JavaScriptエンジンが高速化

この変更は、VS Codeの内部ブラウザ機能や拡張機能の動作環境に直接影響する。

Chromium 148への移行で変わる統合ブラウザの実用性

VS Codeには簡易ウェブブラウザ機能が統合されており、フロントエンド開発者は別途ブラウザを立ち上げずにプレビューを確認できる。Chromium 148とは、Google Chromeの基盤部分のことだ。今回のアップデートでこの基盤がバージョン148へと刷新されたことで、最新のウェブ標準に準拠した表示が可能になった。

具体的には、新しいCSSプロパティやWeb APIが利用できるようになり、プレビュー表示の信頼性が向上する。また、ブラウザ関連の設定が設定エディタ内で独立したセクションにまとめられ、管理しやすくなった点も見逃せない。設定画面の見通しが良くなったことで、開発者は必要な項目に素早くアクセスできる。

Node.js 22.xによる拡張機能の実行速度向上

Node.jsとは、サーバーサイドでJavaScriptを動かす実行環境である。VS Codeの拡張機能やターミナル機能はこの上で動作している。ランタイムが20.xから22.xへと一段階飛び級でアップグレードされたことで、JavaScriptエンジン「V8」の最適化が進み、拡張機能の起動時間やターミナルでのコマンド実行が高速化される見込みだ。

さらに、BYOK(Bring Your Own Key)環境でOpenRouterやDeepSeekといった外部推論モデルを利用している場合、ツール呼び出し後にHTTP 400エラーが発生する不具合も今回のNode.js更新に伴い修正された。これにより、外部AIプロバイダーとの連携がより安定する。

エージェント画面の進化、グリッド表示とスレッド返信で管理性が向上

エージェント画面の進化、グリッド表示とスレッド返信で管理性が向上

VS CodeのAIエージェント機能は、コード編集やタスク実行を自律的に支援する存在だ。このエージェントとの対話履歴を確認する「エージェント画面」が、バージョン1.123で大幅に再設計された。最も目を引くのは、セッション一覧が従来のリスト形式からグリッド形式に変わった点である。

従来のセッション一覧(Before)
セッションA
セッションB
セッションC
縦並びのリスト形式、視認性が低く多数のセッション管理が難しい
新しいグリッド形式(After)
セッションA
セッションB
セッションC
セッションD
グリッド形式で多数のセッションを一覧、目的の会話を高速に発見できる

多数のエージェントセッションを並行して扱う開発者にとって、この変更は作業効率の大幅な改善につながる。

スレッド返信機能でフィードバックが対話的に

エージェント画面に追加されたもうひとつの重要な機能が、スレッド形式の返信だ。これまではエージェントの出力に対するフィードバックを一方向的に追加することしかできなかった。しかし今回のアップデートにより、特定のコメントに対して個別に返信できるようになった。

これは、チームでのコードレビューに近い体験をエージェントとの対話にもたらす。エージェントが生成したコードの特定の部分に対し「このロジックを修正してほしい」と指摘したり、複数の修正案を比較検討したりするコミュニケーションが、より構造化された形で可能になる。

チャットセッションを受け渡すハンドオフ機能

VS Codeの編集画面で進行中のチャットを、スタンドアローンのエージェント画面にそのまま移行できるハンドオフ機能も追加された。編集画面ではコードに集中したいが、エージェントとの対話は続けたい、という状況で役立つ。

また、エージェントホストセッション中に送信されたステアリングメッセージが、従来は実行中のターンに埋め込まれていたが、今回から独立したユーザーターンとしてチャット上に表示されるようになった。これにより、どの指示がどのタイミングで送られたのかが明確になり、対話の透明性が高まっている。

チャット機能が柔軟に、添付ファイルのみの送信やエリアスクリーンショットに対応

チャット機能が柔軟に、添付ファイルのみの送信やエリアスクリーンショットに対応

日々のコーディングで最も頻繁に使われるチャット機能にも、実用的な改善が施された。中でも画期的なのは、テキストメッセージなしで添付ファイルだけを送信できるようになった点である。

従来のチャット送信(Before)
必須のテキスト入力「この画像の内容を解析して」
添付画像 テキスト必須
VS Code 1.123のチャット送信(After)
添付ファイルのみで送信可能に
添付画像 単独で送信OK

この一見小さな変更が意味するところは大きい。エラー画面のスクリーンショットを撮ってそのまま投げ込むといったフローが、ワンアクションで完結するのだ。

統合ブラウザのエリアスクリーンショット機能

統合ブラウザ上で、ページ全体ではなく特定の領域だけを選択し、そのスクリーンショットをチャットのコンテキストとして追加できる機能も実装された。デザインの微調整をAIに依頼する場合や、特定のUI要素について質問する場合に、余計な情報を省いた的確なコミュニケーションが可能になる。

並列ターミナルコマンドの完了通知がバッチ化

エージェントモードが複数のターミナルコマンドを並列実行する際、これまではコマンドごとに個別のエージェントターンが作成され、チャット画面が完了通知で埋め尽くされる問題があった。今回のアップデートでは、これらの通知が1つのメッセージにまとめてバッチ化される。チャット画面がすっきりと整理され、本質的な対話に集中しやすくなった。

プロンプトファイルと外部環境連携の改善

プロンプトファイルと外部環境連携の改善

開発者がAIに与える指示をファイル化する「プロンプトファイル」の仕組みにも、いくつかの使い勝手の向上が図られた。

サブコマンド呼び出しの直感的な書式

プロンプトファイル内でサブコマンドを呼び出す際、従来はコロン区切りの形式(例、/chronicle:tips)が必須だった。この構文がスペース区切り(例、/chronicle tips)でも動作するようになった。この変更は表記法の微細な違いに過ぎないように見えるが、シェルコマンドや自然言語の記法に慣れ親しんだ開発者にとって、認知負荷を下げる効果がある。

外部AI推論モデルとの互換性修正

BYOK(Bring Your Own Key)モデルで、OpenRouterやDeepSeekといった推論特化型プロバイダーを利用する場合、ツール呼び出し後にHTTP 400エラーが発生する不具合があった。これはVS Codeが送信するリクエスト形式と、一部のプロバイダー側のパース処理の間に生じていた非互換が原因だ。今回の修正により、これらの外部モデルが安定して動作するようになった。

Cloudタスクの出力がローカルと同等の表現力に

GitHub CopilotのCloudタスク機能では、これまで実行結果の表示がテキスト主体で、ターミナル出力の表現力に限界があった。今回のアップデートで、CloudタスクもローカルのCopilot CLIセッションと同様に、ツールカードや編集差分、ターミナル出力をリッチにレンダリングできるようになった。リモート実行とローカル実行の間で、視覚的な体験が統一される。

細部に及ぶ品質改善と不具合修正

細部に及ぶ品質改善と不具合修正

メジャーな機能追加の裏で、開発者の日常業務にじわじわと効いてくる細かな修正も数多く含まれている。

/docコマンドのPython docstring配置修正

/doc コマンドを使ってPythonコードにドキュメント文字列を生成する際、docstringがデコレータの前に挿入されるという不具合があった。本来は関数本体の内部に配置されるべきものであり、修正により正しい位置に生成されるようになった。Python開発者にとっては、コードの可読性を保つ上で見過ごせない変更だ。

Zenモード時のインジケーター非表示

Zenモードは、余計なUI要素を排除してコードに没頭するための表示モードだ。しかしエージェントモードのインジケーターがタイトルバーに表示され続けることで、没入感が損なわれていた。今回の修正で、Zenモード時にはこれらのインジケーターが自動的に非表示になる。

Windows環境でのCLIフラグ問題を解消

Windows環境限定の問題として、--folder-uri--file-uri といったCLIフラグが特定の条件下で無視される不具合が解消された。引数の順序が最後でない場合や --wait フラグと併用した場合に発生していたこの問題は、VS Codeをスクリプトや外部ツールから起動するワークフローで特に支障をきたしていた。修正により、コマンドラインからの起動オプションが全プラットフォームで一貫して動作する。

この記事のポイント

  • VS Code 1.123の中核はエージェント画面のグリッド表示とスレッド返信だ、多数のAIセッションを並行管理する開発者の負荷が下がる
  • Electron 42への基盤刷新によりChromium 148とNode.js 22.xが導入され、統合ブラウザの互換性と拡張機能の実行速度が向上する
  • チャットに添付ファイルのみを送信できる新機能で、エラー共有や画像解析の依頼が1アクションで完結する
  • 外部AI推論モデルとの非互換やPython docstring生成位置の不具合など、現場の開発者が直面していた細かな問題が着実に修正されている
  • プロンプトファイルのサブコマンド記法が簡略化され、AIへの指示をより直感的に記述できるようになった
CiscoとOpenAI、Codexでエンタープライズ開発を再定義

CiscoとOpenAI、Codexでエンタープライズ開発を再定義

CiscoがOpenAI Codexを実際のエンタープライズ開発ワークフローに組み込み、大幅な成果を上げている。AI Defenseをはじめとする新製品の開発スピードは数四半期から数週間に短縮され、1,500時間超の工数が毎月削減された。

新規AI機能の95%以上をCodexが生成し、C/C++の大規模コードベースにおける欠陥修正の処理速度は従来の10〜15倍に達した。大規模リポジトリ間のビルド最適化やフレームワーク移行も短期間で完了している。

単なるコード補完ツールではなく、自律的にコンパイルやテストを繰り返しながら修正を加えるエージェントとして機能する。CiscoはCodexを「もう一人のAIエンジニア」と位置づけ、プロダクション環境全体に組み込んだ。

Codexのエージェント性がもたらす変化

Codexのエージェント性がもたらす変化
従来の開発支援ツール
コード補完 補完候補を表示
エンジニアが毎回判断し手動で適用する必要がある
OpenAI Codex(エージェント型)
自律実行 コンパイル → テスト → 修正を自動ループ
レビューやガバナンスの枠組み内で動作しつつタスクを完結させる

Codexが従来の開発支援ツールと一線を画すのは「エージェント性」だ。Ciscoのエンジニアリングチームは、Codexが単なるコード提案を超えて複雑な判断と実行を繰り返せる点に着目した。相互に依存する大規模リポジトリを横断して推論し、C/C++のような複雑な言語を扱い、CLIベースのコンパイル、テスト、修正ループを自律的に回す。

これらの作業が既存のレビューやセキュリティ、ガバナンスの枠組みの中で動作することも重要だ。CiscoはCodexを「ツール」から「チームの一員」へと位置づけを変えたことで、従来の工数見積もりの概念そのものが変わりつつある。

コード補完とエージェントの違い

一般的なコード補完ツールは、エンジニアが書き始めたコードに対して次の候補を提示する。エンジニアはその候補を読んで判断し、手動で適用する。一方、エージェント型のCodexは「このリポジトリ全体のビルド時間を短縮せよ」といった高レベルな指示を与えると、自らログを解析し依存関係を調査し、修正を加えたうえでテストまで実行する。

この違いが特に威力を発揮するのは、コードベースが巨大で複数のチームやリポジトリにまたがるエンタープライズ環境だ。人間が一つひとつ手作業で確認するには時間がかかりすぎる問題に対して、Codexは自律的に解決策を提示し、適用する。

AI Defenseの開発期間を数四半期から数週間に短縮

AI Defenseの開発期間を数四半期から数週間に短縮
従来の開発ペース(Before)
新機能を顧客に届けるまで数四半期
設計、実装、レビュー、テストの各工程が順次進行
Codex導入後(After)
新機能を顧客に届けるまで数週間
Codexが実装の大部分を自律生成し、エンジニアは判断と検証に集中

CiscoのAIセキュリティ製品「AI Defense」は、このエージェント型開発の成果を如実に示す事例だ。AI DefenseはAIが引き起こす安全性やセキュリティのリスクから組織を守るエンドツーエンドのソリューションである。CiscoのチームはCodexを活用してAI Defenseのコードの大部分を生成し、ほぼすべての新機能をCodexが作成した。

OpenAI Blogの記事によれば、従来の開発手法では数四半期を要していた機能が、Codexの導入により数週間で顧客に提供可能になったという。AIの安全性という領域で、AIを活用した開発が威力を発揮した好例だ。

Daybreak構想とAIセキュリティ

CiscoはOpenAIの「Daybreak」構想にも中核的なセキュリティ組織として参画している。DaybreakはOpenAIのモデル、Codex、セキュリティパートナーを結集し、サイバー防御とソフトウェアの継続的セキュリティを加速させる取り組みだ。このプログラムの一環として、Ciscoはサイバー防御者向けモデル「GPT-5.5-Cyber」へのアクセスを管理している。

また、CiscoはCodexの支援を受けてオープンソースツール「Defense Squad」を構築した。このツールはアイデア出しから開発者コミュニティへの提供まで1週間未満で完了している。Codexの迅速なプロトタイピング能力が、セキュリティ領域におけるOSS開発のスピードを大幅に引き上げた形だ。

ビルド最適化で月1,500時間超の工数を削減

ビルド最適化で月1,500時間超の工数を削減
STEP 1 15以上のリポジトリのビルドログをCodexが解析
STEP 2 依存関係グラフから非効率な箇所を特定
STEP 3 ビルド時間を約20%短縮、月1,500時間超の工数削減

CiscoのエンジニアリングチームがCodexに与えた最初の大きな課題の一つが、クロスリポジトリのビルド最適化だ。15以上の相互接続されたリポジトリにまたがるビルドログと依存関係グラフをCodexが分析し、非効率な箇所を特定した。

その結果、ビルド時間が約20%短縮され、グローバル環境全体で毎月1,500時間以上のエンジニアリング工数が削減された。ビルド時間の短縮は開発サイクル全体を加速させる。待ち時間が減れば、エンジニアはより多くの時間を設計や検証に充てられる。

C/C++コードベースの欠陥修正を10〜15倍に高速化

C/C++コードベースの欠陥修正を10〜15倍に高速化
従来の手動修正(Before)
エンジニア 手動で欠陥を特定 修正コードを記述 テスト
数週間かかる大規模修正も
Codex CLIの自律修正(After)
Codex 反復的エージェント実行 自動コンパイル 修正完了
数時間で完了、処理スループットは10〜15倍

Codex CLIを使った「CodeWatch」と呼ばれる取り組みでは、大規模なC/C++コードベースを対象に、反復的かつエージェント型の欠陥修正を自動化した。C/C++はメモリ管理やポインタ操作が絡む複雑な言語であり、欠陥の修正には深い理解と慎重なテストが欠かせない。

従来は数週間の手作業を要していた修正が、Codex CLIによって数時間で完了するようになった。欠陥解決のスループットは10〜15倍に向上し、エンジニアは設計や検証といったより高度な判断業務に集中できるようになった。

フレームワーク移行やCI/CDへの統合

フレームワーク移行やCI/CDへの統合

Splunkチームの事例では、複数のUIをReact 18からReact 19へ移行する作業にCodexが投入された。Codexが反復的な変更の大部分を自律的に処理したことで、数週間かかる作業が数日に圧縮された。エンジニアは判断を要する部分に集中し、機械的な書き換えはCodexに任せるという分業が成立している。

OpenAI Blogの記事でCiscoの関係者は「Codexに計画ドキュメントを生成させて従わせることで、レビューチームがプロセスと生成されたコードの両方を容易に理解できるようになった」と述べている。コードを書くだけでなく、意図や計画を文書化する能力も実務では大きな価値を持つ。

エンタープライズ開発パイプラインへの組込み

CiscoはCodexをスタンドアロンのツールとしてではなく、既存の開発パイプラインに直接組み込んだ。セキュリティやコンプライアンス、ガバナンスの要件を満たしながら動作させることが、エンタープライズ環境では不可欠だからだ。

この実運用から得られた継続的なフィードバックは、OpenAIがCodexを大企業向けに強化するうえで重要な役割を果たした。特にコンプライアンス対応、長時間実行タスクの管理、既存パイプラインとの統合といった領域が改善された。CiscoとOpenAIの協業は、次世代AIを採用するための再現可能なモデル「深い技術パートナーシップ、実際のワークロード、初日からのリーダーシップの一致」を確立したと言える。

この記事のポイント

  • CiscoはCodexを導入し、新規AI機能の95%以上を自動生成している
  • AI Defenseの開発期間が数四半期から数週間に短縮された
  • クロスリポジトリのビルド最適化で月1,500時間超の工数を削減
  • C/C++コードベースの大規模欠陥修正を10〜15倍に高速化
  • Codexはコード補完を超えたエージェントとして、自律的にコンパイルとテストを繰り返しながら開発を進める
Google Antigravity 2.0リリース、IDE不要のエージェント体験を実現

Google Antigravity 2.0リリース、IDE不要のエージェント体験を実現

Google DeepMindは2026年5月17日、AIエージェントを中核に据えたデスクトップアプリケーション「Google Antigravity 2.0」を発表した。従来のIDE(統合開発環境)を廃し、エージェントとの同期・非同期の対話に完全に最適化された独立アプリケーションとして再設計されている点が最大の特徴だ。

この新バージョンは、2025年11月にリリースされた初代Antigravity IDEの「Agent Manager」を発展させたもので、ソフトウェア開発だけでなく、より広範な知識作業をエージェントと協働するための基盤として位置づけられている。macOS、Linux、Windowsに対応し、最新のGeminiモデルを活用する。

開発者だけでなく、コードやIDEに馴染みのないユーザーにとっても直感的なエージェント体験を提供することが、この2.0の大きな狙いだ。

エージェントファーストの新設計

エージェントファーストの新設計
従来のAntigravity IDE(Before)
IDEとAgent Managerが同一アプリ内に混在
コードエディタ エージェント ターミナル
IDEの概念が常に付随、非開発者には不慣れ
Antigravity 2.0(After)
エージェントとの対話と成果物に集中
会話 成果物 フィードバック
コード不要、誰でもすぐに使える

Antigravity 2.0の最大の転換点は、IDEという概念を完全に取り除いたことにある。従来のAntigravity IDEでは、コードエディタとエージェント管理画面が同居していた。この設計は開発者には便利だが、エージェント本来の可能性を制限する側面もあった。

IDEを捨てた理由

Google DeepMindの記事によれば、開発チームは当初から「コーディングの高速化だけでは、ユーザーに提供できる価値に限界がある」と認識していたという。モデル性能が向上するにつれ、エージェントの活躍領域は自然とコード以外の知識作業へと拡大した。

実際、初代Antigravity IDEのAgent Managerは、開発以外のタスクにも広く使われていた。だが、IDEの枠組みの中でそれを行うのは、非開発者にとっては直感的とは言えなかった。Antigravity 2.0は、その制約を解消し、エージェントとの協働を主役に据えた設計へと舵を切った。

プロジェクトベースの管理方式

もう一つの大きな設計変更が、リポジトリとの密結合の解除だ。Antigravity 2.0では、エージェントの会話は「ワークスペース(リポジトリ)」単位ではなく、「プロジェクト」単位でグループ化される。一つのプロジェクトが複数のフォルダを参照でき、プロジェクトごとにエージェントの設定や権限を個別に定義できる。

これにより、エージェントがより多くの情報源にアクセスし、複雑なタスクに取り組めるようになりつつ、適切なガードレールも維持される。

強化されたエージェント機能群

強化されたエージェント機能群
STEP 1 ユーザーがメインエージェントにタスクを指示
STEP 2 メインエージェントがサブエージェントを動的に生成
STEP 3 サブエージェントが部分タスクを並列実行、非同期で結果を返す
メインエージェント  サブエージェント生成  非同期タスク完了

Antigravity 2.0では、エージェントの能力が大幅に強化された。中核となるのは「動的サブエージェント」「非同期タスク管理」「JSONフック」の3つだ。

動的サブエージェント

メインエージェントがタスクを実行する際、必要に応じてサブエージェントを動的に定義し、呼び出せるようになった。サブエージェントは焦点を絞った部分タスクを担当する。これにより、メインエージェントのコンテキストウィンドウが汚染されず、複数のサブタスクを並列に処理できる。

コンテキストウィンドウとは、エージェントが一度に把握できる会話や情報の範囲のことだ。長大なタスクではここがすぐに一杯になり、エージェントの応答品質が落ちる原因になっていた。サブエージェントへの委譲は、この問題への有効な対策となる。

非同期タスク管理

タスクやコマンドを非同期で実行できるようになった点も大きい。メインエージェントが処理をブロックされることなく、バックグラウンドで複数の作業を進められる。たとえば、コードのビルドを走らせながら次の機能の設計について対話を続ける、といった並行作業が可能になる。

JSONフック

JSONフックは、エージェントの動作を外部から制御する仕組みだ。シンプルなJSON形式でフックを定義し、エージェントの特定の挙動をインターセプトして制御できる。柔軟なカスタマイズを可能にしつつ、設定の複雑さを抑えている。

スケジュールタスクとプロジェクト管理

スケジュールタスクとプロジェクト管理
スケジュールタスクの流れ
ユーザー /schedule コマンドで指示 Antigravity cron式で定期実行を登録
Antigravity 設定時刻にエージェントを自動起動 エージェント タスク実行、結果を通知

Antigravity 2.0では、エージェントとの新しい関わり方として「スケジュールタスク」が導入された。cron式を使ってエージェントの起動スケジュールを事前に定義できる。日次レポートの生成、定期的なデータ収集、ナイトリービルドの監視など、手動で毎回指示を出す必要がなくなる。

スラッシュコマンド「/schedule」を使うか、専用のスケジュールタスク画面から設定する。一度だけのタイマー実行と、繰り返しの定期実行の両方に対応している。

新しいスラッシュコマンドと音声入力

/goal
指定タスクを完了まで実行、中間確認なし
/grill-me
実装前に計画の詳細を質問で確認
/schedule
タイマーまたは定期実行のスケジュールを設定
/browser
ブラウザ操作を明示的に指示、使用しない時は無視

Antigravity 2.0には、エージェントとの対話をより精密に制御するための新しいスラッシュコマンドが追加された。

4つの新コマンド

/goalは、指定したタスクを完了まで実行させ、途中でユーザーに入力を求めない。長時間の作業を任せきりにしたい場面で有効だ。/grill-meは実装開始前に、エージェントが逆に質問を投げかけて計画の詳細を詰める。見落としを事前に洗い出すのに役立つ。/scheduleは前述のとおり、タスクのスケジュール実行を指示する。/browserは、エージェントにブラウザ操作を明示的に許可するかどうかを制御する。

音声入力のライブ文字起こし

テキスト入力欄の横にあるマイクアイコンを使った音声入力が、ライブ文字起こしに対応した。従来は生の音声ファイルをモデルに渡していたが、2.0では発話と同時にテキスト化が進む。音声の遅延を感じさせず、より自然な対話が可能になった。

Antigravity IDEとの関係と今後の展望

Antigravity IDEとの関係と今後の展望

Antigravity 2.0は独立したアプリケーションとして提供されるが、従来のAntigravity IDEがすぐに置き換わるわけではない。IDE側のAgent Managerも当面は維持され、今後のアップデートでIDEからAgent Managerが分離される予定だ。IDEは純粋なエージェント駆動型IDEとして残る。

すでにAntigravity IDEをインストールしているユーザーは、次回のアップデートで自動的にAntigravity 2.0に更新される。その際、IDEを残すかどうかを選択できる。両アプリはドック上でアイコン背景が異なり、2.0は白背景、IDEは黒グリッド背景で区別される。

Google DeepMindの記事によれば、社内のGooglerたちはすでにAntigravity 2.0と各種IDEを併用しているという。今後、主要なIDE向けの互換拡張機能やプラグインも提供される予定だ。

今後のロードマップ

Antigravity 2.0と同時に、CLI、SDK、APIも発表された。他のGoogle製品や技術スタックとの統合も進められており、エージェントハーネスとモデル層の共同最適化が継続される。記事では、リモートコントロール機能、さらなる製品統合、クラウドデプロイエージェントなどが今後の展開として示唆されている。

この記事のポイント

  • Antigravity 2.0はIDEを廃した完全エージェントファーストの独立アプリケーション
  • 動的サブエージェントと非同期タスク管理で複雑な作業を効率的に処理
  • スケジュールタスクにより、エージェントの定期実行が自動化可能
  • 音声入力がライブ文字起こしに対応し、対話のテンポが向上
  • 従来のIDEも維持され、開発者は両方を併用できる
GitHubへの不正アクセス調査詳報、攻撃者は内部リポジトリに侵入するも影響は限定的

GitHubへの不正アクセス調査詳報、攻撃者は内部リポジトリに侵入するも影響は限定的

2026年5月20日、GitHubは自社が所有する一部の内部リポジトリに対して、第三者による不正アクセスがあったことを公表した。GitHubの最高情報セキュリティ責任者(CISO)であるAlexis Wales氏がGitHub Blogで発表した調査報告によれば、ユーザーデータや個人リポジトリ、GitHub.comを含むサービスには一切の影響がなかったという。

攻撃者は漏洩したトークン(認証情報)を用いて、GitHub社が管理していた内部リポジトリの一部を閲覧・クローンした。ただし、ソースコードの改ざんやマルウェアの注入、ユーザー情報へのアクセスは確認されていない。GitHubのインシデント対応チームは、発覚から数分以内に問題のトークンを無効化し、侵入経路を遮断した。

本稿ではこのインシデントの技術的な背景、影響範囲、そしてGitHubを利用する開発者が今すぐ実践すべきセキュリティ対策について詳しく解説する。大規模プラットフォームでさえトークン管理のミスが致命的になりうるという現実は、すべてのソフトウェア開発者にとって重要な教訓だ。

何が起きたのか、侵入の経路と期間

何が起きたのか、侵入の経路と期間

GitHubによれば、最初に異常が検知されたのは2026年5月中旬のことだ。同社のセキュリティ監視システムが、特定のGitHub Actionsトークンを用いた不審なリポジトリアクセスを検出した。このトークンはある外部サービスとのインテグレーションに使用されていたが、意図しない形で第三者の手に渡っていた。

トークンとは、パスワードの代わりにシステム間の認証に使う文字列のことを指す。たとえばAPIを呼び出すときやCI/CDパイプライン(コードのビルドやテストを自動化する仕組み)でリポジトリにアクセスする際に必要になる。このトークンが漏れると、正規のユーザーになりすましてリポジトリを操作できてしまう。

問題のトークンは、GitHubが所有する特定のリポジトリに対する読み取り権限と、一部のリポジトリに対しては書き込み権限も持っていた。これにより攻撃者は、リポジトリの内容を手元にクローン(複製)することが可能だった。ただしGitHubの発表では、攻撃者が実際にコードを改ざんしたり、悪意ある変更を加えたりした証拠は見つかっていないとされている。

攻撃者の行動を振り返る

GitHubのセキュリティチームがログを詳細に分析したところ、攻撃者は以下のような行動をとっていた。トークンを取得したあと、GitHubのAPIを経由してターゲットのリポジトリリストを取得。次に、少数のリポジトリを選んでクローン操作を実行していた。このアクセスパターンは自動化されたスクリプトによるものではなく、人間が手動で操作している形跡が強かったという。

重要なのは、攻撃者がアクセスできたのが「GitHub自身が管理する内部リポジトリ」に限定されていた点だ。一般ユーザーや企業がGitHub上で運用するプライベートリポジトリ、オープンソースプロジェクトのリポジトリ、そしてGitHub.comのサービス基盤そのものには一切アクセスできていなかった。

攻撃者の侵入経路(Before)
漏洩トークン GitHub APIを経由 内部リポジトリの閲覧・クローン
アクセス対象はGitHub所有リポジトリのみ、ユーザーデータには未到達
GitHubの初動対応(After)
トークン無効化 全ログ解析 影響範囲の確定
発覚から数分でトークン遮断、侵入経路の完全閉鎖を達成

上の図は、今回のインシデントにおける攻撃者の侵入経路とGitHubが取った即時対応を比較したものだ。漏洩トークンによる不正アクセスは数分で封じ込められ、ログ解析によって影響範囲が正確に特定された。

なぜトークンは漏洩したのか

なぜトークンは漏洩したのか

現時点でGitHubは、トークン漏洩の正確な経路について詳細を明らかにしていない。しかし、過去数年にわたってソフトウェア業界で多発しているトークン漏洩インシデントと照らし合わせると、いくつかの可能性が浮かび上がる。

考えられる漏洩パターン

最も多いのは、ソースコード内にトークンがハードコード(直接埋め込み)されていたケースだ。開発中の利便性からAPIキーやシークレットをコードに直書きし、そのままGitHubの公開リポジトリや内部リポジトリにプッシュしてしまう事故は後を絶たない。

別の可能性としては、CI/CDパイプラインの設定ミスだ。GitHub Actionsのワークフローファイルが適切に構成されておらず、ログにトークンが表示されていたり、サードパーティのサービスに意図せずトークンが送信されていたりするケースがある。

三つ目のパターンは、サプライチェーン攻撃だ。依存している外部ライブラリやツールに悪意あるコードが仕込まれ、ビルドプロセス中に環境変数からトークンを抜き取る手法である。2024年以降、AI開発ツールの増加に伴い、この種の攻撃は急増している。

いずれの経路であれ、根本的な問題は「トークンの権限が必要以上に強かった」ことだ。原則として、トークンには作業に必要な最小限の権限だけを付与すべきである。この「最小権限の原則」を守っていれば、たとえトークンが漏洩しても被害範囲は限定的だったはずだ。

インテグレーションの盲点

今回のケースで注目すべきは、攻撃者が狙ったのが「GitHub自身が所有する内部リポジトリ」であり、ユーザーのリポジトリではなかった点だ。Alexis Wales氏の発表によると、漏洩したトークンは外部サービスとのインテグレーションに使われていた。つまり、GitHubが信頼できるパートナーとして連携していたサービス側で何らかのセキュリティ問題が発生し、トークンが漏洩した可能性が高い。

これは多くの企業が直面するジレンマを浮き彫りにしている。業務効率化のために外部サービスとの連携を深めるほど、トークンの管理箇所は増え、攻撃対象領域(アタックサーフェス)も広がる。GitHubのようなセキュリティ専門企業でさえ、このバランスに苦心しているのだ。

影響範囲と被害の実態

影響範囲と被害の実態

GitHubが公表した調査結果から、今回のインシデントで実際にどのような影響があったのかを具体的に見ていく。

影響を受けた領域と受けなかった領域
安全だった領域
ユーザーのプライベートリポジトリ オープンソースリポジトリ GitHub.comサービス基盤 ユーザーデータ・アカウント情報
影響を受けた領域
GitHub所有の一部内部リポジトリ
安全側(99.99%以上のリポジトリ・データは無事)  ■ 影響側(GitHub社の内部コード一部が閲覧された可能性)

図の通り、影響は極めて限定的だった。GitHubの広報は「ソースコードの一部が意図せず開示された可能性は否定できないが、ユーザーに対する二次被害や連鎖的なセキュリティ侵害は発生していない」としている。

ソースコードの改ざんはなかった

GitHubの調査チームが最も注意深く検証したのは、攻撃者がリポジトリのコードを改ざんしたかどうかだ。結論としては、コミットログやファイルのハッシュ値を含む完全な監査の結果、コードの修正・削除・マルウェアの注入を示す証拠は一切確認されなかった。

これはGitHubのバージョン管理システム(Git)の特性が功を奏した面もある。Gitはすべての変更履歴をSHA-1ハッシュで保護しており、過去のコミットを改ざんしようとすると直ちに検知できる仕組みになっている。攻撃者が万が一コードを書き換えたとしても、その痕跡は完全に残るため、発見は容易だったはずだ。

このインシデントから開発者が学ぶべきこと

このインシデントから開発者が学ぶべきこと

GitHubのような巨大プラットフォームですらトークン漏洩を完全に防げなかった事実は、すべての開発者にとって警鐘だ。しかしこのインシデントからは、単に驚くだけでなく、具体的な教訓と実践可能な対策を引き出すことができる。

トークン管理の基本を徹底する

GitHubはインシデント報告の中で、トークン管理のベストプラクティスを改めて強調している。特に重要なのは以下の4点だ。

  • トークンの有効期限を短く設定する。可能であれば数時間単位でローテーションする
  • トークンに付与する権限を必要最小限に絞り込む。特定のリポジトリだけに読み取り権限を与え、書き込みは別トークンに分離する
  • ソースコードや設定ファイルにトークンを直接記述しない。GitHubのシークレット機能や専用のシークレット管理サービス(例としてHashiCorp Vaultやクラウド各社のキー管理サービス)を使う
  • リポジトリにトークンが誤ってプッシュされていないか、定期的にスキャンする。GitHubにはプッシュ時に自動検出する機能が標準搭載されている

これらの対策は決して難しいものではない。むしろGitHub Actionsや各種CI/CDツールには、トークンを安全に扱うための仕組みが最初から用意されている。設定を後回しにせず、プロジェクト開始時点で組み込んでしまうのが賢いやり方だ。

侵害を前提とした設計へ

より根本的な教訓は「侵害は起こりうる」という前提に立つことだ。どんなにセキュリティに投資していても、サプライチェーン攻撃やゼロデイ脆弱性(修正パッチが存在しない未知の脆弱性)によって防御線を突破される可能性は常にある。

GitHubのインシデント対応が迅速だった背景には、異常なAPI呼び出しパターンを即座に検知できる監視システムと、トークンを数クリックで無効化できる運用フローが整備されていたことがある。これらは事後対応(インシデントレスポンス)の設計が十分だったからこそ機能した。

従来のセキュリティ思考(Before)
完全防御を目指す 侵入されないことだけに注力
侵害を前提とした設計(After)
早期検知 封じ込め 影響最小化

この図が示すように、セキュリティの考え方は「侵入を100%防ぐ」から「侵入されても被害を最小限に抑える」へとシフトする必要がある。具体的には、トークンの権限制限、ネットワークのセグメント分離、操作ログの集中管理といった対策を組み合わせることになる。

GitHubの対応から見る、透明性あるインシデント開示の重要性

GitHubの対応から見る、透明性あるインシデント開示の重要性

今回のインシデントで特筆すべきは、GitHubが公表のタイミングと内容において高い透明性を示したことだ。CISOであるAlexis Wales氏が自ら筆を取り、わずか数日のうちに詳細な調査報告を公開した。

セキュリティ業界では、こうした迅速な情報開示は「ラディカル・トランスペアレンシー(徹底した透明性)」と呼ばれ、近年ではGoogleやMicrosoftも同様の姿勢を取っている。ユーザーにとっては、隠蔽されるよりも正直に報告されたほうが信頼を損なわず、適切な防御策を取る時間も確保できる。

GitHubの発表には「ユーザーが取るべき具体的なアクションはない」と明記されていた。これ自体が重要な情報だ。影響範囲が明確に線引きされているからこそ、ユーザーは不要な心配をせずに済む。逆に言えば、影響範囲が不明瞭な発表ほどユーザーの不安と憶測を招く。

この記事のポイント

  • 2026年5月、GitHubが内部リポジトリへの不正アクセスを公表。攻撃者は漏洩したトークンを使用して一部のリポジトリを閲覧・クローンしたが、コードの改ざんやユーザーデータへのアクセスはなかった
  • 影響を受けたのはGitHub自身が所有する一部の内部リポジトリのみで、一般ユーザーのプライベートリポジトリやオープンソースリポジトリには一切影響が及んでいない
  • トークン漏洩の原因は調査中だが、過去の業界事例からハードコードやCI/CD設定ミス、サプライチェーン攻撃などの可能性が考えられる
  • 開発者が取るべき対策は明確で、トークンの有効期限短縮、最小権限の原則の徹底、シークレット管理サービスの利用、プッシュ時の自動スキャン活用が有効
  • GitHubの迅速かつ透明性の高いインシデント開示姿勢は、業界全体の模範となる対応だった
Gemini 3.5 Flash発表、エージェントとコード生成で最上位性能を達成

Gemini 3.5 Flash発表、エージェントとコード生成で最上位性能を達成

Google DeepMindが2026年5月15日、新たなAIモデル「Gemini 3.5」シリーズを発表した。その第一弾として「3.5 Flash」が即日公開され、一般ユーザーから開発者、大企業まで幅広く利用可能になった。

このモデルは「フロンティア知能と行動を融合させた」と表現されるように、高度な推論能力と実世界でのタスク実行力を両立させている。特にエージェント性能とコーディング性能で突出しており、従来の旗艦モデルと同等以上のベンチマークスコアを、4倍の出力速度で実現した。

本記事では、Gemini 3.5 Flashの具体的な性能、Antigravityプラットフォームとの連携、企業導入事例、そして個人向けエージェント「Gemini Spark」までを詳しく解説する。

Gemini 3.5 Flashの登場と基本的位置づけ

Gemini 3.5 Flashの登場と基本的位置づけ

Gemini 3.5シリーズは、Google DeepMindが「より有能でインテリジェントなエージェントの構築」を目的に開発した最新モデル群だ。最初にリリースされた3.5 Flashは、高速応答に定評のあるFlashシリーズの系譜を受け継ぎつつ、旗艦モデルに匹敵する知能を獲得した点が最大の特徴となる。

フロンティア性能の定義

「フロンティア性能」とは、現在実現可能な最高水準のAI能力を指す。この領域では、モデルが単に質問に答えるだけでなく、複雑なワークフローを自律的に計画し、ツールを呼び出し、長期にわたるタスクを完遂することが求められる。

3.5 Flashはこの定義に正面から応える形で設計された。開発者が数日かけるコードベースの移行作業や、監査担当者が数週間要する文書分析を、短時間かつ低コストで遂行できるようになっている。Google DeepMindの発表によれば、コスト面でも他のフロンティアモデルの半額以下で同等以上の成果を出せるとしている。

コード性能とエージェント性能の両立

3.5 Flashの真価は、コーディング能力とエージェント能力の両面で高い成果を示したことにある。従来のモデルは、どちらか一方に特化するか、速度を犠牲にして知能を高める設計が一般的だった。しかし3.5 Flashは、このトレードオフを実用レベルで解消している。

従来の旗艦モデル(Before)
コード生成 高い精度だが 遅い エージェント 長時間タスクでタイムアウト
※性能と速度の間にトレードオフが存在した
Gemini 3.5 Flash(After)
コード生成 高精度 かつ 4倍高速 エージェント 長期タスクも自動完遂
※知能と速度を両立し、トレードオフを解消

この変化により、開発者は応答速度を気にせず複雑なタスクをAIに任せられるようになる。コードベース全体の移行や、複数エージェントを使った並列処理といった高度な活用が現実的になった。

ベンチマークスコアが示す実力

ベンチマークスコアが示す実力

3.5 Flashの性能は、複数の厳格なベンチマークによって裏付けられている。特にエージェント性能を測る指標での躍進が顕著だ。

主要ベンチマークの結果

Google DeepMindの発表資料によると、3.5 Flashは以下のスコアを達成した。

  • Terminal-Bench 2.1(コーディングとエージェントの複合テスト)で76.2%
  • GDPval-AA(エージェント能力のEloレーティング)で1656 Elo
  • MCP Atlas(マルチツール連携の評価)で83.6%
  • CharXiv Reasoning(マルチモーダル理解)で84.2%

これらの数値は、前世代の旗艦モデル「Gemini 3.1 Pro」を上回るだけでなく、一部の指標では競合するクローズドモデルを凌駕する結果となっている。

速度と品質のトレードオフ解消

Artificial Analysisのインデックスでは、3.5 Flashは「知能と出力速度」の散布図で右上の象限に位置している。これは「高い知能を持ちながら極めて高速」であることを示す。具体的には、1秒あたりの出力トークン数が他のフロンティアモデルと比較して4倍に達する場面もある。

従来の選択肢(Before)
低速・高知能モデル 応答に時間がかかりUXが悪化
高速・低知能モデル 精度不足で実用に耐えない
Gemini 3.5 Flash(After)
高速かつ高知能 両立により実用性が飛躍的に向上

これにより、リアルタイム性が求められるチャットアプリや、長時間継続するエージェントタスクの両方で、安定したパフォーマンスを発揮できるようになった。

エージェントタスクの実践力

エージェントタスクの実践力

3.5 Flashの真価は、単独のモデル性能だけでなく、Googleのエージェント開発プラットフォーム「Antigravity」との組み合わせによって最大化される。

Antigravityプラットフォームとの連携

Antigravityは、複数のサブエージェントを協調させて複雑なワークフローを実行するためのハーネスだ。3.5 Flashをこの基盤に載せることで、次のようなタスクが実証されている。

  • 無秩序なファイル群を動的な条件で自動リネーム・分類
  • AlphaZeroの論文を解析し、6時間で完全にプレイ可能なゲームをコーディング
  • レガシーコードベースをNext.jsへ変換・移行
  • 都市景観の生成やブランディングコンセプトの並列作成

これらのタスクは、従来であれば熟練の開発者が数日から数週間かける規模のものだ。3.5 FlashとAntigravityの組み合わせは、単なる「便利なツール」を超えて、開発プロセスそのものを再定義する可能性を秘めている。

長期タスクの自動化事例

Google DeepMindの発表では、3.5 Flashが2つのエージェント(ビルダーとプレイヤー)を並行稼働させ、高速な自己改善ループによってゲームを開発するデモが紹介された。また、研究論文用のインタラクティブなアニメーション生成や、テキスト説明文からのインタラクティブハードウェア設計なども披露されている。

STEP 1 ユーザーが自然言語でタスクを指示
STEP 2 Antigravityが複数のサブエージェントを起動
STEP 3 3.5 Flashがコード生成・テスト・改善を自動実行
STEP 4 完成した成果物をユーザーが受け取る

このフローは、1人の開発者が複数のAIエージェントを指揮する「AIオーケストレーション」の典型例だ。開発者は細かい実装ではなく、全体の方向性と品質判断に集中できるようになる。

企業導入の具体的事例

企業導入の具体的事例

3.5 Flashは発表と同時に、複数の大手企業で実運用が始まっている。Google DeepMindは業界パートナーと密接に連携し、実際の業務で発生する「手間」と「複雑さ」を特定した上でモデルを最適化した。

ShopifyやSalesforceでの活用

Shopifyは、複数のサブエージェントを並列実行し、グローバル規模での加盟店の成長予測を高精度化している。長期的なデータ分析を並列化することで、従来より詳細かつ正確な予測が可能になった。

Salesforceは、自社の「Agentforce」プラットフォームに3.5 Flashを統合した。複数のサブエージェントがコンテキストを保持したまま複数ターンのツール呼び出しを実行し、複雑なエンタープライズタスクを確実に自動化する。これにより、営業担当者が手作業で行っていた見積書作成や顧客データの突合といった業務が大幅に効率化される見込みだ。

金融・会計分野での応用

Macquarie Bankは、100ページを超える複雑なドキュメントを推論し、顧客オンボーディングを高速化する試験運用を開始した。低レイテンシで関連情報を取得し、信頼性の高い推奨事項を提示できる点が評価されている。

会計ソフトウェアのXeroは、サプライヤーの特定や1099税務フォーム用の情報収集といった、数週間かかる管理業務をエージェントに委任する仕組みを構築中だ。これにより、小規模事業者が煩雑な管理タスクから解放され、本業に集中できるようになる。

Databricksは、エージェント型ワークフローを用いてリアルタイム情報の監視と大規模データセットの横断的な推論を行い、データサイエンティスト向けの問題診断と解決策の提案を自動化している。

個人向けエージェント「Gemini Spark」

個人向けエージェント「Gemini Spark」

3.5 Flashは企業向けだけでなく、個人ユーザーの生活にも直接的な変革をもたらす。Google I/O 2026で発表された「Gemini Spark」は、3.5 Flashを中核に据えたパーソナルAIエージェントだ。

24時間稼働のパーソナルエージェント

Gemini Sparkは、ユーザーの指示のもとで24時間365日稼働し、デジタルライフ全般を支援する。メールの整理やスケジュール調整、情報収集といった日常的なタスクを自律的に処理し、ユーザーはより創造的な作業に時間を割けるようになる。

現在は信頼できるテスター向けに展開が始まっており、米国ではGoogle AI Ultraサブスクライバー向けのベータ版が翌週に提供開始される予定だ。日本での展開時期は未発表だが、グローバル展開の一環として近い将来に利用可能になると見られている。

コーディングアシストと検索での応用

3.5 Flashのコーディング能力は、Google検索のAIモードにも統合されている。情報エージェントが24時間働き、動的な生成UIを通じてインタラクティブな解説を提供する。例えば、複雑な数理パターン「Gyroid構造」をビジュアルで示しながら説明するといった使い方が可能だ。

また、Android StudioやGoogle AI Studioを通じて、開発者が3.5 Flashを直接利用できる環境も整っている。個人開発者や中小企業の技術担当者でも、フロンティアクラスのAIを手軽にプロジェクトに組み込めるようになった。

安全性と今後の展望

安全性と今後の展望

高性能なエージェント型AIには、相応の安全対策が不可欠だ。Google DeepMindは、3.5シリーズの開発にあたり「Frontier Safety Framework」に準拠した厳格な安全策を施している。

Frontier Safety Framework

サイバー攻撃やCBRN(化学・生物・放射性物質・核)関連の有害コンテンツ生成を防ぐセーフガードが強化された。同時に、安全なクエリを誤って拒否する「過剰拒否」の問題も改善されている。

このバランスは、新しい安全トレーニング手法と、AIの内部推論を応答前にチェックする解釈可能性ツールの導入によって実現された。モデルが「何を考えているか」を事前に把握し、問題があれば出力前に修正する仕組みだ。

3.5 Proの予告

Google DeepMindは、より大規模な「3.5 Pro」の開発も進めている。すでに社内で使用されており、翌月には公開される見込みだ。Flashの高速性を保ちつつ、さらに高度な推論能力を求めるユースケースに対応する位置づけとなる。

3.5シリーズ全体として、Googleは「エージェントファースト」の開発プラットフォーム戦略を加速させている。AIが単なるアシスタントから、自律的に行動する「デジタルワーカー」へと進化する過渡期にあることを示す重要な発表といえる。

この記事のポイント

  • Gemini 3.5 Flashはエージェント性能とコード生成でフロンティアクラスの成果を達成
  • 従来の旗艦モデルと同等以上の知能を4倍の速度で提供し、実用性が大幅に向上
  • Antigravityとの連携で複数エージェントの協調動作が可能になり、長期タスクの自動化が現実的に
  • ShopifyやSalesforceなど大手企業での導入がすでに始まっており、金融・会計分野でも活用が進む
  • 個人向けエージェントGemini Sparkや検索AIモードへの統合により、一般ユーザーの生活にも直接影響を与える