DeepMindの創設者がY Combinatorを訪問：汎用人工知能（AGI）の実現にはあと2つのピースが欠けているだけ。エージェントはまだ始まったばかりだ。

ポッドキャスト提供元：Y Combinator

編集・翻訳：Deep Tide TechFlow

司会：ゲイリー・タン

ゲスト：デミス・ハサビス氏（DeepMind創設者、2024年ノーベル化学賞受賞者、Google DeepMind責任者）

放送日：2026年4月29日

編集者注

Google DeepMindのCEOであり、ノーベル化学賞受賞者でもあるデミス・ハサビス氏がY Combinatorに出演し、汎用人工知能（AGI）に向けた重要な進歩について議論し、時代の最先端を行くための起業家へのアドバイスを提供するとともに、次の大きな科学的ブレークスルーがどこで起こる可能性があるかを探った。ディープテック起業家への最も実践的なアドバイスは、今日10年間のディープテックプロジェクトを立ち上げるなら、計画にAGIの出現を必ず含めるべきだということだ。また、DeepMindからスピンオフしたAI製薬会社であるIsomorphic Labsが近々大きな発表を行う予定であることも明らかにした。

心に残る名言集

AGIルートとタイムライン

「これらの既存の技術コンポーネントは、ほぼ間違いなくAGIの最終アーキテクチャの一部となるだろう。」
「継続的な学習、長距離推論、記憶といった点にはまだ課題が残っており、汎用人工知能（AGI）はそれらすべてに対処する必要がある。」
「もしあなたの汎用人工知能（AGI）実現時期が私と同じように2030年頃だと考えていて、今日からディープテックプロジェクトを始めるのであれば、その過程でAGIが出現する可能性も考慮に入れなければなりません。」

メモリとコンテキストウィンドウ

「コンテキストウィンドウは、おおよそワーキングメモリに相当します。平均的な人間のワーキングメモリは7桁の数字しか保持できませんが、コンテキストウィンドウには数百万、あるいは数千万ものトークンを格納できます。しかし問題は、重要でない情報や誤った情報まで含めて、あらゆる情報をそこに詰め込んでしまうことです。現在のやり方は非常に粗雑です。」
「ライブビデオストリームを処理してすべてのトークンを保存しようとすると、100万トークンでは約20分しか持ちません。」

推論の欠陥

「私はジェミニとチェスをするのが好きだ。時々、ジェミニは自分の手が悪いと気づいても、より良い手が見つからないため、結局同じ悪い手を繰り返してしまう。しかし、正確な推論システムであれば、そんなことはあってはならないはずだ。」
「一方では、国際数学オリンピックの金メダル級の問題を解けるのに、他方では、別の問題を問われると小学校レベルの算数の間違いを犯す。自身の思考過程に対する内省が欠けているようだ。」

エージェントと創造性

「汎用人工知能（AGI）を実現するには、問題を積極的に解決してくれるシステムが必要です。エージェントはそのための道筋であり、私たちはまだ始まったばかりだと考えています。」
「Vibe Codingを使ってアプリストアのランキング上位に入るAAA級ゲームを開発した人を見たことがありません。現在の投入された労力を考えると、可能のはずですが、まだ実現していません。これは、ツールかプロセスに何かが欠けていることを示唆しています。」

蒸留と小型モデル

「我々の仮説は、最先端のプロモデルが発売されてから6ヶ月から1年後には、その機能を非常に小型のモデルに凝縮し、エッジデバイス上で動作させることができるというものです。情報密度の理論的な限界にはまだ達していません。」

科学的発見と「アインシュタイン・テスト」

「私はこれを『アインシュタイン・テスト』と呼ぶことがあります。1901年の知識を使ってシステムを訓練し、1905年にアインシュタインが成し遂げた結果、例えば特殊相対性理論などを、そのシステムが独自に導き出せるかどうかを検証するものです。それができれば、これらのシステムは全く新しいものを発明する寸前まで来ていると言えるでしょう。」
「ミレニアム懸賞問題を解くこと自体がすでに素晴らしいことだ。しかし、さらに難しいのは、一流の数学者たちが生涯をかけて研究する価値があると考えるような、新たなミレニアム懸賞問題を提案することだ。」

ディープテクノロジー起業に関するアドバイス

「難しい問題に取り組むことと簡単な問題に取り組むことは、実はよく似ている。ただ、難しさの感じ方が違うだけだ。人生は短いのだから、誰もやらないようなことにエネルギーを注いでみてはどうだろうか？」

AGI実装パス

ゲイリー・タン：あなたは他の誰よりも長く汎用人工知能（AGI）について考えてきました。現在のパラダイムを見て、最終的なAGIアーキテクチャのどの程度が既に実現されているとお考えですか？そして、現時点で根本的に欠けているものは何でしょうか？

デミス・ハサビス：大規模な事前学習、RLHF、マインドチェーンなどは、最終的なAGIアーキテクチャの一部になると確信しています。これらの技術はこれまで多くのことを証明してきました。2年後にこれが行き詰まりだとは想像できません。私には理解できません。しかし、既に存在するものに加えて、1つか2つ不足しているものがあるかもしれません。継続的な学習、長期推論、記憶の特定の側面など、まだ解決すべき問題がいくつかあります。AGIはそれらすべてを整理する必要があります。既存の技術といくつかの漸進的なイノベーションでそのレベルまで拡張できるかもしれませんが、克服すべき主要なポイントが1つか2つ残っているかもしれません。1つか2つ以上はないと思います。私個人の評価では、そのような未解決の重要なポイントが存在する確率は50/50です。そのため、Google DeepMindでは、2つの方向で前進しています。

ゲイリー・タン：私はこれまで多くのエージェントシステムを扱ってきましたが、最も驚くのは、その根底にある重みが常に同じであるということです。ですから、継続的学習という概念は特に興味深いのです。現状では、まるで「夜の夢のサイクル」のように、場当たり的な応急処置に終始しているに過ぎないからです。

デミス・ハサビス：ええ、あの夢のサイクルは実に興味深いですね。私たちは以前、エピソード記憶の統合という文脈でこのことについて考えたことがあります。私の博士課程の研究は、海馬が新しい知識を既存の知識体系にいかに巧みに統合するかという点に焦点を当てていました。脳はこのことを非常にうまくこなします。睡眠中、特にレム睡眠中にこのプロセスを完了し、重要な経験を再現してそこから学びます。私たちの初期のアタリ・プログラムであるDQN（ディープマインドのディープQネットワーク、2013年発表。深層強化学習を用いてアタリ・ゲームで人間レベルのパフォーマンスを初めて達成したプログラム）がアタリ・ゲームをマスターした重要な方法の一つは、経験の再現でした。これは神経科学から来ており、成功した経路を繰り返し再現するということです。それは2013年のことで、AIの分野では古代史のようなものですが、当時は非常に重要なことでした。

おっしゃる通りです。現状では、あらゆる情報をコンテキストウィンドウに詰め込むために、まるでテープを使っているかのようです。これはどうにもしっくりきません。たとえ、生物学的な脳ではなく、理論的には数百万、数千万ものコンテキストウィンドウを扱える機械を作り、メモリが完璧だったとしても、検索と取得のコストは依然として存在します。具体的な意思決定が求められるこの状況では、たとえあらゆる情報を保存できたとしても、本当に必要な情報を見つけるのは容易ではありません。ですから、メモリの分野にはまだまだイノベーションの余地がたくさんあると思います。

ゲイリー・タン：正直に言うと、100万トークンのコンテキストウィンドウは予想以上に大きく、多くのことが可能になります。

デミス・ハサビス：想定されるほとんどのシナリオでは十分な大きさです。しかし、考えてみてください。コンテキストウィンドウは、おおよそワーキングメモリに相当します。人間の平均的なワーキングメモリは7桁しかありませんが、コンテキストウィンドウは数百万、あるいは数千万個もあります。問題は、重要でない情報や誤った情報も含めて、あらゆるものをそこに詰め込んでしまうことです。現在のやり方は非常に粗雑です。もし今、ライブビデオストリーミングを処理していて、単純にすべてのトークンを記録しているとしたら、100万トークンはせいぜい20分程度しか持ちません。しかし、システムに1か月か2か月にわたるあなたの生活を理解してもらいたいなら、それでは到底足りません。

ゲイリー・タン：DeepMindはこれまでずっと強化学習と探索に深く注力してきました。この理念は、現在取り組んでいるGeminiの開発にどの程度深く根付いているのでしょうか？強化学習は依然として過小評価されているのでしょうか？

デミス・ハサビス：おそらく過小評価されているのでしょう。この分野への注目度は変動してきました。私たちはDeepMind設立当初からエージェントシステムに取り組んできました。AtariやAlphaGoに関するすべての研究は、本質的に強化学習エージェント、つまり自律的に目標を達成し、意思決定を行い、計画を立てることができるシステムに関するものです。もちろん、当初は複雑さが扱いやすかったためゲーム分野を選び、その後、AlphaGoの後にAlphaStarのようなより複雑なゲームに徐々に取り組んできました。基本的に、私たちはできる限りのゲームを開発してきました。

次の課題は、これらのモデルをゲームモデルだけでなく、世界モデルや言語モデルにも一般化できるかどうかです。私たちはここ数年、この点に取り組んできました。今日の主要なモデルの思考パターンと推論チェーンは、基本的にAlphaGoが開拓したものに立ち返ったものです。当時私たちが取り組んだ多くの研究は、今日においても非常に関連性が高いと考えています。私たちは、それらの古いアイデアを再検討し、モンテカルロ木探索などのさまざまな強化学習手法を含め、より大規模かつ一般的な方法でそれらを実行しています。AlphaGoとAlphaZeroのアイデアは、今日の基礎モデルに非常に関連性が高く、今後数年間の進歩の大部分はここから生まれると私は信じています。

蒸留と小型モデル

ゲイリー・タン：より高性能な製品を作るには、より大型のモデルが必要ですが、同時に蒸留技術も進歩しており、小型モデルも比較的短期間で製造できます。御社のFlashモデルは非常に高性能で、最先端モデルの95%の性能を、わずか10分の1の価格で実現しています。それでよろしいでしょうか？

デミス・ハサビス：これは当社のコアな強みの一つだと考えています。最先端の機能を獲得するには、まず大規模なモデルを構築する必要があります。当社の最大の強みの一つは、そうした機能を迅速に抽出し、より小さなモデルに圧縮できる能力です。この抽出方法は当社が発明したもので、現在も世界最先端を走っています。また、これを行う強いビジネス上の動機もあります。当社は恐らく世界最大のAIアプリケーションプラットフォームです。AI OverviewsやAI Mode、そしてGeminiがあります。現在、GoogleマップやYouTubeなど、すべてのGoogle製品にGeminiまたは関連技術が統合されています。これは数十億人のユーザー、そして数十億人のユーザーを抱える十数もの製品に関わっています。そのため、極めて高速で、極めて効率的で、極めて低コストで、極めて低遅延でなければなりません。このことが、Flashやさらに小型のFlash-Liteモデルを極めて効率的にすることに大きな動機を与えており、最終的にはユーザーの様々なタスクに役立つことを期待しています。

ゲイリー・タン：これらの小型モデルがどれほど高性能なのか、非常に興味があります。蒸留には限界があるのでしょうか？50Bや400Bのモデルは、今日の最先端大型モデルと同等の性能を発揮できるのでしょうか？

デミス・ハサビス：情報理論の限界に達したとは思いません。少なくとも、現時点では誰も確信を持って言えません。いつか情報密度の限界に直面するかもしれませんが、現在のところ、最先端のプロモデルがリリースされれば、その機能を6ヶ月から1年以内に非常に小さなモデルに圧縮し、エッジデバイス上でほぼ動作可能なレベルにまで高めることができると考えています。これはGemmaモデルで確認できます。Gemma 4モデルは、そのサイズに対して非常に優れた性能を発揮します。これは、多くの蒸留技術と小型モデルの効率最適化技術を用いることで実現されています。ですから、理論的な限界は全くないと考えています。私たちはまだその限界からは程遠いところにいると思っています。

ゲイリー・タン：今、実にばかげた現象が起きています。エンジニアの仕事量が、半年前と比べて500倍から1000倍にもなっているのです。この部屋にいる人の中には、2000年代のGoogleのエンジニアの約1000倍の仕事をこなしている人もいます。スティーブ・イェギーもこのことについて話していました。

デミス・ハサビス：とてもワクワクしています。小型モデルには多くの用途があります。まず低コストであること、そしてスピードも大きなメリットです。コードを書くときやその他の作業において、特にシステムと連携する場合、はるかに速く反復作業を行うことができます。たとえ高速なシステムが最先端ではなく、例えば最先端技術の90～95%程度しか備えていなくても、それで十分です。そして、反復作業で得られるスピードは、その10%をはるかに上回ります。

もう一つの大きなトレンドは、効率性だけでなくプライバシーとセキュリティの観点からも、これらのモデルをエッジデバイス上で実行することです。個人情報を扱うデバイスやロボットを考えてみてください。家庭用ロボットの場合、高効率で強力なモデルをローカルで実行し、特定のシナリオでのみクラウド上のより大規模なモデルにタスクを委任するのが理想的です。音声や動画のストリームはローカルで処理され、データもローカルに保持されます。これはまさに理想的な状態と言えるでしょう。

記憶と推論

ゲイリー・タン：コンテキストとメモリの話に戻りましょう。このモデルは現在ステートレスです。もし継続的な学習機能が搭載されたら、開発者の体験はどのようなものになるでしょうか？そのようなモデルをどのように導いていくべきでしょうか？

デミス・ハサビス：それは興味深い質問ですね。継続的な学習の欠如は、現在のエージェントがタスク全体を完了できない大きなボトルネックとなっています。現在のエージェントはタスクの特定の部分には役立ちます。それらを組み合わせることで面白いことができますが、特定の環境にうまく適応できません。そのため、まだ真の意味で「放っておくだけ」にはなれないのです。エージェントは、特定の状況から学習する必要があります。真の汎用知能を実現するには、この問題を解決しなければなりません。

ゲイリー・タン：推論という側面は、この図のどこに位置づけられるのでしょうか？モデルの思考プロセスは現在非常に優れていますが、優秀な学部生なら犯さないようなミスもいくつか見られます。具体的にどのような変更が必要でしょうか？推論能力において、どのような進歩を期待していますか？

デミス・ハサビス：私たちの思考パラダイムには、まだまだ革新の余地がたくさんあります。現状のやり方は、いまだにかなり粗雑で力任せです。思考プロセスをモニタリングしたり、思考の途中で介入したりするなど、改善すべき点はたくさんあります。私自身、自社のシステムも競合他社のシステムも、ある程度は考えすぎて、同じ思考のループに陥っているように感じることがよくあります。

私は時々、観察ツールとしてジェミニチェスを使うのが好きです。興味深いことに、主要な基礎モデルはどれもチェスがあまり得意ではありません。チェスはよく理解されている分野なので、思考プロセスを観察することは有益です。モデルが誤った方向に進んでいるのか、それとも推論が妥当なのかをすぐに判断できるからです。実際に観察してみると、ある手を検討し、それが悪い手だと気づいても、より良い手が見つからず、結局同じ悪い手を再び指してしまうことがあります。正確な推論システムであれば、このような挙動は示さないはずです。

この大きなギャップは依然として存在するが、修正には1、2回の調整で済むかもしれない。いわゆる「ギザギザの知能」が見られるのはそのためだ。IMO（国際数学オリンピック）の金メダル級の問題を解ける一方で、別の問題を問われると小学校レベルの算数の間違いを犯す。自身の思考プロセスに対する内省が欠けているように思われる。

エージェントの真の能力

ゲイリー・タン：エージェントは大きな話題です。単なる誇大広告だと言う人もいますが、私はまだ始まったばかりだと考えています。DeepMindはエージェントの能力についてどのような内部評価をしていて、それは外部の宣伝とどれほど異なっているのでしょうか？

デミス・ハサビス：おっしゃる通り、私たちはまだ始まったばかりです。汎用人工知能（AGI）を実現するには、問題を積極的に解決してくれるシステムが必要です。これは私たちにとって常に明白なことでした。エージェントこそがその道であり、私たちはまだ始まったばかりだと考えています。誰もがエージェントの性能向上方法を模索しています。私たちは個々の実験で多くの研究を行ってきましたし、ここにいる皆さんも恐らくそうでしょう。エージェントをワークフローに統合し、単なる付加的な要素ではなく、真に根本的な役割を果たすようにするにはどうすればよいか。私たちはまだ実験段階にあります。真に価値のあるシナリオを見つけ始めるのは、おそらくここ2、3ヶ月のことでしょう。この技術は、もはやおもちゃのデモではなく、時間と効率に真に価値をもたらす段階に達するでしょう。

数十個のエージェントを起動して何十時間も稼働させている人をよく見かけますが、その成果が投資に見合っているかどうかは疑問です。

Vibe Codingを使ってアプリストアのランキング上位にランクインするAAA級ゲームを作った人はまだいません。私自身も書いてみましたが、ここにいる皆さんの多くはかなり良いデモを作っています。17歳の頃は6ヶ月かかっていたTheme Parkのプロトタイプを、今では30分で作ることができます。夏休みを丸々使って取り組めば、本当に素晴らしいものが作れるような気がします。しかし、それには職人技、魂、そしてセンスが必要です。どんなものを作るにしても、これらの要素を必ず盛り込まなければなりません。実際、理論的には現在のツールを使えば可能なはずなのに、まだ1000万本売れるゲームを作った子供はいません。何かが欠けているのでしょう。プロセスに関係しているのかもしれませんし、ツールに関係しているのかもしれません。今後6～12ヶ月以内に、そのような結果が出ることを期待しています。

ゲイリー・タン：どの程度まで完全に自動化されるのでしょうか？最初から完全に自動化されるとは思えません。まずはここで1000倍の効率性を実現し、次に誰かがこれらのツールを使ってベストセラーのアプリやゲームを開発し、それからようやくより多くの工程が自動化される、というのが現実的な道筋でしょう。

デミス・ハサビス：ええ、それが最初に見るべきものです。

ゲイリー・タン：その理由の一つは、実際にそうしている人もいるものの、エージェントがどれだけ助けてくれたかを公に言いたがらないからだ。

デミス・ハサビス：そうかもしれませんね。でも、私は創造性についてお話ししたいと思います。よくアルファ囲碁を例に挙げますが、第2局の37手目は誰もが知っています。私自身、アルファフォールドのような科学プロジェクトを始める前に、まさにその瞬間を待っていたのです。アルファフォールドの開発は、ソウルから帰国した翌日から始めました。今から10年前のことです。今回の韓国訪問は、アルファ囲碁10周年を祝うためでした。

しかし、単に37手目を超えるだけでは十分ではありません。確かに素晴らしいし、便利です。しかし、このシステムは囲碁そのものを発明できるでしょうか？例えば、「ルールは5分で覚えられるが、一生かけてもマスターするのは難しく、美的にも洗練されていて、1ゲームは午後で終わるゲーム」といった高レベルな説明を与えて、システムが囲碁を返すとしたら、今日のシステムではそれができません。問題は、なぜなのかということです。

ゲイリー・タン：もしかしたら、私たちの中にそれができる人がいるかもしれませんね。

デミス・ハサビス：もし誰かがそれを成し遂げたのなら、答えはシステムに何かが欠けているということではなく、むしろ私たちがシステムを誤って使っているということでしょう。それが正しい答えかもしれません。おそらく今日のシステムには既にその能力が備わっているのでしょうが、それを推進し、プロジェクトの魂を吹き込むには、十分な才能を持ったクリエイターが必要です。同時に、その人はツールと深く一体化し、ほとんどツールと一体化している必要があります。昼夜を問わずこれらのツールに没頭し、深い創造性を持ち合わせていれば、想像を超えるものを創造できるかもしれません。

オープンソースおよびマルチモーダルモデル

ゲイリー・タン：話題を変えてオープンソースについてお話しましょう。最近リリースされたGemmaでは、非常に強力なモデルをローカルで実行できるようになりました。これについてどう思われますか？AIは、主にクラウド上に存在するのではなく、ユーザーが制御するものになるのでしょうか？また、これらのモデルを使って製品を開発できる人は、今後どのように変わるのでしょうか？

デミス・ハサビス：私たちはオープンソースとオープンサイエンスを強く支持しています。ご指摘のAlphaFoldについては、完全に無料のオープンソースとして公開しています。私たちの研究成果は、引き続き一流の学術誌に掲載されています。Gemmaについては、同様の規模の世界最高水準のモデルを作成することを目指しています。Gemmaはリリースからわずか2週間半で、すでに約4000万回ダウンロードされています。

オープンソース分野における欧米の技術スタックの存在も重要だと考えています。中国のオープンソースモデルは優れており、現在オープンソース分野をリードしていますが、Gemmaはその規模において非常に競争力があると確信しています。

もう一つの課題はリソースです。誰も、2つの本格的な最先端モデルを作成するだけの計算能力を持ち合わせていません。そのため、現在のところ、エッジモデルはAndroid、スマートグラス、ロボットなどに使用され、デバイスに展開されると必然的に外部に公開されるため、オープンモデルにするのが最善であるという方針をとっています。最初から完全にオープンな状態にしておく方が良いのです。私たちはナノメートルレベルでオープン戦略を統一しましたが、これは戦略的にも理にかなっています。

ゲイリー・タン：ステージに上がる前に、私が開発したAIオペレーティングシステムを実演しました。音声を使ってGeminiと直接やり取りできるシステムです。皆さんに実演するのはかなり緊張しましたが、実際にうまくいきました。Geminiは最初からマルチモーダルシステムとして構築されています。これまで多くのモデルを使ってきましたが、音声とモデルの直接的なやり取りの深さ、ツールの呼び出し機能、そして文脈理解の点で、Geminiに匹敵するモデルは今のところありません。

デミス・ハサビス：はい。ジェミニシリーズのまだ十分に認識されていない利点の1つは、最初からマルチモーダルな設計で構築したことです。そのため、初期段階はテキストのみを扱う場合よりも難しかったのですが、長期的にはメリットがあると確信しており、すでにその成果が現れ始めています。例えば、ワールドモデルに関しては、ジェミニをベースに、Genie（DeepMindが開発した生成型インタラクティブ環境モデル）を構築しました。ロボット工学についても同様で、ジェミニ・ロボティクスはマルチモーダルな基盤モデルに基づいて構築され、このマルチモーダルな優位性が競争上の強みとなるでしょう。また、Alphabet傘下の自動運転会社であるWaymoでも、ジェミニの利用がますます増えています。

スマートフォンやメガネなどに搭載され、現実世界に同行するデジタルアシスタントを想像してみてください。そのアシスタントは、周囲の物理世界や環境を理解する必要があります。当社のシステムはこの分野で卓越した能力を発揮します。今後もこの分野への投資を継続し、こうした課題に対する当社の優位性は非常に大きいと確信しています。

ゲイリー・タン：推論コストは急速に低下しています。推論が実質的に無料になったとき、何が可能になるのでしょうか？その結果、あなたのチームの最適化の方向性は変わるでしょうか？

デミス・ハサビス：推論が本当に無料になるかどうかは分かりません。ジェボンズのパラドックス（効率性の向上が総消費量の増加につながる現象）は存在します。誰もが最終的には自分の持つ計算能力を使い果たしてしまうでしょう。何百万ものエージェントが協力して作業するグループ、あるいは少数のエージェントが複数の方向で同時に思考し、その結果を統合するグループを想像してみてください。私たちはこれらの方向性を実験しており、これらすべてが利用可能な推論リソースを消費することになります。

エネルギー面では、制御核融合、室温超伝導、最適電池といったいくつかの課題を解決できれば、材料科学を通じてほぼゼロのエネルギーコストを実現できると私は考えています。しかし、少なくとも今後数十年間は、チップの物理的な製造といった分野にボトルネックが残るでしょう。そのため、推論デバイスには依然として割り当て制限があり、効率的な利用が引き続き必要となります。

次の科学的ブレークスルー

ゲイリー・タン：幸いなことに、小型モデルはますます高度化しています。生物学やバイオテクノロジー分野の創始者の多くがここに集まっています。AlphaFold 3はすでにタンパク質の領域を超え、より幅広い生体分子へと拡張しています。完全な細胞システムのモデリングまであとどれくらいでしょうか？それは全く異なるレベルの難易度ではないでしょうか？

デミス・ハサビス氏：アイソモルフィック・ラボは素晴らしい進歩を遂げています。アルファフォールドは創薬プロセスのほんの一歩に過ぎません。私たちは関連する生化学研究を行い、適切な特性を持つ化合物を設計しており、近いうちに大きな発表があるでしょう。

私たちの究極の目標は、完全な仮想細胞、つまり摂動を加えることができる完全に機能する細胞シミュレーターを作成し、その出力が実験結果に十分近いため実用的に応用できるものにすることです。これにより、多くの探索手順を省略し、大量の合成データを生成して、他のモデルを訓練して実際の細胞の挙動を予測できるようになります。

完全な仮想細胞が実現するには、まだ10年ほどかかると見込んでいます。DeepMind Scienceでは、比較的自己完結的な仮想細胞核から研究を始めています。この種の課題の鍵は、入力と出力を合理的に近似できるほど十分に自己完結した、適切な複雑さを持つ部分を切り出し、そのサブシステムに焦点を当てることができるかどうかです。細胞核は、この観点から見て適しています。

もう一つの問題は、データの不足です。電子顕微鏡やその他の画像技術に取り組んでいる一流の科学者たちと話をしたことがあります。生きた細胞を殺さずに画像化できれば、それは革命的なことです。なぜなら、問題が視覚的な問題へと変わり、解決方法がわかるようになるからです。しかし、私の知る限り、生きた動的な細胞を損傷することなくナノメートル解像度で画像化できる技術は今のところありません。その解像度で静止画像を撮影することはできますし、それらはすでに非常に詳細なので素晴らしいのですが、直接的に視覚的な問題へと変えるには十分ではありません。

したがって、2つの道筋がある。1つはハードウェア主導型かつデータ主導型のアプローチであり、もう1つはこれらの動的システムをシミュレートするための、より優れた学習可能なシミュレータを構築することである。

ゲイリー・タン：生物学だけを見ているわけではありません。材料科学、創薬、気候モデリング、数学など、もし順位をつけるとしたら、今後5年間で最も劇的に変化する科学分野はどれでしょうか？

デミス・ハサビス：どの分野も刺激的です。だからこそ、AIは常に私の最大の情熱であり、30年以上もAIの分野で仕事をしてきた理由なのです。私は常に、AIは科学にとって究極のツールとなり、科学的理解、科学的発見、医学、そして宇宙に関する私たちの知識を進歩させると信じてきました。

私たちの当初のミッションステートメントは2段階のプロセスでした。まず、知能、つまり汎用人工知能（AGI）を構築すること。次に、それを使って他のあらゆる問題を解決することです。その後、「本当にあらゆる問題を解決しようとしているのですか？」と尋ねられることが多かったため、表現を修正する必要がありました。もちろん、私たちはそのつもりでした。今では、人々はその意味を理解し始めています。具体的には、私が「ルートノード問題」と呼ぶ科学分野の解決、つまり、画期的な発見によって全く新しい発見の分野が開かれる可能性のある分野の解決を指しています。AlphaFoldは、私たちが目指すもののプロトタイプです。現在、世界中の300万人以上の研究者、ほぼすべての生物学者がAlphaFoldを使用しています。製薬会社の幹部である友人たちから聞いた話では、将来発見されるほぼすべての医薬品は、創薬プロセスのどこかの段階でAlphaFoldを使用するだろうとのことです。私たちはこれを誇りに思っており、これがAIがもたらすと期待する影響です。しかし、これはまだ始まりに過ぎないと思っています。

AIが役に立たない科学や工学分野は思いつきません。あなたが挙げた分野は、まさに「AlphaFold 1の段階」にあると言えるでしょう。成果は有望ですが、その分野の主要な課題はまだ完全には克服されていません。今後2年間で、材料科学から数学に至るまで、これらの分野すべてにおいて議論すべきことがたくさん出てくるでしょう。

ゲイリー・タン：まるで映画『プロメテウス』のように、人類に全く新しい能力を与えたような感覚です。

デミス・ハサビス：その通りです。もちろん、プロメテウスの物語の教訓と同じように、この能力がどのように、どこで使われるのか、そして同じ道具が悪用されるリスクについても、私たちは注意しなければなりません。

成功体験

ゲイリー・タン：ここにいらっしゃる皆さんの多くは、AIを科学に応用する企業を立ち上げようとしています。真に最先端を切り開いているスタートアップと、基本的なモデルをAPIでラップして「科学のためのAI」と名乗っているだけのスタートアップとの違いは何だと思いますか？

デミス・ハサビス：もし私が今日、Y Combinatorで皆さんの席に座ってプロジェクトを見ていたら、どうするだろうかと考えています。まず、AI技術の方向性を予測しなければなりませんが、これは本質的に難しいことです。しかし、AIの方向性と他のディープテクノロジー分野を組み合わせることで、大きなチャンスが生まれると私は信じています。この交差点、つまり材料科学、医学、あるいは原子の世界に関わるような、真に困難な科学分野は、近い将来、近道はありません。これらの分野は、次の基礎モデルの更新によって潰されることはないでしょう。しかし、防御的な方向性を探しているなら、私がお勧めするのはこれです。

私は昔からディープテックに強い関心を持っていました。真に永続的で価値のあるものは、簡単に手に入るものではありません。私は常にディープテックに惹かれてきました。2010年に私たちが事業を始めた頃、AIはディープテックでした。投資家からは「これはうまくいかないことは既に分かっている」と言われ、学界では90年代に試みられて失敗したニッチな分野とみなされていました。しかし、自分のアイデアに確信があれば、つまり、なぜ今回は違うのか、どのような独自のバックグラウンドの組み合わせを持っているのか（理想的には、あなた自身が機械学習とその応用分野の専門家であるか、そのような創業チームを編成できる）が分かれば、計り知れない影響力と価値を生み出すことができるのです。

ゲイリー・タン：このメッセージは重要です。何かを成し遂げた後は、それは当然のことのように思えるかもしれませんが、成し遂げる前は、誰もがあなたに反対するのです。

デミス・ハサビス：まさにその通りです。本当に情熱を傾けられることをやらなければなりません。私の場合、何があってもAIを続けます。ごく若い頃から、AIは自分が想像できる中で最も影響力のあるものだと決めていました。そしてそれは実際に証明されていますが、もしかしたらそうではないかもしれません。50年早すぎたのかもしれません。それに、AIは私が想像できる中で最も興味深いものでもあります。たとえ今、私たちがまだ小さなガレージに閉じこもっていて、AIがまだ開発されていなかったとしても、私は何らかの方法でAI開発を続けるでしょう。大学に戻るかもしれませんが、何らかの方法で続けるでしょう。

ゲイリー・タン： AlphaFoldは、方向性を定めて正しい選択をした好例です。AlphaFoldのような画期的な発見を生み出すのに適した科学分野とは、どのようなものなのでしょうか？特定の目的関数など、何か共通するパターンはあるのでしょうか？

デミス・ハサビス：いつか書き留めておかないといけないな。AlphaGoやAlphaFoldを含むすべてのAlphaプロジェクトから学んだ教訓は、現在の技術が以下の条件の下で最も効果的に機能するということだ。第一に、問題の組み合わせ探索空間が非常に大きいこと。大きければ大きいほど良い。総当たり攻撃や特別なアルゴリズムでは解けないほど大きい。囲碁の指し手空間やタンパク質の立体構造空間は、宇宙に存在する原子の数をはるかに超える。第二に、タンパク質の自由エネルギーを最小化したり、囲碁で一手勝つなど、目的関数を明確に定義できること。これにより、システムは勾配上昇法を実行できる。第三に、十分なデータが存在するか、あるいは与えられた分布内で大量の合成データを生成できるシミュレーターが存在すること。

これら3つの条件が満たされれば、現代の手法は「干し草の山から針を探す」ような困難な課題を克服する上で非常に有効です。創薬も同様の論理に基づいています。副作用なく病気を治療できる化合物が存在し、かつ物理法則がそれを許容する限り、唯一の問題はそれをいかに効率的かつ実現可能な方法で見つけるかということです。私は、AlphaFoldが、このようなシステムが膨大な探索空間からこの「針」を見つけ出す能力を初めて実証したと信じています。

ゲイリー・タン：もっと上のレベルに話を移したいと思います。私たちは人間がこれらの手法を使ってAlphaFoldを作成したという話をしていますが、さらにメタレベルがあります。それは、人間がAIを使って可能性のある仮説の空間を探索することです。AIシステムが（単なるデータ上のパターンマッチングではなく）真の科学的推論を実行できるようになるまで、あとどれくらいかかるでしょうか？

デミス・ハサビス：私たちは非常に近いところまで来ていると思います。こうした汎用システムの開発に取り組んでいます。AIコサイエンティストと呼ばれるシステムや、基本的なGeminiを超えることができるAlphaEvolveのようなアルゴリズムがあります。主要な研究所はすべてこの方向性を模索しています。

しかし、今のところ、私自身はこれらのシステムによる真に重要な科学的発見を目にしていません。近いうちに実現するだろうと思っています。それは、先ほど議論した創造性、つまり私たちの知識の限界を真に押し広げることに関係しているのかもしれません。そのレベルでは、もはやパターンマッチングではありません。なぜなら、マッチングするパターンが存在しないからです。また、完全に外挿でもなく、むしろ何らかの類推的推論が必要になります。これらのシステムはまだその能力を備えていない、あるいは、私たちがそれらを正しく活用できていないのだと私は考えています。

科学分野において私がよく挙げる基準の一つは、単に仮説を検証するだけでなく、真に興味深い仮説を提示できるかどうかです。なぜなら、仮説の検証自体が、リーマン予想の証明やミレニアム懸賞問題の解決といった、非常に重要な出来事になり得るからです。しかし、私たちはおそらく、そうした偉業を成し遂げるまであと数年しか残されていないでしょう。

さらに難しいのは、一流の数学者たちが同等に奥深く、生涯をかけて研究する価値があると考えるような、新たなミレニアム賞問題群を提案することです。それは桁違いに難しいことであり、まだその方法が分かっていません。しかし、魔法のように簡単にできるとは思っていません。これらのシステムはいずれそれを実現するでしょう。おそらく、一つか二つ足りない点があるかもしれませんが。

これを検証する一つの方法として、私が時々「アインシュタイン・テスト」と呼ぶものがあります。1901年の知識を使ってシステムを訓練し、特殊相対性理論やその年の論文など、アインシュタインが1905年に発表した成果を、そのシステムが自力で導き出せるかどうかです。実際にこのテストを実行し、繰り返し試してみて、いつそれが可能になるかを確認すべきだと思います。それが可能になれば、これらのシステムは真に全く新しいものを発明する日もそう遠くないでしょう。

起業に関するアドバイス

ゲイリー・タン：最後に一つ質問です。ここにいらっしゃる皆さんの多くは、高度な技術的バックグラウンドをお持ちで、皆さんのような規模の事業を目指していらっしゃいます。皆さんは世界最大級のAI研究機関の一つです。汎用人工知能（AGI）研究の最前線にいらっしゃった皆さんにとって、今知っていることで、25歳の頃に知っておきたかったことは何ですか？

デミス・ハサビス：実はその点については既に触れましたね。難しい問題に取り組むのも、簡単な問題に取り組むのも、実際には難易度はほぼ同じで、ただ難しさの感じ方が違うだけです。物事によって、直面する困難の種類も異なります。しかし、人生は短く、エネルギーも限られています。ですから、自分がやらなければ誰もやらないようなことに、人生のエネルギーを注いでみてはいかがでしょうか？それを、自分の選択の基準にしてください。

もう一つ重要な点は、今後数年間で分野横断的な共同研究がより一般的になり、AIがそうした共同研究を容易にするだろうということです。

最後の点は、AGIの実現時期に関するあなたの計画によって異なります。私の場合は2030年頃です。今日ディープテックプロジェクトを始めると、通常は10年かかる道のりになります。そして、計画の途中でAGIが登場する可能性も考慮に入れなければなりません。これはどういう意味でしょうか？必ずしも悪いことではありませんが、考慮する必要があります。あなたのプロジェクトはAGIを活用できるでしょうか？AGIシステムはあなたのプロジェクトとどのように連携するでしょうか？

AlphaFoldと汎用AIシステムの関係性について言えば、私が想定するシナリオの一つは、Gemini、Claude、あるいは類似の汎用システムが、AlphaFoldのような特殊システムをツールとして利用するというものです。すべてを単一の巨大な「頭脳」に詰め込む必要はないと考えています。Geminiはタンパク質フォールディングを行う必要がないため、すべてのタンパク質データをGeminiに詰め込むのは無意味です。情報効率性に関するあなたの指摘に戻ると、タンパク質データは間違いなくGeminiの言語能力を阻害するでしょう。より良いアプローチは、特殊ツールを呼び出し、さらには訓練することもできる、非常に強力な汎用ツール利用モデルを用意することですが、特殊ツールは独立したシステムとして扱うべきです。

この考え方は、今日あなたが構築するもの、つまり選択する工場や金融システムの種類などに影響を与えるため、深く検討する価値があります。汎用人工知能（AGI）の実現時期を真剣に受け止め、その世界がどのようなものになるかを想像し、その世界が到来したときにもなお役立つものを構築する必要があります。