DeepMind創辦人做客YC：通往AGI只差兩塊拼圖，Agent才剛起步

播客來源：Y Combinator

整理& 編譯：深潮TechFlow

主持人：Gary Tan

來賓：Demis Hassabis（DeepMind 創辦人，2024 年諾貝爾化學獎得主，Google DeepMind 負責人）

播出時間：2026 年4月29 日

編輯導語

Google DeepMind CEO、諾貝爾化學獎得主Demis Hassabis 做客Y Combinator ，聊到了通往AGI 還有哪些關鍵進展，給創業者關於如何保持領先的建議，以及下一個重大科學突破可能會出現在哪裡。對深科技創業家最實用的判斷是，如果你今天啟動一個十年期的深科技項目，必須把AGI 的出現這件事納入規劃中。此外他也透露了Isomorphic Labs（從DeepMind 拆分的AI 製藥公司）即將有重大消息發布。

精華語錄

AGI 路線與時間軸

「現有的這些技術組件幾乎肯定會成為AGI 最終架構的一部分。」
「持續學習、長程推理、記憶的某些方面的問題還沒解決，AGI 需要全部搞定。」
「如果你的AGI 時間線跟我一樣是2030 年左右，而你今天開始了一個深科技項目，那你必須把AGI 會在半路出現這件事考慮進去。」

記憶與情境窗口

「上下文窗口大致相當於工作記憶。人類工作記憶平均只有七個數字，我們有百萬甚至千萬token 的上下文窗口。但問題是我們把所有東西都往裡塞，包括不重要的、錯誤的信息，目前這種做法相當粗暴。」
「如果要處理即時視訊串流並且把所有token 都存進去，一百萬token 其實只夠大約20 分鐘。」

推理的缺陷

「我喜歡拿Gemini 下棋。它有時候意識到這是一步臭棋，但又找不到更好的，結果繞了一圈還是走了那步臭棋。但一個精確的推理系統不應該出現這種情況。」
「它一方面能解IMO 金牌等級的題，另一方面換個方式提問就會犯小學數學的錯誤。在自身思考過程的內省上，好像還缺了點什麼。」

Agent 與創造力

「要達到AGI，你必須有一個能主動替你解決問題的系統。Agent 就是那條路，我覺得我們才剛起步。」
「我還沒看到有人用vibe coding 做出一款登頂應用商店排行榜的3A 遊戲。按照目前投入的精力，這應該是可能的，但還沒發生。說明工具或流程上還缺了點什麼。」

蒸餾與小模型

「我們的假設是，一個前沿的Pro 模型發布半年到一年後，它的能力就能被壓縮到非常小的、可以跑在邊緣設備上的模型裡。目前還沒碰到理論上的信息密度極限。」

科學發現與「愛因斯坦測驗」

「我有時管它叫「愛因斯坦測試」，即能不能用1901 年的知識訓練一個系統，然後讓它獨立推導出愛因斯坦1905 年做出的那些成果，包括狹義相對論。一旦能做到，這些系統就離真正發明全新的東西不遠了。」
「解決一個千禧年大獎問題已經很了不起了。但比這更難的是，能不能提出一組新的千禧年大獎問題，而且是被頂尖數學家認為同樣深刻、值得用一輩子去研究的問題。」

深科技創業建議

「追難問題和追簡單問題，其實差不多，只是難的方式不同。人生很短，不如把精力砸在你不做就真沒人做的事情上。」

AGI 實作路徑

Gary Tan ：你思考AGI 的時間幾乎比所有人都長。看目前的範式，你覺得我們已經擁有了多少AGI 的最終架構？現在根本性缺失的是什麼？

Demis Hassabis ：大規模預訓練、RLHF、思維鍊等，我很確定它們會成為AGI 最終架構的一部分。這些技術走到今天已經證明太多東西了。我不太能想像兩年後我們會發現這是一條死路，這對我來說說不通。但在已有的東西之上，可能還差一兩樣。持續學習（continual learning）、長程推理（long-term reasoning）、記憶的某些方面，還有些問題沒解決。 AGI 需要全部搞定。也許現有技術加上一些漸進式創新就能擴展到那個程度，但也可能剩下一兩個大的關鍵點需要被突破。我不覺得會超過一兩個。我個人判斷有沒有這種未解的關鍵點，機率大概五五開。所以在Google DeepMind，我們兩條線都在推進。

Gary Tan ：我跟一堆Agent 系統打交道，最讓我震驚的是，底層來來回回就是同一套權重。所以持續學習這個概念特別有意思，因為現在我們基本上是在用膠帶臨時糊的，像是那些「夜間夢境週期」之類的東西。

Demis Hassabis ：對，那些夢境週期挺酷的。我們過去在情景記憶的整合上就思考過這個問題。我博士研究的就是海馬體怎麼把新知識優雅地融入現有的知識體系。大腦在這方面做得極好。當它在睡眠期間完成這個過程，尤其是快速動眼睡眠（REM sleep）時，把重要的經驗重播一遍以便從中學習。我們最早的Atari 程式DQN（DeepMind 在2013 年發表的深度Q 網絡，首次用深度強化學習在Atari 遊戲上達到人類水平）能掌握Atari 遊戲，一個關鍵方法就是經驗回放（experience replay）。這從神經科學裡學來的，把成功的路徑反覆回放。那是2013 年的事了，放在AI 領域算上古時期，但那時它非常關鍵。

我同意你說的，現在我們確實在用膠帶糊。把所有東西塞進上下文視窗裡。這感覺不太對。就算我們做的是機器而不是生物大腦，理論上可以有百萬、千萬級別的上下文窗口，而且記憶可以是完美的，但查找和檢索的成本仍然存在。在當下這個需要具體決策的時刻，找到真正相關的資訊並不簡單，即使你能把所有東西都存下來。所以我覺得記憶這個領域還有很大的創新空間。

Gary Tan ：說實話，百萬token 的上下文視窗已經比我預期的大多了，能做很多事。

Demis Hassabis ：對大多數它該用的場景來說是夠大的。但你想一下，上下文視窗大致相當於工作記憶。人類工作記憶平均只有七個數字，我們有百萬甚至千萬等級的上下文視窗。問題是我們把什麼都往裡塞，包括不重要的、錯誤的訊息，目前這種做法相當粗暴。而且如果你現在要處理即時視訊串流，天真地把所有token 都記錄下來，一百萬token 其實只夠大約20 分鐘。但如果你想讓系統理解你一兩個月內的生活狀況，那還遠遠不夠。

Gary Tan ：DeepMind 歷來深度投入強化學習和搜索，這種哲學在你們現在建構Gemini 的過程中嵌入了多深？強化學習是不是仍然被低估了？

Demis Hassabis ：可能確實被低估了。這方面的關注度有起有伏。我們從DeepMind 成立第一天就在做Agent 系統。所有Atari 和AlphaGo 上的工作，本質上都屬於強化學習Agent，能自主完成目標、做決策、制定計畫的系統。當然我們當時選的是遊戲領域，因為複雜度可控，然後逐步做更複雜的遊戲，像是AlphaGo 之後做了AlphaStar，基本上我們把能做的遊戲都做了。

接下來的問題是，能不能把這些模型泛化為世界模型或語言模型，而不僅僅是遊戲模型。過去幾年我們就在做這件事。今天所有領先模型的思考模式和思考鏈推理，本質上就是AlphaGo 當年開創東西的再回歸。我覺得我們當年做的很多工作跟今天高度相關，我們正在重新審視那些老想法，用更大的規模、更通用的方式去做，包括蒙特卡洛樹搜尋（Monte Carlo tree search）等各種強化學習的方法。 AlphaGo 和AlphaZero 的那些想法跟今天的基礎模型極度相關，我認為未來幾年的進步很大一部分會來自於此。

蒸餾與小模型

Gary Tan：現在要更聰明就需要更大的模型，但同時蒸餾技術也在進步，小模型可以變得相當快。你們的Flash 模型很強，基本上能達到前沿模型95%的效果，但價格只有十分之一。對嗎？

Demis Hassabis：我覺得這是我們的核心優勢之一。你得先建造最大的模型來獲得前沿能力。我們最大的優勢之一是能很快地把那些能力蒸餾並壓縮到越來越小的模型裡。蒸餾這套方法本來就是我們發明的，我們現在仍然是世界頂尖。而且我們有很強的業務動力去做這件事。我們大概是全球最大的AI 應用平台。擁有AI Overviews 和AI Mode，以及Gemini，現在Google 的每個產品，包括地圖、YouTube 等，都在整合Gemini 或相關技術。這涉及數十億用戶，以及十幾個十億級用戶的產品。它們必須速度極快、效率極高、成本極低、延遲極低。這給了我們極大的動力去把Flash 和更小的Flash-Lite 模型做到極致高效，我希望這最終也能服務好用戶的各類工作。

Gary Tan：我好奇這些小模型到底能聰明到什麼程度。蒸餾有沒有極限？ 50B 或400B 的模型能不能跟今天最大的前沿模型一樣聰明？

Demis Hassabis：我不覺得我們已經碰到了資訊理論上的極限，至少目前沒人知道有沒有碰到。也許某天會遇到某種資訊密度的天花板，但現在我們的假設是，一個前沿的Pro 模型發布後，在半年到一年內，它的能力就能被壓縮到非常小的、幾乎可以跑在邊緣設備上的模型裡。你們也能在Gemma 模型上看到這一點，我們的Gemma 4 模型在同體量下表現得非常強。這都用到了大量蒸餾技術和小模型效率優化技術。所以我真的沒看到什麼理論極限，我覺得我們離那個極限還很遠。

Gary Tan：現在有個很離譜的現象，就是工程師能做的工作量大概是六個月前的500到1000 倍。這個房間裡有些人大概在做相當於2000 年代一個Google 工程師1000 倍的工作量。 Steve Yegge 講過這個。

Demis Hassabis：我覺得很興奮。小模型有很多用途。一個是成本低，而且速度快會同樣會帶來好處。在寫程式碼或其他任務中，你能迭代得更快，尤其是跟系統協作的時候。快速的系統即使不是最前沿的，例如只有前沿的90% 到95%，但這完全夠用了，而且你在迭代速度上賺回來的遠超那10%。

另一個大方向是把這些模型跑在邊緣設備上，不只是為了效率，也是為了隱私和安全。想想各種處理非常私人資訊的設備，還有機器人，對於你家裡的機器人，你會希望本地跑一個高效且強大的模型，只在特定場景下把任務委託給雲端的大模型。音訊和視訊串流都在本地處理、資料留在本地，我能想像這會是一個很好的終極狀態。

記憶與推理

Gary Tan ：回到脈絡與記憶。模型目前是無狀態的，如果有了持續學習能力，開發者的體驗會是什麼樣子？你怎麼引導這樣的模型？

Demis Hassabis：這個問題很有趣。缺乏持續學習是目前Agent 無法完成完整任務的關鍵瓶頸。現在的Agent 對任務的局部環節很有用，你可以把它們拼起來做一些很酷的事，但它們無法很好地適應你所在的特定環境。這就是為什麼它們還不能真正「發射後不管」的原因，它們需要能學習你的具體場景。要達到完全的通用智能，這個問題必須解決。

Gary Tan：推理方面走到哪了？模型現在的思維鏈很強，但在一些聰明本科生不會犯的錯誤上還是會翻車。具體需要改什麼？推理上你預期會有什麼進展？

Demis Hassabis：思考範式上還有大量創新空間。我們所做的事情仍然相當粗糙、相當暴力。可以有很多改進方向，例如監控思考鏈的過程，在思考中途做乾預。我常常覺得，不管是我們的系統還是競爭對手的系統，它們在某種程度上會過度思考，陷入循環。

我有時候喜歡拿Gemini 下棋來觀察。所有領先的基礎模型在下棋方面其實都相當差，這很有意思。看它們的思考軌跡很有價值，因為棋是一個被充分理解的領域，我能很快判斷它是不是走偏了，推理是不是有效。我們看到的情況是，它有時候考慮一步棋，意識到是步臭棋，但又找不到更好的，結果繞了一圈還是走了那步臭棋。一個精確的推理系統不應該出現這種情況。

這種巨大的落差仍然存在，但修復它可能只需要一兩個調整。這就是為什麼你會看到所謂的「鋸齒狀智慧」（jagged intelligence），它一方面能解IMO 金牌等級的題，另一方面換個方式提問就會犯小學數學的錯誤。在對自身思考過程的內省上，好像還缺了點什麼。

Agent 的真實能力

Gary Tan： Agent 是個大話題。有人說是炒作。我個人覺得才剛開始。 DeepMind 內部研究對Agent 能力的真實判斷是什麼，跟外面的宣傳差距有多大？

Demis Hassabis：我同意你說的，我們才剛開始。要達到AGI，你必須有一個能主動替你解決問題的系統。這對我們來說一直都很清楚。 Agent 就是那條路，我覺得我們才剛起步。大家都在摸索怎麼能讓Agent 更好地配合工作，我們在個人實驗上做了很多探索，在座的很多人應該也是。怎麼讓Agent 融入工作流程，讓它不只是錦上添花，而是真正在做根本性的事情。目前我們還在實驗階段。可能也就最近兩三個月才開始真正找到特別有價值的場景。技術大概也剛好到了那個程度，不再是玩具演示，而是真的在為你的時間和效率帶來價值。

我經常看到有人啟動幾十個Agent 讓它們跑幾十個小時，但我還不確定產出能匹配這個投入。

我們還沒看到有人用vibe coding 做出一款登頂應用程式商店排行榜的3A 遊戲。我自己也寫過，在座很多人也做過一些不錯的小demo。我現在半小時就能做出一個《Theme Park》的原型，當年17 歲的我花了六個月。我有種感覺，如果你花一整個夏天去做，你可以做出真正不可思議的東西。但它仍然需要工藝和人的靈魂、品味，你必須確保把這些東西帶進你所建造的任何產品裡。事實上現在還沒有哪個小孩做出了賣出一千萬份的爆款遊戲，照理說以當前的工具投入，這應該是有可能的。所以還缺點什麼，可能跟流程有關，可能跟工具有關。我預計未來6到12 個月內會看到那樣的成果。

Gary Tan：其中多大程度上會是全自動的？我覺得不會一上來就是全自動。更可能的路徑是在座的人先做到1000 倍效率，然後出現有人用這些工具做出了暢銷應用、暢銷遊戲，之後更多環節才會被自動化。

Demis Hassabis：對，這就是你應該先看到的。

Gary Tan：也有一部分原因是，有些人確實在這麼做了，但他們不願意公開說Agent 幫了多少忙。

Demis Hassabis：可能是。但我想聊聊創造力這個問題。我常舉AlphaGo 的例子，大家都知道第二局第37 手。對我來說，我一直在等那樣的時刻出現，它出現之後我才啟動了科學計畫例如AlphaFold。我們在從首爾回來的第二天就開始做AlphaFold，那是十年前了。我這次去韓國就是慶祝AlphaGo 十週年。

但光是走出Move 37 是不夠的。它很酷，很有用。但這個系統能不能發明圍棋本身呢？如果你給它一段高層描述，例如「一個五分鐘能學會規則、但窮盡一生也難以精通的遊戲，美學上很優雅，一個下午能下完一盤」，然後系統返回給你的結果是圍棋。今天的系統做不到這一點。問題是為什麼？

Gary Tan：在座的人裡可能就有誰能做到。

Demis Hassabis ：如果有人做到了，那麼答案就不是系統缺了什麼，而是我們使用系統的方式有問題。這說不定就是正確答案。也許今天的系統就有這個能力，只是需要一個足夠天才的創作者來驅動它，提供那種項目的靈魂，同時這個人要跟工具高度融合，幾乎跟工具合為一體。如果你日夜泡在這些工具裡並且具備深度創造力，也許就能做出超乎想像的東西。

開源與多模態模型

Gary Tan：換個話題聊開源。最近Gemma 的發布讓非常強的模型可以在本地運行。你怎麼看？ AI 會不會變成使用者自己掌握的東西，而不是主要留在雲端？這會改變誰能用這些模型來建構產品嗎？

Demis Hassabis：我們是開源和開放科學的堅定支持者。你提到的AlphaFold，我們全部免費開放了。我們的科學工作至今仍發表在頂尖期刊。 Gemma 方面，我們想為同等體量創造世界領先的模型。目前Gemma 的下載量已經達到大約4000 萬次，而且才發布了兩個半星期。

我也認為在開源領域有西方技術棧的存在很重要。中國的開源模型很優秀，目前在開源領域領先，但我們認為Gemma 在同體量下非常有競爭力。

對我們來說還有一個資源問題，沒有人有多餘的算力去做兩個全尺寸前沿模型。所以我們目前的決策是：邊緣模型用於Android、眼鏡、機器人等，最好做成開放模型，因為一旦部署到設備上，它們本身就是暴露的，不如直接徹底開放。我們在奈米層級統一了開放策略，這在戰略上也說得通。

Gary Tan：上台前我給你示範了我做的AI 作業系統，我能直接用語音跟Gemini 交互，給你示範東西我還是挺緊張的，不過居然跑通了。 Gemini 從一開始就是多模態建構的。我用過很多模型，直接語音到模型的互動加上工具呼叫能力的深度和上下文理解，目前沒有任何模型能跟Gemini 比較。

Demis Hassabis：對。對於Gemini 系列一個還沒被充分認識到的優點就是我們從一開始就以多模態來建構。這讓起步階段比只做文本要難，但我們相信長期會從中受益，現在已經開始兌現了。例如世界模型方面，我們在Gemini 之上建構了Genie（DeepMind 開發的生成式互動環境模型）。機器人領域也是一樣，Gemini Robotics 將建立在多模態基礎模型上，我們在多模態上的優勢將成為競爭護城河。我們在Waymo（Alphabet 旗下自動駕駛公司）也越來越常使用Gemini。

想像跟隨你進入真實世界的數位助手，可能在你的手機或眼鏡上，它需要理解你周圍的物理世界和環境。我們的系統在這方面極強。我們會繼續在這個方向投入，我認為我們在這類問題上的領先優勢是很大的。

Gary Tan ：推理成本正在快速下降。當推理基本上免費時，什麼變得可能了？你們團隊的優化方向會因此改變嗎？

Demis Hassabis：我不確定推理會真正免費，傑文斯悖論（Jevons' Paradox，指效率提升反而導致總消耗量增加）擺在那裡。我覺得所有人最後會把能拿到的算力全部用掉。可以想像數百萬個Agent 組成的群體協同工作，或者一小組Agent 沿著多個方向同時思考然後做整合。我們都在實驗這些方向，所有這些都會吃掉可用的推理資源。

能源方面，如果我們解決了可控核融合、室溫超導、最優電池等問題中的幾個，我認為透過材料科學我們會做到，那麼能源成本可以趨近於零。但晶片的物理製造等環節仍有瓶頸，至少未來幾十年是如此。所以推理端還是會有配額限制，仍然需要有效率地使用。

下一個科學突破

Gary Tan：好在小模型越來越聰明了。在座有很多生物和生物技術領域的創始人。 AlphaFold 3 已經超越了蛋白質，擴展到更廣譜的生物分子。我們離建模完整的細胞系統還有多遠？這是不是一個完全不同難度等級的問題？

Demis Hassabis： Isomorphic Labs 進展非常好。 AlphaFold 只是藥物發現流程中的一個環節，我們正在做相鄰的生物化學研究，設計具有正確性質的化合物等，很快就會有重大發布。

我們的最終目標是做出一個完整的虛擬細胞，一個你可以施加擾動的全功能細胞模擬器，其輸出足夠接近實驗結果，並且有實際用途。你可以跳過大量搜尋步驟，產生大量合成資料來訓練其他模型，讓它們預測真實細胞的行為。

我估計距離完整的虛擬細胞還有大約十年。我們在DeepMind 科學側正從虛擬細胞核開始做，因為細胞核相對自成系統。這類問題的關鍵是，能不能切出一個複雜度合適的切片，它足夠自包含，你能合理地近似其輸入和輸出，然後專注於這個子系統。細胞核從這個角度看很適合。

另一個問題是數據不夠。我跟做電子顯微鏡和其他成像技術的頂尖科學家聊過。如果能在不殺死細胞的前提下對活細胞進行成像，那將是顛覆性的。因為那樣就能把它轉化為一個視覺問題，而視覺問題我們知道怎麼解。但據我了解，目前還沒有技術能在奈米級分辨率下對活的動態細胞進行成像且不破壞它。你能拍到那個解析度的靜態影像，現在已經非常精細了，這很令人興奮，但不足以直接把它變成一個視覺問題。

所以有兩條路，一條是硬體驅動、數據驅動的方案；另一條是建立更好的可學習模擬器來模擬這些動力學系統。

Gary Tan：你不只看生物。材料科學、藥物發現、氣候建模、數學，如果必須排定序，未來五年哪個科學領域會改造得最徹底？

Demis Hassabis：每個領域都讓人興奮，這也是為什麼這一直是我最大的熱情所在，也是我30 多年來從事AI 的原因。我一直認為AI 會是科學的終極工具，用於推進科學理解、科學發現、醫學以及我們對宇宙的認知。

我們最初表達使命的方式是兩步。第一步，解決智能，即建構AGI；第二步，用它解決其他所有問題。後來不得不調整措辭，因為有人會問「你們真的是說解決所有問題嗎」？我們確實是這個意思。現在大家開始理解這代表什麼了。具體來說，我指的是解決那些我稱為「根節點問題」的科學領域，那些一旦突破就能解鎖全新發現分支的領域。 AlphaFold 就是我們想做的事情的原型。全球超過三百萬研究者，幾乎每個生物學研究者現在都在使用AlphaFold。我從一些藥廠高層朋友那裡聽說，今後發現的幾乎每一種藥物都會在藥物發現流程的某個環節用到AlphaFold。我們為此感到自豪，這也是我們希望AI 能產生的那種影響力。但我覺得這只是個開始。

我想不出有哪個科學或工程領域是AI 幫不上忙的。你提到的那些領域，我覺得差不多處於「AlphaFold 1 時刻」，結果已經很有希望，但還沒有真正攻克該領域的大挑戰。未來兩年在所有這些領域我們都會有很多進展可談，從材料科學一直到數學。

Gary Tan：感覺像是普羅米修斯式的，給人類一種全新的能力。

Demis Hassabis：沒錯。當然正如普羅米修斯故事的寓意一樣，我們也必須謹慎對待這種能力被怎麼使用、用在什麼地方，以及同一套工具被濫用的風險。

成功經驗

Gary Tan：在座有很多人在嘗試創辦將AI 應用於科學的公司。在你看來，真正推進前沿的創業公司和那些只是給基礎模型套層API、然後自稱「AI for Science」的新創公司，差別在哪裡？

Demis Hassabis：我在想如果今天我坐在你們的位置上，在Y Combinator 看項目，我會怎麼做。一件事是你必須預判AI 技術的走向，這本身就很難。但我確實認為把AI 的走向跟另一個深科技領域結合起來，有巨大的機會。這個交叉點，不管是材料、醫學或其他真正困難的科學領域，特別是涉及原子世界的，在可預見的未來都不會有捷徑。這些領域不會因為下一次基礎模型更新就被碾壓。但如果你要找防禦性強的方向，這是我會推薦的。

我個人一直偏愛深科技。真正持久且有價值的東西沒有容易的。我總是被深科技吸引。 2010 年我們起步的時候AI 就是深科技——投資人跟我說「我們已經知道這東西不行」，學術界也認為這是個90 年代試過然後失敗的小眾方向。但如果你對自己的想法有信念——為什麼這次不同，你的背景有什麼獨特的組合——理想情況下你自己在機器學習和應用領域都是專家，或者你能組建這樣的創始團隊——那麼這裡面有巨大的影響力和價值可以創造。

Gary Tan：這個訊息很重要。一件事做成之後看起來理所當然，但做成之前所有人都在反對你。

Demis Hassabis：當然，所以你必須做你真正有熱情的事。對我來說，不管發生什麼事我都會做AI。我很小的時候就決定了這是我能想到的最有影響力的事情。事實也證明了這一點，但也可能不會，也許我們早了50 年。而且它也是我能想到的最有趣的事。即使今天我們還蹲在小車庫、AI 還沒做出來，我還是會想辦法繼續做。也許我會回學術界，但我會找到某種方式繼續下去。

Gary Tan： AlphaFold 算是你追了一個方向，然後賭對了的例子。什麼讓一個科學領域適合產生AlphaFold 式的突破？有沒有規律，例如某種目標函數？

Demis Hassabis：我確實應該找個時間把這件事寫下來。從AlphaGo 和AlphaFold 等所有Alpha 專案中我學到的經驗是，我們現有的技術在以下情況下效果最好。第一，問題具有巨大的組合搜尋空間，越大越好，大到沒有任何暴力窮舉或特殊演算法能解決。圍棋的走法空間和蛋白質的構型空間都遠遠超過宇宙中原子的數量。第二，你能清楚定義目標函數，例如蛋白質的自由能最小化，或是圍棋中的贏棋，這樣系統可以做梯度上升。第三，有足夠的數據，或有一個模擬器可以產生大量分佈內的合成數據。

如果這三個條件成立，那以今天的方法就能走很遠，去找到你需要的那根「稻草堆中的針」。藥物發現也是同一個邏輯：存在某種化合物能治療這種疾病並且沒有副作用，只要物理定律允許它存在，唯一的問題就是怎麼有效率、可行地找到它。我認為AlphaFold 第一次證明了這類系統有能力在海量搜尋空間中找到這種針。

Gary Tan：我想升一個層次。我們在談人類用這些方法創造了AlphaFold，但還有一個元層面，人類用AI 去探索可能的假設空間。我們離AI 系統能做真正的科學推理（而不只是數據上的模式匹配）還有多遠？

Demis Hassabis：我覺得很近了。我們在做這類通用系統。我們有一個叫做AI co-scientist 的系統，還有AlphaEvolve 這樣的演算法，能做到比基礎Gemini 更進一步的事。所有前沿實驗室都在探索這個方向。

但到目前為止，我個人還沒看到一個真正的、重大的科學發現是由這些系統做出來的。我覺得它快來了。它可能跟我們之前討論的創造力有關，真正突破已知邊界。到了那個層面，它就不是模式匹配了，因為沒有模式可以匹配。也不完全是外推，而是某種類比推理（analogical reasoning），我覺得這些系統目前還不具備，或者說我們還沒有以正確的方式去使用它們。

我在科學領域常說的一個標準是，它能不能提出一個真正有趣的假設，而不只是驗證一個。因為驗證一個假設本身也可能是驚天大事，例如證明黎曼猜想或解決某個千禧年大獎問題，但也許我們離做到這一步只剩幾年。

而比這更難的是，能不能提出一組新的千禧年大獎問題，而且被頂尖數學家認為同樣深刻、值得用一輩子去研究。我覺得這又難了一個量級，我們目前還不知道怎麼做到。但我不認為這是什麼魔法，我相信這些系統最終能做到，也許還差一兩樣東西。

我們可以用來檢驗的方式是，我有時叫它「愛因斯坦測試」，即你能不能用1901 年的知識訓練一個系統，然後讓它獨立推導出愛因斯坦1905 年做出的那些成果，包括狹義相對論和他那年的其他論文。我覺得我們應該真的去跑這個測試，反覆試，看什麼時候能做到。一旦能做到，那這些系統就離真正發明全新的東西不遠了。

創業建議

Gary Tan：最後一個問題。在座的人中有很多深度技術背景的人，想做接近你們這種規模的事情，你們是全球最大的AI 研究組織之一。你從AGI 研究的最前線走過來，有哪件事是你現在知道、但希望25 歲就知道的？

Demis Hassabis ：我們其實已經聊到一部分了。你會發現追難問題和追簡單問題其實難度差不多，只是難的方式不同。不同的事情有不同的難處。但人生很短，精力有限，不如把你的生命力砸在那種如果你不做就真沒人做的事情上。用這個標準去選。

另外一點，我覺得未來幾年跨領域的組合會更普遍，AI 會讓跨領域變得更容易。

最後一點取決於你的AGI 時間軸。我的是在2030 年左右。如果你今天開始一個深科技項目，通常意味著一段十年的旅程。那你就必須把AGI 在中途出現這件事納入規劃。這意味著什麼？不一定是壞事，但你必須考慮進去。你的專案能利用AGI 嗎？ AGI 系統會怎麼跟你的專案互動？

回到之前聊的AlphaFold 和通用AI 系統的關係，我能預見的一種情況是Gemini、Claude 或類似的通用系統把AlphaFold 這樣的專用系統當工具來呼叫。我不認為我們會把所有東西塞進一個巨大的單一「大腦」裡，如果把所有蛋白質數據塞進Gemini，那沒意義，Gemini 不需要做蛋白質折疊。回到你說的資訊效率，那些蛋白質數據肯定會拖累它的語言能力。更好的方式是有非常強的通用工具使用模型，它們可以呼叫甚至訓練那些專用工具，但專用工具是獨立的系統。

這個想法值得深想，它對你今天建造什麼有影響，包括你要建造什麼樣的工廠、什麼樣的金融體系。你需要認真對待AGI 時間表，想像那個世界會是什麼樣，然後建立一個在那個世界到來時仍然有用的東西。