「Scaling 時代已經(jīng)終結(jié)。」
當(dāng)這句話出自 Ilya Sutskever 之口時,整個 AI 社區(qū)都無法忽視。作為 Safe Superintelligence Inc. 的創(chuàng)始人,他在最新訪談中拋出的這一斷言,不僅令業(yè)內(nèi)震驚,更收獲了諸多重量級人物的共鳴。
圖片
這場由 Dwarkesh Patel 主持、長達(dá) 95 分鐘的深度對話,上線短短數(shù)小時便在 X 平臺上突破了百萬瀏覽量。從大模型的技術(shù)現(xiàn)狀到研究品味,再到對超級智能的終極構(gòu)想,Ilya 毫無保留。
圖片
以下是本次訪談的精華總結(jié),帶你讀懂這位頂尖科學(xué)家的判斷與展望。
視頻地址:https://www.dwarkesh.com/p/ilya-sutskever-2
1. 模型能力的「參差不齊」(Model Jaggedness) 與泛化
現(xiàn)象: Ilya 指出當(dāng)前模型存在一種奇怪的矛盾 —— 它們能在高難度的評測(Evals)中表現(xiàn)出色,卻可能在簡單的任務(wù)上反復(fù)犯錯(如修 Bug 時引入新 Bug)。
解釋: 他認(rèn)為這可能源于「獎勵黑客行為」(Reward Hacking)。人類研究員為了讓評測分?jǐn)?shù)好看,過度針對評測集進(jìn)行強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,導(dǎo)致模型像是一個「只會做題」的學(xué)生,缺乏真正的理解和泛化能力。
對比: 他用「刷題家」與「有天賦的學(xué)生」做類比。目前的模型像刷了 10,000 小時題目的學(xué)生,雖然能解題但缺乏真正的智能;而人類(有天賦的學(xué)生)即使練習(xí)很少,也能展現(xiàn)出更好的泛化能力。
2. 情緒、價值函數(shù)與人類學(xué)習(xí)
情緒的本質(zhì): Ilya 提出一個深刻的見解,認(rèn)為人類的情緒類似于機(jī)器學(xué)習(xí)中的價值函數(shù) (Value Function)。情緒并非無用的累贅,而是進(jìn)化的產(chǎn)物,幫助我們在漫長的時間跨度中,在獲得最終結(jié)果之前就判斷當(dāng)前決策的好壞(例如下棋丟子時的「懊惱」)。
學(xué)習(xí)效率: 人類的學(xué)習(xí)效率遠(yuǎn)高于 AI(樣本效率高)。這不僅僅是因?yàn)檫M(jìn)化留下的先驗(yàn)知識(如視覺、運(yùn)動),更因?yàn)槿祟悡碛心撤N基于價值函數(shù)的內(nèi)在學(xué)習(xí)機(jī)制,能夠進(jìn)行持續(xù)學(xué)習(xí) (Continual Learning) 和自我糾正。
3. AI 發(fā)展的階段轉(zhuǎn)變:從「擴(kuò)展」到「研究」
擴(kuò)展時代 (Age of Scaling, 2020-2025): 過去幾年,「擴(kuò)展 (Scaling)」是主旋律,只要堆算力和數(shù)據(jù)(主要是預(yù)訓(xùn)練)就能獲得提升。
研究時代 (Age of Research): 現(xiàn)在,預(yù)訓(xùn)練數(shù)據(jù)即將耗盡,且單純擴(kuò)大規(guī)模的回報在邊際遞減。我們重新回到了「研究時代」。這意味著不能只靠盲目擴(kuò)大規(guī)模,而是要尋找新的「配方」(Recipe),更聰明地使用算力(例如在強(qiáng)化學(xué)習(xí)和推理過程中)。
4. Safe Superintelligence Inc. (SSI) 的戰(zhàn)略
直通超級智能 (Straight-shotting): 與 OpenAI 等公司逐步發(fā)布產(chǎn)品不同,SSI 傾向于專注于研發(fā),直到解決安全超級智能的問題后再發(fā)布。盡管 Ilya 也承認(rèn)逐步發(fā)布有助于讓世界適應(yīng),但他認(rèn)為避免商業(yè)競爭的「老鼠賽跑」對安全至關(guān)重要。
技術(shù)路徑: SSI 試圖解決根本性的技術(shù)問題(如可靠的泛化),而不是僅僅在現(xiàn)有范式上修修補(bǔ)補(bǔ)。
商業(yè)模式: 目前專注于研究,不急于通過產(chǎn)品獲利。