在最新一期節目中,OpenAI知名研究員、O1研究團隊的核心科學家NoamBrown,表達了對“測試時計算”(或推理時計算,test-timecompute)科技引爆AGI時代的堅定信心。
他認為,儘管擴大預訓練規模是提升模型效能的有效手段,但成本高且終將觸及天花板。而“測試時計算”技術的出現,為解決這一瓶頸提供了全新的思路,將加速AGI的到來。
Brown曾認為,實現AGI至少要十年,但“測試時計算”技術只用兩三年便攻克了他在2021年與OpenAI首席科學家IlyaSutskever討論時提出的關鍵難題:如何擴展推理過程中的計算量。
他認為,這項技術讓模型能夠在推理階段進行更深入的思考與計算,從而解決更複雜的問題,而O1模型便是測試時計算研究的突破,可自主學習策略、拆解任務、識別並糾正錯誤,展現前所未有的智慧水平,證明了模型可以進行更深入的推理和解決更複雜的問題,它存在的意義被大大低估。
Brown強調,測試時計算目前仍處於早期發展階段,未來擁有巨大的提升空間。
他以ChatGPT為例:目前每次查詢的成本約為1美分,但對某些高價值應用場景,使用者願意支付的費用可能高達100萬美元,這預示著測試時計算擁有巨大的市場潛力,將在未來釋放出更強大的能量。
精華概要
本文主要圍繞OpenAI研究科學家Noam Brown對大型語言模型(LLM)能力、測試時間計算以及AGI發展時間軸的看法展開。
精華概要如下:
大模型能力觸碰天花板?測試時計算開啟新思路
模型越大,性能越強,但成本也越高,終將面臨經濟上的不可逾越的障礙。
測試時計算提供了一種更經濟高效的方式來提升模型性能。
問:模型能力是否已經達到了極限?
答: Noam認為,LLM的能力並非遇到了硬性瓶頸,而是面臨經濟上的軟性限制。單純透過擴大預訓練規模來提高性能,成本會呈指數級成長,導致經濟上不可行。
測試時計算:AGI 的終極密碼?
測試時計算仍處於早期階段,潛力大,還有很多低 hanging fruits 等著我們去摘取。
測試時計算可以解決預訓練無法解決的問題,例如在推理過程中進行擴展。
問:測試時計算的上限有多高?
答: Noam認為,測試時計算是提升LLM能力性價比的關鍵。相比預訓練的龐大投入,測試時間計算的成本相對較低,且演算法改進空間巨大,具有巨大的提升潛力。他估計測試時間計算的成本還有至少八個數量級的提升空間。
AGI實現時間被大大縮短
問:Sam Altman 曾說:“我們基本上知道如何構建 AGI 了”,你的看法呢?
答: 我和 Sam 的觀點一致,OpenAI 的研究人員普遍認為 AI 會快速發展。測試時計算的出現解決了許多關鍵問題,例如如何擴展推理過程中的計算量。我原本以為這需要 10 年時間才能實現,但實際上只用了 2-3 年。
O1的意義被低估了:OpenAI從預訓練巨頭到測試時計算先鋒
OpenAI 正全力投入開發能夠擴展測試時計算的技術。
O1 是測試時計算研究的突破,它證明了模型可以進行更深入的推理和解決更複雜的問題。
問:是什麼促使你專注於測驗時計算的研究?
答: 在撲克和外交等遊戲中,我看到了測試時計算的巨大潛力。我意識到,僅僅擴大預訓練規模無法達到真正的智能,需要找到一種方法來擴展推理過程中的計算量。在 2021 年,我跟 Ilya Sutskever 討論過 AGI 的時間軸,當時我認為至少需要 10 年時間。令我驚訝的是,他當時也認為僅靠擴大預訓練規模無法實現 AGI。
問:是什麼讓你相信測驗時計算會成功?
答: 當我們讓模型“思考”更長時間時,它開始展現出一些我們原本以為需要人工添加到模型中的能力,例如嘗試不同的策略、將複雜問題分解成更小的子問題、識別並糾正錯誤。這讓我相信,測試時計算是通往更高階智慧的關鍵。
問:OpenAI 為什麼會轉向測試時計算?
答: OpenAI 內部也意識到僅靠擴大預訓練規模無法實現 AGI,他們一直在尋找新的突破口。雖然最初的動機是為了克服數據牆的限制,但最終目標與擴展測試時計算的目標一致。O1 的出現其實顛覆了 OpenAI 自己開創的預訓練範式,這表明 OpenAI 願意投資有風險的方向。
通用模型一統天下?專用模型和工具仍有價值
未來可能會出現一個能夠處理所有任務的單一模型,並根據需要使用專門的工具。
問:專用模型的未來如何?
答: 我認為最終會出現一個能夠處理所有任務的單一模型。但目前 O1 和 GPT-4 各有優劣。O1 更智能,擅長解決複雜問題,但反應速度較慢。GPT-4 反應速度更快,更適合那些不需要深入推理的任務。
問:專用工具在未來會扮演什麼角色?
答: 我認為未來會出現很多介於簡單計算器和複雜模型之間的專用工具。例如,當 O1 被要求進行複雜的數學計算時,它可以選擇呼叫計算器工具來節省時間和成本。
O1 驚艷亮相:顛覆編碼,開啟人機協作新時代
O1 在編碼任務中表現出色,可能改變軟體開發領域。
未來的模型將更加智能,能夠執行更複雜的任務,例如代理任務。
問:你對 O1 的哪些用例感到興奮?
答: 我對 O1 在編碼方面的應用感到興奮。它可以幫助程式設計師完成更複雜的任務,甚至可以獨立完成整個項目。
問:你希望未來看到哪些新的應用?
答: 我希望看到 O1 被用於推進科學研究。它可以幫助科學家分析數據、設計實驗、甚至提出新的理論。
問:你認為 O1 能夠在哪些領域取得突破?
答: O1 預覽版在數學和編碼方面表現出色。我認為隨著模型的不斷發展,它將在越來越多的領域超越人類專家。
“苦澀的教訓”:鷹架技術的宿命
目前許多輔助工具和提示工程技術是權宜之計,最終會被更強大的、能夠自適應解決問題的模型所取代。
問:鷹架技術(諸如輔助工具、提示工程技術等)是否會持續存在?
答: 我認為腳手架技術最終會被更通用的方法所取代。Richard Sutton 在他的“苦澀的教訓”一文中指出,依賴人工編碼知識的技術最終會被那些能夠隨著資料和運算能力的增加而擴展的技術所超越。
問:新創公司應該如何應對快速發展的模型能力?
答: 我建議新創公司不要在鷹架技術上投入過多資源,因為隨著模型能力的快速發展,這些技術可能很快就會過時。
學術界的作用、未來人工智慧發展的展望
學術界應該專注於探索新的架構和方法,這些架構和方法可以隨著資料和運算能力的增加而擴展。
人工智慧模型可以用於進行社會科學實驗,例如測試不同的經濟政策或研究人類行為。
問:學術界在人工智慧研究中應該扮演什麼角色?
答: 學術界應該專注於探索新的架構和方法,這些架構和方法可以隨著資料和運算能力的增加而擴展。
我建議學術研究人員不要試圖在需要大量數據和運算能力的領域與產業研究實驗室競爭,而應該專注於探索新的方向。
問:人工智慧如何應用於社會科學研究?
答: 我認為人工智慧模型可以用於進行社會科學實驗。例如,我們可以用 AI 模型來模擬不同的經濟政策的效果,或研究人類在不同情境下的行為模式。
問:人工智慧代理如何相互交流?
答: LLM 的出現解決了人工智慧代理之間如何進行通訊的問題,因為它們可以使用人類語言來交流。
問:你對人工智慧機器人技術的未來有何看法?
答: 我認為人工智慧機器人技術的發展可能會比較緩慢,因為硬體迭代比軟體迭代更加困難和昂貴。
以下為訪談全文:
全文部分
主持人Jacob: Noam Brown是OpenAI的研究科學家,他是他們O1專案工作的核心成員。Noam在大型語言模型推理領域中處於前沿地位,在FAIR期間他從事外交和撲克博弈問題研究,有著非常有趣的過往經歷,我們今天討論了大型語言模型中關於無監督學習的最大問題。我們討論了這些模型是否遇到了瓶頸,測試時間計算能夠擴展到什麼程度,Noam如何定義AGI,以及在過去幾年他對人工智慧研究的看法發生了哪些改變。這是在O1正式發布後進行的一次非常有趣的訪談,我相信大家會很喜歡。閒話少說,讓我們聽聽Noam怎麼說。Noam,非常感謝你參加播客。當然,很高興來到這裡。我已經期待這一刻很久了,並且在O1令人興奮的發布後,這個時機也恰到好處。
Noam Brown: 是的,我也很期待。我們明天將發布O1,我想等到這個播客發布的時候,它已經上線了。我對此非常興奮。我認為社區會喜歡它,但我們拭目以待吧。
主持人Jacob: 好吧,我不能不從過去一個月大家都在問的一個問題開始,也就是:我們是否已經觸及了模型能力的瓶頸?我認為這個問題有很多方面。所以,或許我們可以從你認為在預訓練的擴展方面是否還有更多潛力入手。
Noam Brown: 我對這個問題的看法,我公開表達過,我認為各方面都有更大的提升空間,這包括預訓練。我認為正確的思考方式是,每次你想進一步擴展這些模型,都會付出代價。
看看GPT-2;它的成本在5000美元到50000美元之間,取決於你的測量方法。再看看GPT-4,顯然有很多改進,但根本改變的是投入的資源數量。前沿模型的支出大幅增加——從數千美元到數萬美元,再到數十萬美元、數百萬美元,而對於一些實驗室來說,今天甚至可能是數億美元。
模型不斷改進,我認為這種情況還會持續下去。如果你投入更多的資金、更多的資源和更多的數據,你就會得到一個更好的模型。問題是,如果你每次都想將規模擴大十倍,那麼在某個時刻,這將成為一個難以承受的成本。
如果你想讓它變得更好,並且目標是再次提高十倍,那你說的就是數十億美元。如果你想再提高十倍,你說的就是數百億美元。在某個時刻,繼續以這種規模投資將不再經濟划算,這導致了一種情況,即人們假定不會在單一模型上花費數萬億美元。
在這種情況下,並沒有堅硬的壁壘;更像是軟壁壘,最終經濟因素將不再支持如此大規模的持續投資。
主持人Jacob: 是的。而且看起來,顯然,在許多方面,你可以透過測試時間的計算來推進這項工作,就像,你知道的,從成本角度來看,這裡有更容易實現的成果來推進它。
Noam Brown: 沒錯。這就是為什麼我對測試時間計算如此興奮的原因。我認為很多人也對此感到興奮,因為它感覺我們回到了GPT-2時代。當GPT-2被發現並且比例法則被理解後,很明顯,如果你將其規模擴大1000倍,你將得到一個更好的模型。雖然現在在預訓練期間將規模擴大這麼大的因素有點困難,但在測試時間計算中,我們仍處於早期階段。這意味著我們有很多機會和空間來進一步增強它。
在這個領域,演算法改進還有很多低垂的果實。我相信在這個方向上可以有很多令人興奮的發展。這並不是說預訓練已經完成了;相反,在測試時間計算範式上還有很大的進步空間。重要的是要強調,即使回顧預訓練,也並非只有再達到兩個數量級才能完成。
摩爾定律將繼續適用,成本也可能會隨著時間的推移而下降。那麼問題就變成了我們能夠多快地擴展這些改進。曾经有过一个显著的溢出效应,規模化相對容易快速實現,但這種情況現在正在變得不那麼真實。隨著我們前進,我們需要找到新的方法來創新和適應,以跟上這些變化。
主持人Jacob: 我知道這可能是個過於寬泛的問題,但是測試時間計算的上限有多高?或你如何看待它的發展方向?
Noam Brown: 同樣,我從美元價值的角度來思考這個問題。那麼,今天一個ChatGPT查詢的成本是多少?大約一分錢。對於一個你非常關心的查詢,你能花費多少成本?你願意支付多少成本?我認為有一些問題,人們願意為此付出很多錢。我說的不是一美元或五美元。我說的對社會而言最重要的一些問題,人們願意支付數百萬美元。那麼这是多少个数量级?大概有八個數量級吧?所以我認為還有很大的進步空間。我也認為演算法改進還有很大的空間。所以這不僅僅是,哦,我們只是要投入更多資金到查詢中,然後你就會得到更好的輸出。而是,不,實際上,我們可以進一步改進這種模式,並使擴展更好。
主持人Jacob: 你知道,我認為有趣的一點是,大概一個月前,Sam Altman發推文說,我們基本上知道如何構建AGI了。我認為你轉發了這則推文,並表示他的觀點與今天OpenAI研究者的平均觀點一致。能詳細說說嗎?因為現在有很多人在說,哦,我們已經觸及瓶頸了。你認為他們錯在哪裡?
Noam Brown: 我覺得我們對這一點已經相當坦誠了,我們看到事情進展得非常迅速。我認為這是我的觀點。我認為Sam也表達了他的觀點。我認為,你們知道的,我聽到一些人說,哦,Sam只是在試圖製造炒作之類的東西。對此我感到有點驚訝,因為,我們說的是同樣的事情。而且,是的,我認為公司里普遍的观点是事情进展会很快。
主持人Jacob: 你認為光是預訓練和測試時間計算就能解決大部分問題嗎?還是說,看起來還有演算法方面的問題?
Noam Brown: 這絕對不是我們已經完成的。這不像我們已經破解了超級智慧的密碼,現在我們只需要……
主持人Jacob: 如果你下次來播客節目,那將會非常酷。
Noam Brown: 雖然那將會很棒。但是我認為……好的,我這樣想,回到2021年末,我和Ilya Sutskever喝過咖啡。你知道的,他問我關於我對AGI時間軸的看法。我告訴他,說實話,我認為這需要很長時間。我非常懷疑我們能在未來十年內實現。
我給他的主要原因是,我們沒有一種通用的方法來擴展推理計算,一種可擴展的測試時計算。我看到了它在遊戲中的巨大作用,以及它在語言模型中缺乏普遍性的事實。對我來說,光是擴展預訓練就能達到超級智慧似乎有點可笑。你看這些模型,是的,它們所做的事情很聰明,但是,那時候它們甚至連井字棋的棋盤都畫不出來,你知道嗎?
是的,你得到了GPT-4,突然它們就能畫棋盤並做出大部分合法走法,但有時它們仍然會犯規,並在井字棋中做出很大的次優決策。我毫不懷疑,如果我們將預訓練再擴展一個或兩個數量級,它將開始非常擅長玩井字棋。但如果情況就是這樣,我們花費數百億美元訓練一個模型,而它幾乎無法玩井字棋;這距離超級智能還很遠。
我告訴他,看看,除非我們能找到一個非常通用的方法來擴展推理計算,否則我們無法達到超級智能。我認為這是一個極為困難的研究問題,可能至少要十年才能解決。順便說一句,令我驚訝的是,他同意我的觀點。他同意僅僅擴展預訓練並不能達到超級智能。當時我沒有意識到,但他也在非常仔細地考慮這個擴展測試時計算的方向。所以我認為至少要十年。實際上只用了兩三年。
我認為那是當時最難解決的研究問題。我毫不懷疑還有其他的問題。事實上,我知道還有其他未解決的問題,未解決的研究問題。但我認為,它們中沒有任何一個會比我們已經解決的問題更難。是的。因此,我認為事情將繼續取得進展。是的。
主持人Jacob: 顯然,你在測試時計算方面產生了巨大的影響。你的研究生涯顯然是在搜索和规划方面,以及撲克牌和外交等遊戲中。我的意思是,從其他人的說法來看,似乎當你加入OpenAI時,你已經非常明確地表示這是需要推動發展的方向。看起來確實取得了回報。我很想知道,当你加入時,這種方法的共識程度如何?或許可以談談如何讓研究機構圍繞著這個目標展開工作。
Noam Brown: 是的,很有趣。當我進入就業市場並在一堆地方面試時,人們普遍對研究實驗室需要超越當前範式的想法持相當開放的態度。我認為大多數前沿研究實驗室的人都認為,光是預訓練不會讓我們達到超級智能,還需要其他東西。人們非常願意探索如何擴展測試時計算。有些實驗室比其他實驗室更重視這個想法,但我其實有點驚訝的是OpenAI非常支持它。
OpenAI作為大規模預訓練的先驅,並且比任何人都更進一步地擴展了預訓練,它不僅持開放態度,而且還積極主動。當我與他們討論時,我沒有意識到他們在加入我之前就已經思考這些想法有一段時間了。當我加入後,我發現他們感興趣的動機有些不同;他們更專注於克服數據壁壘,而不是弄清楚如何擴展測試時計算。儘管關注有所不同,但最終目標還是相當相容的。
最初,當我們開始這個探索性研究方向時,只有少數人從事這項工作。並不是說公司一半的人員都致力於這項大規模工作。在我加入幾個月後,包括我在內的各種人員都在嘗試不同的方法,其中許多方法都沒有產生結果。然而,一個人的想法產生了一些正面的跡象,引起了其他人的注意。這促進了進一步的探索和實驗,導致更多有希望的跡像出現。
最終,我認為領導階層意識到在這個研究方向上有一些有價值的不同之處,這導致了大幅擴大努力的決定。我支持這種認識,這證明了OpenAI的組織卓越性。令人印象深刻的是,OpenAI能夠看到這個冒險方向的潛力,並願意大力投資發展它。重要的是要注意,考慮到它擾亂了他們開創的範式,像O1這樣的東西從OpenAI出現是有些令人驚訝的。這種回應表明,OpenAI並沒有陷入創新者的窘境,並且準備投資一個方向,在這種情況下,很可能會有所回報。
主持人Jacob: 是的。不,這真的很有趣,因為顯然,如果劇本繼續只是不斷擴展預訓練並籌集更多資金來做這件事,OpenAI就擁有很好的地位來做到這一點。因此,任何正交的方法,是的,都是不同的。所以它來自同一個地方是很酷的。顯然,你最初的時間表是,嘿,這需要10年才能做到。你只花了兩年就做到了。你首先看到了什麼讓你覺得,是的,好吧,實際上這可能比我想像的要快得多?
Noam Brown: 首先,這不僅僅是我。是我和許多其他人一起,在比我預測的更短的時間內做到了這一點。我首先看到的是什麼?我認為當我加入時,我們對我們希望模型執行的行為進行了很多討論。這包括諸如我們希望能夠看到它嘗試不同的策略來解決問題(如果一種策略不起作用);我們希望看到它處理一個涉及許多步驟的難題,並將該問題分解成更小的部分,以便逐一解決;我們希望看到它辨識出自己犯的錯誤,並糾正這些錯誤或避免在第一時間犯錯。
並且圍繞著如何獲得這些個體事物進行了大量的討論。這讓我有點困擾,事實上,我們甚至會嘗試單獨解決它們,因為這似乎就像,好吧,理想情況下,我們只需要得到一些能夠自己弄清楚所有這些東西的東西。而且,你知道的,我們得到了最初的積極跡象。然後,你知道的,我大力支持的嘗試之一是,為什麼我們不只是讓它思考更久呢?是的。當我們讓它思考更久時,它就會自發性地做這些事情。這並不是說,哦,突然我們有了某些東西。但就像,哦,這裡有一些跡象表明它正在做我們正在製定策略以使其能夠做的事情。它只是自己想通了它應該做這些事情。並且。
而且很明顯,我們可以將其擴展得更遠。所以對我來說,那就是一個重要的時刻,我們只是讓它思考更長時間,突然間你看到了質的變化。你看到了這種我們認為必須以某種方式添加到模型中的定性行為,而它自己就搞清楚了。當然,性能有所提高,但性能並沒有提高那麼多。真正讓我相信的是看到這種質的變化,看到那些行為,好吧,這將是一件大事。是的。我認為那大概是2023年10月。
主持人Jacob: 您能否為今天的聽眾解讀一下,在什麼情況下使用O1模型進行規劃比較有幫助,而什麼情況下應該堅持使用GPT-4o,或者說O1模型幫助不大?您對未來的改進有什麼預期?畢竟,您一直在不斷改進它。
Noam Brown: 我認為最終會只有一個模型。現在的情況是,GPT-4在很多方面都更好,而O1在很多方面也更好。當然,O1更智能。所以,如果你有一個非常棘手的問題,O1就非常適合。我和大學的研究人員交流過,比如,我有一個朋友是教授,他非常喜歡O1。他是真正的資深用戶,因為他可以用它來解決那些通常需要擁有博士學位的人才能處理的難題。
我認為對於某些任務,例如創意寫作,GPT-4o可能更好,儘管我不確定——我知道對於創意寫作,4o比O1預覽版更好。我不確定O1的比較結果如何。但4o的一大優勢在於,你可以立即得到回應。所以,如果你只需要立即得到回應,而且它不是一個非常複雜的推理任務,我認為4o是一個不錯的選擇。是的,但我應該說,我們最終的目標只有一個模型,你可以問它任何問題,如果它需要深入思考,它就能做到;如果不需要,它也能立即給出相當好的回應。
主持人Jacob: 多模態模型和這些模型未來的交集是什麼樣的?
Noam Brown: O1可以接收影像作為輸入。是的,我認為這將非常令人興奮。看看人們將如何利用它將會非常令人興奮。是的,我看不出有任何障礙阻止它像4o和其他模型一樣成為多模態模型。
主持人Jacob: O1令人著迷的一點是,我覺得您之前在推理方面所做的許多工作都是建立在針對特定問題的推理之上的。據我理解,圍棋是蒙地卡羅樹搜索,這對撲克來說可能不那麼相關。顯然,您所建構成果中令人印象深刻的一點是,您普遍擴展了推理計算能力。您可以談談實現這一點需要什麼,以及與過去針對特定類型問題所做的一些更具體的工作相比有何不同嗎?
Noam Brown: 好吧,我認為這需要,我不能詳細介紹具體的技術,但我認為重要的是,這可能需要改變思維方式。我認為當我還是博士生以及之後,當我看到擴展測試時間計算在撲克中產生了多大的差異時,我想,好吧,這很棒,但不幸的是,它只適用於撲克。那麼,我們如何將這種演算法擴展到越來越多的領域呢?因此,你知道,有一個問題是,如何讓這項技術同時適用於撲克和圍棋,或是撲克和外交之類的遊戲?因此,我們開發了在Hanabi(漢諾塔)中有效的技術,也开发了在外交游戏中有效的技術。
我考慮過的事情之一是,試著讓這個演算法玩盡可能多的遊戲。嘗試設計一個類似於在撲克中使用的演算法,但能夠更廣泛地應用。我認為外交遊戲的工作實際上讓我相信,這是一種錯誤的思考方式。你真的需要從最終目標出發,那就是要認識到我們擁有這個極為通用的領域。語言其實就是一個很好的例子,它具有如此廣泛的應用。
與其嘗試將一種在某個領域中有效的技術擴展到越來越多的領域,最終擴展到所有領域,不如從所有領域出發,想辦法擴展測試時間計算。當然,最初它不會擴展得很好;它不會成為擴展測試時間計算的非常好的技術。但問題是,我們能否讓它隨著時間的推移越來越好地擴展?我認為這種思維方式的改變至關重要。外交遊戲的工作真正說服我改變了這種思考方式。
當我們試圖將為撲克開發的技術應用於外交時,當我們試圖將其應用於完整的外交遊戲時,我們面臨了挑戰。我們設法將一些技術應用於外交,並對它實際可以做什麼進行了限制,但它所能達到的成就存在上限。我們只在外交遊戲中達到了強人類水準的表現,很明顯,進一步推動這種模式並不能產生超人類的表現。
為了解決外交的全部範圍並取得超人類的表現,很明顯我們需要一種能夠有效應對幾乎任何事物的方法。因此,我想,好吧,我們只需要跳到最終目標,並嘗試從那裡進行創新。
主持人Jacob: 這太有趣了。我的意思是,您提到過,您預計一切都會融合成一個模型。我想,從中期來看,您認為我們會有一個“統治一切”的模型嗎?或者,顯然,很多人都在為不同的用例建立專門的模型。您認為建立自己的模型有意義嗎?我想有些人正在建立法律模型、醫療保健模型或其他一些模型。
Noam Brown: 這是一個好問題。我常被問到這個問題。我沒有很好的答案,但我一直在思考的一件事是,你可以要求O1乘以兩個大數,它可以做到。它會逐步進行算術運算,計算如何進位等等,实际上乘以兩個大數并告诉你答案。
它這樣做沒有任何意義。最佳方法,它真正應該做的,是呼叫一個計算器工具或寫一個Python腳本,该腳本乘以这两个数字,运行腳本,然後告訴你結果。
所以我認為計算器工具就像光譜的一端——非常專業,非常簡單,但也非常快速和廉價。在光譜的另一端,你擁有像O1這樣的東西,它非常通用,非常強大,但也相當昂貴。
我認為很有可能你會看到許多工具充當這兩個極端之間的中間體。像O1這樣的模型可以使用這些工具來節省自身和使用者大量的成本。
主持人Jacob: 是的。這些工具最終並非增強能力,而只是為了避免解決某些本來可以……的問題時需要大量的計算成本,這一點非常有趣。
Noam Brown: 是的,也完全有可能其中一些工具比O1做得更好。我認為我的思考方式與我思考人類如何行動的方式差不多,你知道,你可以要求人類做某事,但也許他們最好使用計算器,或者,你知道,使用某種其他類型的專用機器之類的東西。
主持人Jacob: 好吧,我想關於O1方面,就像你提到的你的教授朋友使用它一樣,你有沒有在實際應用中看到其他意想不到的用例,或是你個人比較喜歡的用例?你有沒有在實際應用中看到其他意想不到的用例,或是你個人比較喜歡的用例?
Noam Brown: 我認為我真正期待的一件事是看看O1如何用於編碼。我認為O1預覽版,人們對其編碼能力印象深刻,但在某些方面它編碼能力不錯,但在其他方面表現不佳。因此,它在編碼模型中並非嚴格地占主導地位。我相信O1會做得更好,我非常期待看到這如何改變這個領域,如果它確實改變了這個領域的話。
我只是非常好奇自己如何使用O1以及其他人如何使用。我們已經有一些人試用並給我們回饋,但我認為在我們實際部署到實際應用之前,我們並不知道它究竟是如何被使用的。你如何使用它?
我用它來完成很多編碼任務。如果任務很簡單,我會把它交給4o,但如果我知道任務非常困難,需要編寫大量程式碼,我就會把它交給O1,讓它獨自完成整個任務。通常情況下,如果遇到4o無法解決的難題,我就會把它交給O1。
主持人Jacob: 通常會給我一個答案。它還沒有進行核心AI研究。O1還沒有進行核心AI研究。你提到在O1的開發過程中,顯然你看到了一些東西,一些關於推理能力的具有重要意義的里程碑。當你考慮時,顯然你還在繼續研究這類模型。對你來說,未來有哪些具有意義的里程碑?如果你在你們繼續擴展規模的過程中看到的話,哪些對你來說很重要?
Noam Brown: 就像里程碑是指基準測試之類的嗎?
主持人Jacob: 我的意思是,它可能是具體的基準測試,或者,你知道,只是你如何看待下一組重要的能力,你知道,你希望像O2那樣擁有的能力。
Noam Brown:我真的很期待看到這些模型變得更具自主性。我認為很多人都是這樣想的。其中一個主要的挑戰,一個實現智能體的主要障礙,是人們對這些模型的認知。人們已經討論智能體有一段時間了。自從ChatGPT發布以來,他們就會來找我問:“哦,為什麼要研究智能體?”
我的感覺是這些模型太脆弱了。如果你有一個需要許多中間步驟的長時程任務,你需要模型具有可靠性和連貫性,才能弄清楚它需要完成這些單獨的步驟,然後執行它們。人們試圖提示模型這樣做,雖然你可以讓它工作,但它總是很脆弱,而且不夠通用。
這些模型的開發很酷的一點是,我認為這是一個真正的概念驗證。你可以給它們一個非常困難的問題,它們可以自己找出中間步驟,並確定如何獨立解決這些步驟。事實上,它們可以完成完全超出像GPT-4這樣模型能力的任務,而無需過多的提示,這令人鼓舞。
我認為這是一個很好的概念驗證,證明這些模型可以開始以更具自主性的方式運行。所以,我對這個方向感到興奮。
主持人Jacob: 現在顯然有很多人都致力於研究智能體,我認為他們基本上會利用模型目前的局限性,並找到解決方法,對吧?無論是將六個模型呼叫連結在一起以檢查輸出,還是找到一些經過微調的小型模型來檢查某些內容是否完全追溯到原始資料來源。感覺上,所有這些編排和支架都是為了讓這一切能夠工作而建造的。這種感覺是否依然存在,或者這些最終都會成為底層模型的一部分?
Noam Brown: 你知道,好吧,有一篇很棒的文章叫做《苦澀的教訓》。我知道我們不能不提到《苦澀的教訓》就結束這次播客。你知道,因為我很驚訝。就像每當我參加各種活動(例如AI活動)做演講時,我會偶爾對人們進行民意調查,問他們有多少人讀過《苦澀的教訓》,結果令人驚訝地少。
主持人Jacob: 我覺得如果有人聽過你的播客或追蹤你的推特,他們應該已經被介紹過這篇文章了。
Noam Brown: 或少於很多次。很好,太好了。所以,對於那些沒有讀過的人,我的意思是,我認為這是一篇很棒的文章。我強烈建議大家閱讀它。它是強化學習領域的創始人理查德·薩頓寫的,他談到了這一點。
他說,基本上,如果你看看象棋的歷史,例如,人們嘗試解決象棋的方法是將事情編碼起來,例如將他們的知識編碼到模型中,並試圖讓它們執行類似人類的任務。最終行之有效的方法是那些能夠有效地隨著更多計算能力和更多數據而擴展的技術。
我認為現在這些語言模型也是如此。我們已經達到了一定的能力水平,進一步推進它非常誘人。有些事情是這些模型無法做到的,而你希望它們具備這些能力。因此,有很大的動力去添加大量的支架並採用各種提示技巧來進一步推動模型,有效地將大量的知識編碼到模型中以達到目的。
最終,從長遠來看,行之有效的方法是一種能夠隨著更多數據和更多計算能力而良好擴展的技術。關於這些支架技術是否能夠隨著更多數據和更多運算能力而良好擴展的問題,我認為答案是否定的。相比之下,像O1這樣的方法能夠隨著更多數據和更多運算能力而很好地擴展。
從長遠來看,我相信我們將看到許多試圖進一步推動前沿的支架技術最終會逐漸消失。
主持人Jacob: 我認為這對今天的建造者來說是一個有趣的問題,就像你可以用它來解決當前的問題,然後隨著時間的推移而發展,以滿足需求。
Noam Brown: 是的,這是一件棘手的事情,特別是對於新創公司來說,因為我知道他們可能面臨許多對某些任務的需求。而且,你知道,有些事情是模型無法實現的。他們會想,好吧,如果我投入大量資源到支架和自訂中,讓它能夠做那些事情,那我就會擁有一家能夠做別人做不到的事情的公司。但我認為重要的是,這實際上是我們告訴人們這些模型將會進步,而且它們將會迅速進步的原因之一,那就是你不想處於這樣一種境地:模型的能力得到了提高,突然之間,模型可以開箱即用地完成這項工作,而你現在浪費了六個月的時間來建造支架或一些專門的智慧工作流程,而现在模型可以開箱即用地完成這項工作了。
主持人Jacob: 談談大型語言模型領域更廣泛的情況,我的意思是,超越測試時間計算,還有什麼其他的研究領域是你關注的?
Noam Brown: Sora 真讓我興奮,我想很多人都是這樣。我覺得它真的很酷。我之前並沒有太關注視訊模型的現狀,所以當我看到它的時候,我對它的能力感到非常驚訝。
主持人Jacob: 你顯然是在學術界打下了堅實的基礎。鑑於現在顯然可以存取完全不同級別的計算資源,我想現在很多人都在思考學術界在人工智慧研究中的作用,你是如何看待當今學術界的作用的?
Noam Brown: 是的,這是一個非常棘手的問題。我和很多博士生聊過,他們處境艱難,他們想幫助推動前沿發展。但在數據和運算能力如此依賴的時代,這很難做到。如果你沒有這些資源,就很難推動前沿發展。
我認為,有些博士生可能會傾向於做我不該做的事情,即加入他們的人類領域知識,或應用一些小技巧來嘗試進一步推動前沿。所以,你拿一個前沿模型,添加一些巧妙的提示或其他什麼,把它往前推一點,然後在某些評估中比其他人高出 0.1%。問題是,我不太怪學生;我認為学术界激励了这种行为。我的意思是,在頂尖會議發表論文很有聲望,如果你能夠證明你在某些評估中至少比其他人略好一些,那麼發表論文就容易得多。
所以,激勵機制是按照鼓勵這種行為的方式設定的,至少在短期內是如此。然而,從長遠來看,這最終並非最有影響力的研究。我的建議是不要試圖在尖端能力方面與尖端工業研究實驗室競爭。還有很多其他的研究可以做,而且我已經看到在不同領域取得了真正有影響力的研究成果。
一個例子是研究新型架構或能夠很好擴展的新方法。例如,如果你能證明你在整合更多數據和運算能力時展示了擴展趨勢並展示了有前景的路徑,那麼即使它在某些評估中沒有達到最先進的性能,這也是很好的研究。人們會關注這一點。
那些偶然關注該領域的人可能不會注意到它,它也可能不會進入新聞週期,但如果你的工作顯示出有希望的趨勢,你的工作就會產生影響。我向你保證,工業研究實驗室會查看這類論文。如果他們看到一些展示有希望趨勢的東西,他們願意投入資源去看看它在大規模情況下是否真的有效。
主持人Jacob: 當你玩一個新模型時,什麼評估對你來說仍然有意義?你在看什麼?
Noam Brown: 我認為我問了很多關於“感覺”的問題,我相信每個人都有一個常用的“感覺”問題。我的常用問題确实是井字棋。總是遊戲。我想這是有道理的。是的,看到一些模型玩井字棋的挑戰性有多大,令人震驚。我開玩笑說,我認為這只是因為網路上沒有足夠的五歲小孩在 Reddit 上分享策略。
主持人Jacob: 而且我們還沒有用大量的井字棋資料填充世界。
Noam Brown: 是的,我只是看看這些模型如何處理我日常提出的問題。看到從 4o 到 O1 預覽版再到 O1 的進步,非常酷。
主持人Jacob: 是的。我的意思是,你提到了,顯然,聽起來自從 21 年以來,你改變了想法,然後用測試時間計算展示了可能性。在過去的一年裡,你在人工智慧研究領域改變了哪些想法?
Noam Brown: 我應該說我並沒有在 2021 年改變主意。在 2017 年初我們得到撲克結果時,我已經相當認同這一點。是的,我認為對於大型語言模型來說,我認為我開始更多地思考這個問題是在 2020 年或 2021 年。
主持人Jacob: 對不起,我的意思是說,你在 2021 年認為需要 10 年的時間,而現在認為是兩年。在過去的一年裡,你有什麼想法做了 180 度轉變?
Noam Brown: 嗯,我認為我改變觀點的主要方面是我認為事情進展的速度有多快。就像我說的,我記得我在人工智慧領域已經工作了很長時間,按照今天的標準來看。我於 2012 年開始讀研究生,我見證了深度學習革命的發生。我在 2015 年、2016 年總金額 2017 年看到人們非常認真地討論 AGI 和超級智能。我當時的觀點是,僅僅因為 AlphaGo 在圍棋方面超過了人類,並不代表我們很快就會獲得超級智能。
我認為這實際上是正確的評估。我相信人們沒有充分看待 AlphaGo 的局限性。是的,它可以下圍棋,甚至可以下西洋棋和將棋,但它不能玩撲克。沒有人真正知道如何讓它比這更通用。兩人零和博弈是一個非常理想的情況,你可以進行無限的自我博弈,並不斷朝著實現超人類性能的方向攀登。然而,現實世界並非如此。
我比較持懷疑態度。與平均水平的人工智慧研究人員相比,我可能對我們可以朝著改變世界的非常聰明的模型取得進展更為樂觀。但與 OpenAI 或其他一些地方的人相比,我屬於比較懷疑的一方。我認為我對這一點的看法已經改變了很多。看到能夠以非常通用的方式擴展測試時間改變了我的想法。
我變得越來越樂觀。我認為我在 2021 年與 Ilya 進行的談話是其開端。他讓我相信,是的,我們還沒有完全弄清楚整個範式,但也許沒有像十年那麼遙遠。也許我們可以更快地實現它。看到這實際上發生了改變了我的觀點,我現在相信事情會比我原想的發生得更快。
主持人Jacob: 我的意思是,顯然有很多公司試圖與英偉達競爭。我認為亞馬遜最近一直在積極投資 Trainium,讓 Anthropic 使用它。你怎麼看待其他一些硬體方面的努力?
Noam Brown: 我對硬體投資感到非常興奮。我認為O1的其中一個亮點在於,它真正改變了人們對硬體的思考方式。過去人們認為,大規模的預訓練運作成本很高,但推理成本會很低且易於擴展。我認為这种情况不会持续下去。我認為我们将看到对推理计算的重大转变。如果能夠優化推理計算,那將是一個巨大的勝利。因此,我認為现在硬件领域有很多机会可以发挥创造力,以適應這種新的範式。
主持人Jacob: 稍微偏離大型語言模型的議題,我覺得您在外交方面的工作非常有趣。顯然,這是一場涉及談判、預測他人行為等的博弈。很難不去思考這對於將社會同化以測試政策,甚至以某種方式讓AI參與政府的意義。您是如何思考這個問題的?隨著這些模型越來越好,您對它們在社會中扮演的角色有什麼直覺?
Noam Brown: 我想這裡有兩個問題,但回答其中一個,我認為我對這些模型感到興奮的一個方向是將它們用於許多社會科學實驗以及神經科學的工作。我認為可以透過研究這些在海量人類資料上訓練並且能夠很好地模仿人類的模型來了解很多關於人類的信息。當然,它們最大的優點是比僱用大量人類來進行這些實驗更具可擴展性和經濟性。我很想知道社會科學如何利用這些模型在其領域進行酷炫的研究。
主持人Jacob: 是的,您能想像這會如何實現嗎?
Noam Brown: 嗯,我認為,如果你想做……我不是社會科學家,所以,你知道,我沒有認真想過這個問題……但我認為,例如經濟學,有很多……你之前在聯準會工作過,對吧?我想社會科學的答案。我認為博弈论其实是一个很好的例子,你知道,我在本科時做過一些這樣的實驗,比如,他們會僱用一些本科生,付給他們少量錢,讓他們做一些小型博弈論實驗,看看他們有多理性?他們如何回應激勵?他們有多在乎賺錢而不是報復那些傷害他們的人?現在可以用AI模型做很多這樣的事情。並不明顯的是它能否與人類的表現相匹配,但這並不意味著我們無法量化它。你可以實際觀察,看看這些模型通常是否會做人類會做的事情。然後,如果你有一個更昂貴的實驗,你可以,也許可以推斷並說,好吧,用人體受試者做這個實驗不划算,但我們可以使用這個AI模型。
或考慮那些也引發倫理問題的方面。也許你不能做這個實驗,因為對人類來說是不道德的,但你可以用AI模型來做。舉個例子,就是最後通牒博弈。你熟悉嗎?不熟悉。好的。最後通牒賽局涉及兩位參與者;我們稱他們為A和B。A有1000美元,他們必須將其中一部分給B。然後B可以決定是否接受這種分配,或者兩個玩家都不會得到任何東西。
例如,如果A有1000美元,他給B 200美元。如果B接受,則B得到200美元,A得到800美元。如果B拒絕,則两人都得不到任何东西。實驗表明,如果人們獲得大約30%,他们就会拒絕。當然,有一個問題是,好吧,如果這是一小筆錢,那麼就很容易理解。如果只有10美元,而你只得到3美元,那么你会因为生气而拒絕。
但是,如果金額是10000美元,而你只得到3000美元,你還會這樣做嗎?這是一個不同的問題。因此,唯一的方法是,當然,進行這樣的實驗非常昂貴。歷史上,他們會去另一個國家的貧困社區,給他們提供對他們來說是一大筆錢的東西,看看他們的行為會有何不同。但即使那樣,你也能控制的程度有限。現在有了AI模型,也許你真的可以獲得一些關於人們如何對這些成本高昂的情況做出反應的見解。
主持人Jacob: 這太有趣了。對於神經科學和其他方面也是如此,我一直認為社會科學的一個抱怨是所有這些實驗都是針對需要在他們的入門心理學課上獲得學分的大學生進行的。因此,也接觸到更廣泛的——網路至少比大多數這些實驗所訓練的受眾更廣泛,這些實驗基本上都是頂級機構的19歲年輕人。
Noam Brown: 是的,這是一個很好的觀點。我還應該說,如果你正在進行像GPT-3.5這樣的實驗,GPT-3.5不會在很多情況下很好地模仿人類的行為。但這是一個可以量化的事情,你可以實際測量這些模型與人類行為的匹配程度。我懷疑,我自己還沒看過這些實驗,但我懷疑随着模型变得越来越强大,它們在模仿人類在這些環境中的行為上做得更好。
主持人Jacob: 是的。然後顯然,你在外交方面的工作專注於在一個由人類組成的團隊中有一個AI參與者。這是否會改變什麼?我覺得我們即將進入一個AI代理商與其他AI代理商互動、談判等等的世界。這是否會改變事情?它改變了什麼?你需要做的,為了創造一個真正有效的AI代理商,底層工作是什麼?我想,這完全是一個相同的問題,還是?
Noam Brown: 我認為我對大型語言模型感到興奮的一點是,在人工智慧領域,一直存在一個問題,即如何讓AI相互溝通?因此,人工智慧領域有一個叫做湧現式通訊的領域,人們試圖教AI相互溝通。是的。而這個問題現在其實已經解決了,因為你內建了一種語言,而人類也剛好使用這種語言。因此,許多問題都像開箱即用一樣得到了解決。因此,你可能不需要做太多改變。
主持人Jacob: 您如何看待人工智慧機器人領域正在發生的事情?您認為未來幾年這個領域會走向何方?
Noam Brown: 我認為從長遠來看,這很有意義。我獲得了機器人學碩士學位。實際上我並沒有接觸太多機器人,但我參加了這個項目,有很多朋友都在從事機器人研究。我最大的收穫之一是硬體開發非常困難,與軟體相比,硬體迭代需要更長的時間。所以我認為機器人技術的發展會需要一段時間,只是因為在真實的實體機器人上進行迭代既困難又昂貴,但我相信會有進展。
主持人Jacob: 顯然,你們即將發布一個新模型,人們將在其基礎上建構各種我們無法想像的東西。但總的來說,您認為目前有哪些應用領域尚未充分探索,或者您希望有更多開發者參與這些模型的開發?
Noam Brown: 我認為看到這些模型推動科學研究發展,我感到非常興奮。我相信直到現在,我們一直處於一種奇怪的狀態,模型普遍功能強大,但在幾乎任何領域都沒有超越人類專家。
隨著時間的推移,我認為這種情況將會改變,我們將開始看到模型超越人類專家所能做到的水平,最初只在少數幾個特定領域,然後逐漸擴展到越來越多的領域。這為我們推進人類知識前沿開啟了可能性。
將這些模型用作研究人員的合作夥伴而非替代品,這種可能性最讓我興奮。我們可以一起完成以前不可能完成的事情,或更快完成這些事情。我認為這種應用即將到來,雖然目前還不太可能實現,但我相信我們很快就會看到它的出現。
主持人Jacob: 您認為目前的模型能夠做到這一點嗎?
Noam Brown: 我不知道。這其實也是我期待看到O1發布的原因之一,因為,你知道,我不是某個領域的專家,也不是所有這些不同領域的專家。我不知道它能否改進化學研究或化學研究現狀,或生物學研究或理論數學的現狀。讓這些領域的專家使用模型,並觀察他們能用它做什麼,我認為這將給我們一些反饋,告訴我們它在這些領域的水平。
主持人Jacob: 您提到它可能先從狹窄的領域開始,然後再擴展到更廣闊的領域。您對特別適合它的狹窄領域有什麼直覺,還是需要社區在實踐中去發現?
Noam Brown: 讓他們去嘗試吧。我認為這需要社區去發現。在O1預覽版中,它在數學和編碼方面表現特別出色。這些結果非常令人印象深刻。它正在廣泛地改進各個方面,但我们在这两个方面看到了相当显著的进展。如果這種情況持續下去,並且我們看到性能在廣泛領域都有提高,我不會感到驚訝,但由於數學和編碼已經領先,它在這兩個領域將繼續更快地進步。我認為這將是全面的廣泛改進。
主持人Jacob: 好的,這是一場引人入勝的對話。我們通常喜歡以快速問答環節結束,快速了解您的看法。也許可以先說,您認為當今人工智慧領域中哪件事被過度炒作,哪件事被低估了?
Noam Brown: 哦,天哪。這應該是快速問答環節嗎?這是一個很難回答的問題。
主持人Jacob: 這裡我只能提出一些過於寬泛的問題,你知道的。
Noam Brown: 我的意思是,我認為被過度炒作的是許多提示技術和支架技術,正如我所說的,我認為這些技術從長遠來看將會被淘汰。被低估的,我認為,我是O1的忠實粉絲,我不得不說O1。我認為对于关注该领域的人来说,這是一個巨大的進步。我認為对于更广泛的世界来说,我不知道人們是否已經認識到它應有的意義。
主持人Jacob: 我想我會選擇這兩個。希望它們明天就能發布。讓我們拭目以待。您認為2025年的模型進展會與2024年一樣多還是更少?
Noam Brown: 我認為我們將看到進展加速。
主持人Jacob: 您如何定義AGI(通用人工智慧)?
Noam Brown: 我不定義。我一直在盡量避免使用這個術語。我認為人工智慧將有很多事情是人類可以做到的,而人工智慧在很長一段時間內都無法做到。我認為這是理想的場景,尤其是像體力勞動這樣的事情。我認為人類將在很長一段時間內佔據優勢。因此,我認為能夠加速人類生產力並使我們的生活更輕鬆的人工智慧,比AGI這個術語更重要。
主持人Jacob: 好的,Noam,我總是喜歡讓嘉賓留下最後一句話。我覺得有很多地方可以引導人們了解你的工作,了解OpenAI正在發生的事情,但現在是你的時間了。你有什麼想對我們的聽眾說的,或是有什麼想強調的嗎?
Noam Brown: 是的,我的意思是,最主要的是,你知道,對於那些持懷疑態度的人,我理解。我在這個領域工作了很長一段時間。我對現狀以及圍繞人工智慧進展的炒作持非常懷疑的態度。我意識到人工智慧將會進步,但我認為我們甚至要花更長的時間才能達到這個水平。
我認為,重要的是要認識到,與五年前甚至十年前相比,我們現在所處的狀態完全是科幻小說。進展令人驚嘆,我認為人们合理地担心我们是否会遇到瓶颈,或進展是否會停止。
但是,我相信重要的是要認識到,在我看來,測試時計算範式確實解決了其中許多擔憂。對於那些仍然對人工智慧進展持懷疑態度的人,我建議你們自己去看看。我們已經在部落格文章和結果中非常透明地說明了現狀以及我們對未來方向的展望。我認為證據非常明確。
主持人Jacob: 好的,Noam,這真是太迷人了。能和你坐下來聊聊,是我的工作中真正的樂趣。非常感謝您抽出時間。當然。再次感謝Noam進行如此精彩的對話。如果您喜歡這個節目,請考慮訂閱並與朋友分享。我們一直在努力宣傳這個播客。我們即將與領先的人工智慧研究人員和創辦人進行一系列精彩的對話。2025年將有一系列令人難以置信的嘉賓陣容。非常感謝您的收聽,我們下週見。
本文轉載自微信公眾號“硬AI”;FOREXBNB編輯:李佛。