新智元報(bào)道
編輯:KingHZ
【新智元導(dǎo)讀】奧特曼稱(chēng)GPT-5「比人聰明」,但OpenAI首席運(yùn)營(yíng)官Lightcap澄清:這不是AGI。這只是能力過(guò)剩的冰山一角——我們?nèi)杂惺戤a(chǎn)品可建,模型越智能,融合越要精妙。GPT-5標(biāo)志著從純智商到反思能力的全面躍進(jìn)。
GPT-5的能力到底有什么提升與意義?人工智能未來(lái)走向何處?這款驚艷亮相的OpenAI新模型,如何揭示智能的多種形態(tài)?
OpenAI的首席運(yùn)營(yíng)官Brad Lightcap在深度對(duì)話中揭開(kāi)了這些問(wèn)題的答案。
GPT-5為何如此特殊?
GPT-5實(shí)現(xiàn)了一個(gè)非常有趣的突破:可自主判斷是否先進(jìn)行深度推理再回答。
過(guò)去用戶必須通過(guò)ChatGPT的模型選擇器,手動(dòng)為不同任務(wù)挑選模型。提問(wèn)后,有時(shí)你會(huì)選思考模式,有時(shí)則不會(huì)。OpenAI認(rèn)為這種體驗(yàn)說(shuō)實(shí)話容易讓人困惑。
GPT-5徹底簡(jiǎn)化了這個(gè)流程。它不僅自動(dòng)替你決策,本質(zhì)上也更聰明。在寫(xiě)作、編程、健康等領(lǐng)域,它準(zhǔn)確性更高、響應(yīng)更快,整體體驗(yàn)全面升級(jí)。
大家本以為GPT-5的智能將爆炸式增長(zhǎng),為何OpenAI選擇以可用性而非智能提升作為主要賣(mài)點(diǎn)?
Brad Lightcap解釋道,這是因?yàn)橹悄鼙举|(zhì)上取決于模型投入的思考時(shí)間。
分配越多的思考時(shí)長(zhǎng),答案質(zhì)量就越高——這是基本規(guī)律。當(dāng)在特定基準(zhǔn)測(cè)試中允許模型思考時(shí),AI的表現(xiàn)遠(yuǎn)超現(xiàn)有所有模型。
即便不啟用思考時(shí)間,它給出的答案依然普遍優(yōu)于GPT-4.1這類(lèi)非思考型模型。
因此,這是一次全維度的智能飛躍。但關(guān)鍵在于動(dòng)態(tài)分配思考時(shí)間的能力——OpenAI認(rèn)為這才是提升用戶體驗(yàn)的核心。
這種進(jìn)步很難用簡(jiǎn)單的「指數(shù)級(jí)」或「漸進(jìn)式」來(lái)界定。
現(xiàn)在人類(lèi)已經(jīng)進(jìn)入需要從多維度評(píng)估智能的階段——OpenAI不是在回避問(wèn)題,而是為了說(shuō)明GPT-5為何如此特殊。
在核心能力上,它的提升顯而易見(jiàn):SWEBench測(cè)試得分更高,各類(lèi)學(xué)術(shù)評(píng)估表現(xiàn)更優(yōu)。OpenAI還特別強(qiáng)化了GPT-5在健康領(lǐng)域的基準(zhǔn)表現(xiàn)。
但如今衡量模型優(yōu)劣的標(biāo)準(zhǔn)已經(jīng)變得非常多元。
根據(jù)訓(xùn)練方式和問(wèn)題處理機(jī)制的不同,我們可以從多個(gè)角度進(jìn)行評(píng)估:
-速度本身即質(zhì)量:?jiǎn)挝凰伎紩r(shí)間內(nèi)能給出更優(yōu)答案,這本身就是重要的進(jìn)步指標(biāo)
-隱形能力升級(jí):結(jié)構(gòu)化思考、問(wèn)題分解、工具調(diào)用等底層能力全面提升
所有這些維度,GPT-5都超越了前代模型。
Scaling Law未死
從GPT-1到GPT-2、GPT-3,再到GPT-4的每次躍進(jìn),能力都是全面提升的。
那時(shí)候,「更大的模型=全面更好的模型」。而GPT-5似乎并非如此。所以,情況變了嗎?
Brad Lightcap表示:「從技術(shù)角度看,情況確實(shí)變了?!?/p>
從GPT-2到GPT-3,再到GPT-3到GPT-4,主要是利用了當(dāng)時(shí)的Scaling范式。訓(xùn)練規(guī)模越大的模型,結(jié)果就得到更好的模型。
這個(gè)規(guī)律依然成立,但現(xiàn)在有了另一類(lèi)訓(xùn)練方式,即后訓(xùn)練(post-training)。用更有趣的方式使用測(cè)試時(shí)計(jì)算(test-time compute),幾乎像是訓(xùn)練的第二階段。
這提供了一種推動(dòng)力,讓OpenAI能將模型推向新的智能水平,同時(shí)還能訓(xùn)練「智多星」。
比如,使用工具對(duì)整體智能非常重要。GPT-2和GPT-3在這方面做得不太好。GPT-4在這方面很初級(jí)。而現(xiàn)在GPT-5內(nèi)置了這些能力,結(jié)合了多步驟和更長(zhǎng)遠(yuǎn)的推理過(guò)程。
既然訓(xùn)練方式開(kāi)始變化,那OpenAI現(xiàn)在是否認(rèn)為預(yù)訓(xùn)練(pre-training)的回報(bào)在遞減?
Brad Lightcap強(qiáng)調(diào)他們并不認(rèn)為預(yù)訓(xùn)練(pre-training)的回報(bào)在遞減。
Scaling Law依然成立。從經(jīng)驗(yàn)上看,沒(méi)有理由認(rèn)為預(yù)訓(xùn)練的回報(bào)會(huì)遞減。
而在后訓(xùn)練方面,大家才剛開(kāi)始觸及這個(gè)新范式的表面。o系列模型,即之前的推理模型,只是OpenAI開(kāi)始探索后訓(xùn)練的起點(diǎn)。
Brad Lightcap認(rèn)為未來(lái)一兩年,主要方向是繼續(xù)在后訓(xùn)練維度上Scaling,繼續(xù)看到顯著的收益。因?yàn)檫@些收益太明顯了。所以現(xiàn)在從兩個(gè)軸向上改進(jìn)模型:預(yù)訓(xùn)練和后訓(xùn)練。這會(huì)加速創(chuàng)新。
從現(xiàn)在起,大多數(shù)改進(jìn)會(huì)來(lái)自Scaling,還是算法?
Brad Lightcap表示總是組合拳。
算法、規(guī)模、計(jì)算力和數(shù)據(jù),這些都缺一不可。展望未來(lái),OpenAI它們都超級(jí)重要,需要全方位發(fā)力。
最難的部分當(dāng)然是讓它們完美融合。訓(xùn)練更大的模型,通常意味著你得用更多數(shù)據(jù)和計(jì)算力。這是個(gè)微妙的平衡,因?yàn)閱渭兎糯笠?guī)模,不一定總能帶來(lái)同等的進(jìn)步。你得把其他元素也帶上。
OpenAI不是只按一個(gè)按鈕,而是真的很用心,把所有這些拉到一起。
GPT-5能力過(guò)剩
但不叫「AGI」
在Theo Von的播客節(jié)目中,奧特曼說(shuō):「GPT-5在幾乎所有方面都比人聰明?!?/p>
這聽(tīng)起來(lái)就像他想象中的AGI。他似乎想叫它 AGI,但OpenAI又沒(méi)有明確這樣說(shuō)。所以,為什么GPT-5不是AGI?
Brad Lightcap解釋道:「AGI確實(shí)難以定義」。
有個(gè)笑話說(shuō),你問(wèn)五個(gè)人AGI是什么,會(huì)得到七種答案。
OpenAI看待AGI的方式是,AGI是個(gè)積累過(guò)程,是個(gè)系統(tǒng)。你得定義這個(gè)系統(tǒng)是什么,你期待它能做什么。
對(duì)Brad來(lái)說(shuō),至少,AGI是一個(gè)能穩(wěn)定學(xué)習(xí)新事物(哪怕超出其訓(xùn)練分布)的系統(tǒng),這種能力源自它的推理、思考、解決問(wèn)題、使用工具以及提出新想法的能力。但他不認(rèn)為GPT-5就是AGI:GPT-5以及后續(xù)模型中,開(kāi)始看到的是這種「通用化學(xué)習(xí)系統(tǒng)」的部分雛形和模塊。
而且很難確定AGI和非AGI的分界點(diǎn)。即便真有這個(gè)時(shí)刻,也不確定大家會(huì)在第一時(shí)間意識(shí)到。因?yàn)樵诤瓦@些模型共事中,「能力儲(chǔ)備過(guò)?!购茱@著。奧特曼說(shuō)的「口袋里的博士」這種智能水平,其實(shí)大家還沒(méi)有真正完全利用好。
從某種意義上說(shuō),即使現(xiàn)在AI的發(fā)展暫停十年,大家依然會(huì)有大約十年的新產(chǎn)品可以構(gòu)建,依然會(huì)有新方法來(lái)把GPT-5這種水平的模型融入有趣的產(chǎn)品和流程中。
一個(gè)有趣的現(xiàn)象是,模型越聰明,反而越要求產(chǎn)品設(shè)計(jì)方在如何將它融入系統(tǒng)方面投入更多。
Brad Lightcap常打個(gè)比方:
實(shí)習(xí)生非常聰明,但他們最終做的事情有限:記會(huì)議筆記、寫(xiě)摘要、做基礎(chǔ)分析。
但如果你帶來(lái)的是一位博士,他們的能力范圍就很廣了,只是第一天上班時(shí)可能并不立即高效。你要做的就是給他們足夠的背景、信息和工具,讓他們?cè)诤罄m(xù)發(fā)揮最大價(jià)值。而這個(gè)過(guò)程比讓實(shí)習(xí)生上手所需的時(shí)間更長(zhǎng)。
他認(rèn)為AI模型也類(lèi)似,這是一個(gè)持續(xù)的過(guò)程,并不會(huì)是線性的。
這引出個(gè)超級(jí)有趣的問(wèn)題:從現(xiàn)在起,繼續(xù)讓模型更聰明有意義嗎?還是該建哪些輔助能力?那么對(duì)于OpenAI來(lái)說(shuō),接下來(lái)的目標(biāo)是繼續(xù)增強(qiáng)智能,還是專(zhuān)注于那些「非智力」能力?
Brad Lightcap表示全都要。
一部分就是純IQ:對(duì)事物運(yùn)作的知識(shí)信息回憶的能力。
但還有推理能力:
怎么用其他工具解決問(wèn)題;
反思能力:回顧自己的思路鏈,當(dāng)你覺(jué)得走錯(cuò)路、沒(méi)想對(duì)策略時(shí),及時(shí)修正。
在這些問(wèn)題上,GPT-5比之前系統(tǒng)好。
對(duì)OpenAI來(lái)說(shuō),現(xiàn)實(shí)世界基準(zhǔn)作為智能標(biāo)志,越來(lái)越重要,比學(xué)術(shù)基準(zhǔn)更關(guān)鍵。
而「持續(xù)學(xué)習(xí)」(continual learning)這絕對(duì)是OpenAI優(yōu)先事項(xiàng)之一。
首次用上推理AI
震撼免費(fèi)用戶
沃頓商學(xué)院的Ethan Mollick提前測(cè)試了GPT-5,他提出了一個(gè)有趣的觀點(diǎn):
如果你一直在關(guān)注這條發(fā)展曲線,那么GPT-5的進(jìn)步可以說(shuō)是一個(gè)巨大的飛躍,但也是一個(gè)出乎意料的飛躍。
他還提到:「這些模型在數(shù)學(xué)奧林匹克競(jìng)賽中獲得了金牌。我越來(lái)越難以理解這些巨大的進(jìn)步到底意味著什么?!?/p>
現(xiàn)在的所有模型都在快速改進(jìn)。那么問(wèn)題來(lái)了,如果你有一個(gè)大學(xué)水平生物學(xué)的模型,然后它達(dá)到了研究生水平的生物學(xué),普通聊天機(jī)器人的用戶可能不會(huì)感受到這種變化,盡管它變得更聰明了。
有人說(shuō),對(duì)于ChatGPT重度用戶來(lái)說(shuō),這次提升會(huì)被感知到,但可能是比較細(xì)微的提升。
但對(duì)于普通用戶,尤其是免費(fèi)用戶來(lái)說(shuō),這將是一種巨大的飛躍。大多數(shù)免費(fèi)用戶從未體驗(yàn)過(guò)推理模型的威力。他們大多用的是GPT-4.0,而且主要是進(jìn)行類(lèi)似搜索的簡(jiǎn)短、回合式對(duì)話,這種方式并不能體現(xiàn)模型的全部能力。
所以,對(duì)很多人來(lái)說(shuō),這將是他們第一次使用具備推理能力的模型。而且不僅如此,這也是他們第一次體驗(yàn)到「自我反思」的模型:根據(jù)問(wèn)題的難度,GPT-5模型會(huì)自行決定花多少時(shí)間思考、給出多高質(zhì)量的答案。
這其實(shí)是一件好事——如果一直緊追最強(qiáng)AI,那么你會(huì)感到目眩神迷,但進(jìn)步也會(huì)顯得更連續(xù)。而如果你一直用的是一兩年前的最佳模型,那么這次的躍遷會(huì)讓你非常震撼。
每個(gè)人的切入點(diǎn)都不一樣,這也是有趣之處——它對(duì)每個(gè)人來(lái)說(shuō)都是很個(gè)人化的體驗(yàn)。
GPT-5特別關(guān)注了健康領(lǐng)域,因?yàn)檫@是用戶使用AI最常見(jiàn)的起點(diǎn)之一,尤其是有健康問(wèn)題時(shí)。這是OpenAI的重要目標(biāo)。
兩大落地場(chǎng)景
健康與企業(yè)
Brad Lightcap認(rèn)為AI不會(huì)取代醫(yī)生:
人們依然需要與全科醫(yī)生或?qū)?漆t(yī)生合作進(jìn)行治療。
但有一個(gè)可以陪伴左右、在整個(gè)過(guò)程中提供指導(dǎo)的工具,對(duì)很多人來(lái)說(shuō)是很有安慰感的,并且在很多情況下確實(shí)能發(fā)揮作用。
OpenAI推動(dòng)模型在健康領(lǐng)域的能力提升,一直是他們重點(diǎn)關(guān)注的方向。
從GPT-5開(kāi)始,未來(lái)的模型,準(zhǔn)確率持續(xù)上升,幻覺(jué)率持續(xù)下降。
具體來(lái)說(shuō),GPT-5的準(zhǔn)確率大約是前代模型的4到5倍(取決于測(cè)量方式)
在很多方面,還沒(méi)有看到企業(yè)界人工智能的「ChatGPT時(shí)刻」。
相對(duì)于消費(fèi)者,AI對(duì)企業(yè)是另一類(lèi)難度。
企業(yè)流程復(fù)雜,多用戶依賴(lài)很常見(jiàn),必須處理大量的上下文,必須使用許多工具。這些工具必須以某種方式、在某些限制下依次使用。當(dāng)它們不起作用時(shí),容錯(cuò)率沒(méi)有那么高。
只有能力基線的提升,AI在企業(yè)領(lǐng)域才能有所作用,包括使用工具、有條理思考、解決問(wèn)題、遞歸糾正自身錯(cuò)誤、進(jìn)行長(zhǎng)上下文檢索等能力。
這些能力在邊緣確實(shí)很重要。
OpenAI與多家企業(yè)合作測(cè)試這些模型,特別是GPT-5。從像Uber、Amgen、Harvey、Cursor、Lovable、JetBrains等公司那里,OpenAI得到了很多反饋。
如Cursor、JetBrains、Windsurf、Cognition等,都反饋說(shuō)GPT-5現(xiàn)在感覺(jué)是最強(qiáng)大的編碼模型,無(wú)論是在交互式編碼環(huán)境中還是在更具代理性的編碼環(huán)境中。
此外,GPT-5在其他領(lǐng)域中的推理和解決問(wèn)題的能力有了顯著提高。
Harvey就是一個(gè)很好的例子,Harvey AI與律師事務(wù)所合作,非常依賴(lài)其可靠、準(zhǔn)確和一致地分析案例的能力,提供法律分析時(shí)所需的那種結(jié)構(gòu)化思維水平。
GPT-5已經(jīng)非常強(qiáng)大,未來(lái)肯定會(huì)有更優(yōu)秀的模型,這一點(diǎn)毋庸置疑。
但目前OpenAI只專(zhuān)注于兩件事:如何讓更多人用上GPT-5,以及如何支持合作伙伴基于它開(kāi)發(fā)生態(tài)。
我們?nèi)蕴幱诳茖W(xué)探索階段——這才是最令人興奮的地方,就像比賽才剛開(kāi)局,OpenAI自己也還在理解當(dāng)前的范式。
GPT-5是重要的第一步,只有認(rèn)清現(xiàn)狀,才能看清未來(lái)。
參考資料:
https://www.bigtechnology.com/p/799049c8-5054-45c0-8ee7-9de1f2191759
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.