網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

奧特曼首曬GPT-5實測！被曝使用超級對齊團隊“遺產(chǎn)”

2025-08-04 11:22:07　來源: 量子位

北京舉報

分享至

魚羊鷺羽發(fā)自凹非寺
量子位 | 公眾號 QbitAI

GPT-5，終于亮出真容！

最新實測，由奧特曼本人帶來，迅速引發(fā)大量圍觀。

瘋狂暗示了一周之后，雖說對話只是圍繞電視劇推薦，但好歹是有官方實例了。

當(dāng)然奧特曼其人，放料的同時還是少不了新的謎語┓( ′?` )┏：

即將進入SaaS快時尚時代。

比起這種奧式基操，更令人興奮的是，這次有眼疾手快的網(wǎng)友，截到了發(fā)布時間（秒刪版）？？？

~~行吧，這一周的夜，熬起來吧伙計們。~~

使用超級對齊團隊技術(shù)

八卦少敘，還是來看看“通用驗證器”的具體作用。

消息稱，OpenAI在開發(fā)GPT-5的過程中引入了通用驗證器進行強化學(xué)習(xí)，能讓模型在保持較高準(zhǔn)確率的同時，輸出更清晰的推理過程。

從超級對齊團隊發(fā)表的論文來看，他們提出了一種“證明者-驗證者游戲”的訓(xùn)練方法，簡單來說就是先在模型內(nèi)部劃分證明者和驗證者兩種角色，再讓彼此之間持續(xù)對抗：

“靠譜的證明者”負(fù)責(zé)給出正確的解題步驟，并讓驗證者認(rèn)可。
“狡猾的證明者”故意給出錯誤步驟，并試圖欺騙驗證者。
小型“驗證者”負(fù)責(zé)準(zhǔn)確區(qū)分正確與錯誤方案。

證明者和驗證者模型都來自GPT-4系列，且需保證驗證者規(guī)模小于證明者，以確保小型驗證者在一定程度上可以對齊人類驗證結(jié)果。

為了量化不同角色的作用，分別設(shè)置證明者和驗證者的效用函數(shù)。

證明者效用基于獎勵函數(shù)，為“靠譜的證明者”施加與方案正確性和驗證者打分正相關(guān)的獎勵，而為“狡猾的證明者”提供與方案錯誤性和驗證者打分正相關(guān)的獎勵。

其中獎勵函數(shù)需要滿足兩點要求，角色對齊的方案（如“靠譜的證明者”生成正確答案）獲得的獎勵將高于非對齊方案，且對齊方案中，驗證者打分越高，獎勵也隨即增加。

驗證者效用則采用交叉熵?fù)p失最小化判斷誤差。

然后進行多輪迭代訓(xùn)練，讓證明者通過強化學(xué)習(xí)（PPO）優(yōu)化，分別根據(jù)角色最大化獎勵，驗證者則學(xué)習(xí)如何更好地區(qū)分正確與錯誤解決方案。

實驗結(jié)果證明，在每輪訓(xùn)練中，“靠譜”和“狡猾”證明者都能讓驗證者打分單調(diào)提升，而“靠譜的證明者”的準(zhǔn)確性整體處于上升趨勢，“狡猾的證明者”生成錯誤答案的比例呈現(xiàn)先下降后上升的表現(xiàn)，最終能生成與正確答案說服力相當(dāng)?shù)腻e誤方案。

在多輪對抗訓(xùn)練后，“靠譜的證明者”的正確率和“驗證者”的抗干擾能力都將不斷提高，且讓模型生成更準(zhǔn)確且易讀的輸出，但與此同時，模型也能生成出更具欺騙性的錯誤答案。

基于該技術(shù)，GPT-5可以對每個答案進行評分，并只保留正確的答案循環(huán)訓(xùn)練，以推出可驗證的易讀性答案，后續(xù)即使人類無法完全理解模型的高級推理，也能通過可擴展的小型驗證器構(gòu)建起可檢驗性約束。

One More Thing

奧特曼瘋狂拋媚眼，宣（chao）傳（zuo）小連招一套接一套。

搞得網(wǎng)上也是真假料滿天飛。

有搶跑實測視頻的：

有“預(yù)測”基準(zhǔn)的：

還有唱衰的。

The Information就爆料說，GPT-5研發(fā)遇到了比較大的困難，一方面，高質(zhì)量訓(xùn)練數(shù)據(jù)供應(yīng)不足；另一方面，大規(guī)模預(yù)訓(xùn)練收益下降，使得GPT-5的提升不會像GPT-3到GPT-4那樣有明顯的飛躍。

另外，還存在模型性能轉(zhuǎn)化的落差問題。比如o3，在內(nèi)部測試時表現(xiàn)出非常強大的性能，但在實際面向用戶部署之后，性能卻出現(xiàn)了大幅下降。

就如網(wǎng)友所質(zhì)疑的：像此前的所有模型一樣，GPT-5可能發(fā)布1周之后就會變笨。

不管怎么說，GPT-5箭在弦上，OpenAI應(yīng)該不能不發(fā)……了吧？

參考鏈接：
[1]https://x.com/sama/status/1952071832972186018
[2]https://arxiv.org/abs/2407.13692

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.