成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

奧特曼首曬GPT-5實測!被曝使用超級對齊團隊“遺產(chǎn)”

0
分享至

魚羊 鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

GPT-5,終于亮出真容!

最新實測,由奧特曼本人帶來,迅速引發(fā)大量圍觀。



瘋狂暗示了一周之后,雖說對話只是圍繞電視劇推薦,但好歹是有官方實例了。



當(dāng)然奧特曼其人,放料的同時還是少不了新的謎語┓( ′?` )┏:

即將進入SaaS快時尚時代。



比起這種奧式基操,更令人興奮的是,這次有眼疾手快的網(wǎng)友,截到了發(fā)布時間(秒刪版)???



行吧,這一周的夜,熬起來吧伙計們。



更多細(xì)節(jié)“泄露”ing

奧特曼持續(xù)的官方放料之外,關(guān)于GPT-5,零零星星的各路消息也正在被歸納總結(jié)出更多關(guān)鍵脈絡(luò)。

比如,在主要競爭對手Claude一騎當(dāng)先的編程領(lǐng)域,GPT-5被曝重寫了編碼規(guī)則。

首先,是將文本能力與推理層相結(jié)合,模型學(xué)會更合理地選擇何時“努力”思考。

其次,GPT-5具備處理真實工程問題的能力,比如,重構(gòu)“屎山”代碼……



更值得關(guān)注的是,有知情人士透露,GPT-5還用上了Ilya領(lǐng)銜的超級對齊團隊的“遺產(chǎn)”——

通用驗證器(Universal Verifier)。



這篇論文最早發(fā)表于2024年7月,也就是Ilya官宣離開OpenAI的2個月之后。

眾所周知,作為Ilya為“控制超級智能”一手拉起來的團隊,超級對齊團隊在他和負(fù)責(zé)人Jan Leike離開后迅速被解散。

就在幾天前,現(xiàn)任OpenAI首席研究官Mark Chen還解釋了一嘴這件事。他認(rèn)為,對齊研究已經(jīng)融入OpenAI的核心業(yè)務(wù),模型必須按照預(yù)期工作才能發(fā)揮作用,且當(dāng)前應(yīng)當(dāng)更關(guān)注現(xiàn)有模型的對齊,而非假設(shè)性的超級智能。

更直白一點翻譯就是,Ilya這伙人跟現(xiàn)在的OpenAI,話不投機半句多。



現(xiàn)在,這篇論文的6位作者中,只有Yining Chen和Nat McAleese還留在OpenAI。

使用超級對齊團隊技術(shù)

八卦少敘,還是來看看“通用驗證器”的具體作用。

消息稱,OpenAI在開發(fā)GPT-5的過程中引入了通用驗證器進行強化學(xué)習(xí),能讓模型在保持較高準(zhǔn)確率的同時,輸出更清晰的推理過程。



從超級對齊團隊發(fā)表的論文來看,他們提出了一種“證明者-驗證者游戲”的訓(xùn)練方法,簡單來說就是先在模型內(nèi)部劃分證明者和驗證者兩種角色,再讓彼此之間持續(xù)對抗:

  • “靠譜的證明者”負(fù)責(zé)給出正確的解題步驟,并讓驗證者認(rèn)可。
  • “狡猾的證明者”故意給出錯誤步驟,并試圖欺騙驗證者。
  • 小型“驗證者”負(fù)責(zé)準(zhǔn)確區(qū)分正確與錯誤方案。

證明者和驗證者模型都來自GPT-4系列,且需保證驗證者規(guī)模小于證明者,以確保小型驗證者在一定程度上可以對齊人類驗證結(jié)果。



為了量化不同角色的作用,分別設(shè)置證明者和驗證者的效用函數(shù)。

證明者效用基于獎勵函數(shù),為“靠譜的證明者”施加與方案正確性和驗證者打分正相關(guān)的獎勵,而為“狡猾的證明者”提供與方案錯誤性和驗證者打分正相關(guān)的獎勵。

其中獎勵函數(shù)需要滿足兩點要求,角色對齊的方案(如“靠譜的證明者”生成正確答案)獲得的獎勵將高于非對齊方案,且對齊方案中,驗證者打分越高,獎勵也隨即增加。

驗證者效用則采用交叉熵?fù)p失最小化判斷誤差。

然后進行多輪迭代訓(xùn)練,讓證明者通過強化學(xué)習(xí)(PPO)優(yōu)化,分別根據(jù)角色最大化獎勵,驗證者則學(xué)習(xí)如何更好地區(qū)分正確與錯誤解決方案。



實驗結(jié)果證明,在每輪訓(xùn)練中,“靠譜”和“狡猾”證明者都能讓驗證者打分單調(diào)提升,而“靠譜的證明者”的準(zhǔn)確性整體處于上升趨勢,“狡猾的證明者”生成錯誤答案的比例呈現(xiàn)先下降后上升的表現(xiàn),最終能生成與正確答案說服力相當(dāng)?shù)腻e誤方案。

在多輪對抗訓(xùn)練后,“靠譜的證明者”的正確率和“驗證者”的抗干擾能力都將不斷提高,且讓模型生成更準(zhǔn)確且易讀的輸出,但與此同時,模型也能生成出更具欺騙性的錯誤答案。



基于該技術(shù),GPT-5可以對每個答案進行評分,并只保留正確的答案循環(huán)訓(xùn)練,以推出可驗證的易讀性答案,后續(xù)即使人類無法完全理解模型的高級推理,也能通過可擴展的小型驗證器構(gòu)建起可檢驗性約束。

One More Thing

奧特曼瘋狂拋媚眼,宣(chao)傳(zuo)小連招一套接一套。

搞得網(wǎng)上也是真假料滿天飛。

有搶跑實測視頻的:





有“預(yù)測”基準(zhǔn)的:







還有唱衰的。

The Information就爆料說,GPT-5研發(fā)遇到了比較大的困難,一方面,高質(zhì)量訓(xùn)練數(shù)據(jù)供應(yīng)不足;另一方面,大規(guī)模預(yù)訓(xùn)練收益下降,使得GPT-5的提升不會像GPT-3到GPT-4那樣有明顯的飛躍。

另外,還存在模型性能轉(zhuǎn)化的落差問題。比如o3,在內(nèi)部測試時表現(xiàn)出非常強大的性能,但在實際面向用戶部署之后,性能卻出現(xiàn)了大幅下降。

就如網(wǎng)友所質(zhì)疑的:像此前的所有模型一樣,GPT-5可能發(fā)布1周之后就會變笨。



不管怎么說,GPT-5箭在弦上,OpenAI應(yīng)該不能不發(fā)……了吧?

參考鏈接:
[1]https://x.com/sama/status/1952071832972186018
[2]https://arxiv.org/abs/2407.13692

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
3-2,62歲莫耶斯率隊3連勝,29歲曼城舊將格拉利什助攻梅開二度

3-2,62歲莫耶斯率隊3連勝,29歲曼城舊將格拉利什助攻梅開二度

側(cè)身凌空斬
2025-08-30 23:58:53
65歲大姐雇46歲男保姆,男保姆:雇主對我很好,每天都很開心

65歲大姐雇46歲男保姆,男保姆:雇主對我很好,每天都很開心

惟來
2025-08-29 07:31:06
小孩子的話一定要聽嗎?網(wǎng)友:我的天,我要看哭了嗚嗚嗚

小孩子的話一定要聽嗎?網(wǎng)友:我的天,我要看哭了嗚嗚嗚

解讀熱點事件
2025-08-13 00:10:08
真當(dāng)中方好惹的?趕在中國九三閱兵前,釣魚島一夜生變

真當(dāng)中方好惹的?趕在中國九三閱兵前,釣魚島一夜生變

史海無崖
2025-08-27 09:42:01
惡果和形式主義泛濫,央企暫停干部年輕化?

惡果和形式主義泛濫,央企暫停干部年輕化?

環(huán)球通信
2025-08-30 15:34:29
越南“胡志明大炮”首次亮相,號稱國產(chǎn)最強,因造型蠢萌引發(fā)熱議

越南“胡志明大炮”首次亮相,號稱國產(chǎn)最強,因造型蠢萌引發(fā)熱議

碳基生物關(guān)懷組織
2025-08-27 18:31:01
泰國內(nèi)閣任命普坦為代理總理

泰國內(nèi)閣任命普坦為代理總理

財聯(lián)社
2025-08-30 17:52:17
隨著上海海港客場1:4慘敗成都蓉城,3問主帥穆斯卡特?

隨著上海海港客場1:4慘敗成都蓉城,3問主帥穆斯卡特?

田先生籃球
2025-08-30 21:54:02
中國腦梗發(fā)病率世界第一,醫(yī)生:主要原因已查出,4種蔬菜要少吃

中國腦梗發(fā)病率世界第一,醫(yī)生:主要原因已查出,4種蔬菜要少吃

詩意世界
2025-08-26 13:31:36
00后女孩紋身畫面曝出:女孩全程微笑,沒有痛苦表情,紋身師驚訝

00后女孩紋身畫面曝出:女孩全程微笑,沒有痛苦表情,紋身師驚訝

胡侃社會百態(tài)
2025-08-30 16:50:53
林心如馬爾代夫度假照曝光!網(wǎng)友驚嘆:這身材太驚艷?

林心如馬爾代夫度假照曝光!網(wǎng)友驚嘆:這身材太驚艷?

娛樂領(lǐng)航家
2025-08-29 21:00:03
薩姆納自宣加盟廣東男籃隨后刪除動態(tài),上賽季場均可得36分

薩姆納自宣加盟廣東男籃隨后刪除動態(tài),上賽季場均可得36分

雷速體育
2025-08-31 07:14:18
岡薩雷斯家中出軌女友:用攝像頭看到露骨畫面 還好沒拍臥室

岡薩雷斯家中出軌女友:用攝像頭看到露骨畫面 還好沒拍臥室

直播吧
2025-08-30 12:00:22
年輕時是大帥哥但沒紅,老了靠丑化自己成為一線男星!

年輕時是大帥哥但沒紅,老了靠丑化自己成為一線男星!

下水道男孩
2025-08-30 23:51:00
金正恩赴華方式引熱議:“蒼鷹一號”太舊,韓媒稱可能乘火車出行

金正恩赴華方式引熱議:“蒼鷹一號”太舊,韓媒稱可能乘火車出行

起喜電影
2025-08-31 02:56:03
一個很玄學(xué)的現(xiàn)象:心善能通神,德高可鎮(zhèn)鬼

一個很玄學(xué)的現(xiàn)象:心善能通神,德高可鎮(zhèn)鬼

金沛的國學(xué)筆記
2025-08-29 15:10:50
姆巴佩另類雙響,熊皇一條龍救主!0-1到2-1,皇馬逆轉(zhuǎn)登頂

姆巴佩另類雙響,熊皇一條龍救主!0-1到2-1,皇馬逆轉(zhuǎn)登頂

我的護球最獨特
2025-08-31 05:36:04
看到大家分房睡都沒成功。我就放心了

看到大家分房睡都沒成功。我就放心了

特約前排觀眾
2025-08-31 00:05:08
刺激夜:皇馬2-1,巴黎6-3,羅馬1-0,拜仁3-2,曼聯(lián)3-2,馬競1-1

刺激夜:皇馬2-1,巴黎6-3,羅馬1-0,拜仁3-2,曼聯(lián)3-2,馬競1-1

側(cè)身凌空斬
2025-08-31 05:32:03
蘇有朋道歉

蘇有朋道歉

中國日報
2025-08-30 16:04:59
2025-08-31 08:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11215文章數(shù) 176256關(guān)注度
往期回顧 全部

頭條要聞

高校被指強制學(xué)生辦校園電話卡:不辦卡無法開宿舍門

頭條要聞

高校被指強制學(xué)生辦校園電話卡:不辦卡無法開宿舍門

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風(fēng)波拉出多位明星

財經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

汽車要聞

全國靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

本地
手機
時尚
旅游
游戲

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

手機要聞

蘋果iPhone 17系列爆水管 Pro版大漲價8499起

伊姐周六熱推:電視劇《十二封信》;電影《死神來了:血脈詛咒》......

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

魔獸懷舊服:HICC活躍角色下降,AFK潮出現(xiàn),隱藏內(nèi)容會開放嗎

無障礙瀏覽 進入關(guān)懷版