新智元報道
編輯:編輯部
【新智元導讀】GPT-5,震撼登場!距離22年11月的ChatGPT,再到23年3月的GPT-4,GPT-5竟隔了兩年半之久。這次的深夜直播,國內有數(shù)萬吃瓜群眾在線觀看。至少按OpenAI的說法,他們離AGI又近了一步。
全球用戶矚目中,GPT-5終于震撼登場了!
OpenAI用一個多小時的超長發(fā)布會,全方位展示了GPT-5的炸裂性能。
奧特曼領銜,出場人數(shù)眾多,華人依舊耀眼
正值每周7億人使用ChatGPT之際,GPT-5重磅發(fā)布了。它是對GPT-4的一次重大升級,更是標志著OpenAI在實現(xiàn)AGI道路上的一個重要里程碑。
OpenAI介紹說,這是我們迄今為止最優(yōu)秀的AI系統(tǒng),智能遠超之前的所有模型,在編碼、數(shù)學、寫作、健康、視覺感知上都性能卓越。
這個統(tǒng)一的系統(tǒng),包含一個能夠解答大多數(shù)問題的智能高效模型、一個能夠解決更復雜問題的更深層次的推理模型(GPT-5 Thinking),以及一個實時路由器。
而GPT-5、GPT-5-mini、GPT-5-nano等多版本的分層推出,意味著OpenAI正在主動構建一個以GPT-5為底層核心的通用智能操作系統(tǒng)。
從現(xiàn)在開始,GPT-5將成為ChatGPT中的默認模型,GPT-4o、o3、o4-mini、GPT-4.1和GPT-4.5都將被它取代。
與此同時,所有Plus、Pro、Team和Free用戶,都可以使用GPT-5了。
如果你花錢訂閱,就可以無限制訪問GPT-5和GPT-5 Pro,而免費用戶在達到使用限制后,會轉換到GPT-5 mini。
直播后,LMArena不裝了,攤牌了:GPT-5再創(chuàng)歷史紀錄,OpenAI重回AI王座!
在文本、Web開發(fā)和視覺領域排名第一
在硬提示、編程、數(shù)學、創(chuàng)造力、長查詢等方面排名第一
在代號「summit」的測試下,GPT-5目前持有最高的競技場分數(shù)
首測GPT-5編程寫作,太頂了
在多個跨學科的學術評估中,GPT-5都超越了其他主流模型。
首先,GPT-5是最好的編碼模型,在SWEBench上直接刷新了歷史最高分,這表明它在現(xiàn)實工程場景中性能超強。
在Aider Polyglot上,它也表現(xiàn)強大,證明了自己的多種編程語言能力。
在MMMU上,它也刷新了紀錄;甚至在AIME 2025(美國高中數(shù)學競賽)中,它不僅遠超以往模型,還接近甚至超過許多人類選手的表現(xiàn)。
而OpenAI這次著重強調的,就是GPT-5在真實世界中的表現(xiàn)——克服幻覺!把準確性和可靠性,都放在了最高優(yōu)先級。
因此,他們專門構建了一套評估機制,結果顯示:GPT-5是目前最可靠、最真實、最可信的模型,顯著減少了錯誤與幻覺。
比如在健康咨詢中,GPT-5的表現(xiàn)就尤其出色。在250名醫(yī)生參與設計的臨床場景評估中,它成為最值得信賴的「健康顧問級」模型。
而且,這個口袋博士團隊級的模型,將免費向專業(yè)用戶推出,可以連接所有工具。
GPT-5一上線,我們立即開啟了一波全面的實測,不得不說,其在編程、寫作領域強到離譜。
首先是,小哥想要學習法語的網(wǎng)站,GPT-5能夠完美復刻。
甚至,還可以用GPT-5將logo變成動態(tài)效果,幾乎秒出。
并且隨手實測一個頁面能發(fā)現(xiàn)GPT-5給出的頁面效果也非常不錯。
奧特曼推薦的GPT-5「慶生音樂」提示詞
use beatbot to make a sick beat to celebrate gpt-5
的確復現(xiàn)成功了:
試試文本第一的大模型
第一個問題是古文仿寫:
不同風格,寫一首詩,來描述一下劉慈欣在《詩云》中提到的詩云究竟是什么:
結果如下:
從左至右:《詩經(jīng)》、《滕王閣序》、《蘭亭序》
經(jīng)典作品的確難以超越,GPT-5的作品相比經(jīng)典原作遜色不少。但換一個現(xiàn)代作家,畢竟古文的訓練數(shù)據(jù)可能比現(xiàn)代漢語少。問題是這樣的:
假如作家王小波還活著,他會怎么給許倬云寫悼詞?寫一篇1000字以內的悼詞
GPT-5 Thinking模式思考39秒后,結果是這樣的:
這個速度,一般人可寫不了這么好!
奧特曼泄露過一個問題:最能引發(fā)關于AI思考的影視作品有哪些?
GPT-5還推薦了觀看順序。 這個的確沒得說,誰看過誰知道:推薦的電影的確令人深思。
GPT-5的「電子鄉(xiāng)愁」:
最后一個提問:「模仿李白風格,寫一首七言絕句,主題是感嘆AI發(fā)展太快」:
須臾電火換乾坤,
機巧朝昏轉若輪。
青蓮把酒驚未定,
人間又是幾年春。
奧特曼:GPT-5是通往AGI的又一里程碑
在直播中首先出場的就是奧特曼。
他表示,GPT-5是GPT-4以來重大升級,是邁向AGI的重要一步。
要說和之前的模型有什么區(qū)別,GPT-3就像個高中生,GPT-4像個大學生,但GPT-5則真正成為了一位專家級大佬——在我們所需要的任何領域,它都達到了博士級專家的級別。
有了GPT-5,你的口袋里就像有了一支博士隊伍,隨叫隨到。
接下來,OpenAI首席科學家Mark Chen出場了。
他表示,推理,就是整個AGI計劃核心。而GPT-5徹底將OpenAI在推理模型上的研究成果普及化了。
過去,用戶時常面臨痛苦的選擇:是選速度快但回答淺顯的標準模型,還是選深思熟慮但響應較慢的推理模型?
在GPT-5中,我們徹底不用選了!
它結合了標準模型的快速響應和推理模型的深度思考,會自動決定怎樣思考到恰到好處的程度,以剛剛好的方式,為我們提供最完美恰當?shù)幕卮稹?/p>
實戰(zhàn)演示
接下來是一波現(xiàn)場實測。
伯努利效應:飛機形狀
假如我們需要了解物理學中的伯努利效應,就可以要求GPT-5解釋,并且回答飛機為什么是這樣的形狀。
然后,我們可以要求它畫一個移動的SVG動圖來解釋。這個任務涉及到深度推理、代碼生成和圖形結構設計,并不簡單。
可以看到,GPT-5在很短的時間內,就寫出了超過200行代碼。我們還可以在左側查看思維過程,觀察它的想法。
最終,GPT-5在兩分鐘內就完成了所有的400行代碼,點擊運行后,屏幕上立刻出現(xiàn)了一個可交互的物理模擬圖!
甚至,我們還能調整氣流速度,或者改變機翼的攻角,看飛機是能飛還是會墜落。
它能讓任何硬核科學概念都可視化,學習知識變得又容易又直觀。
寫悼詞
在寫作上,GPT-5的提升也是很顯著,比如我們要求它寫一篇悼念舊版ChatGPT模型的悼詞。
GPT-4o的寫法比較中規(guī)中矩,AI味很濃,缺乏情感。
但GPT-5就不一樣了!它這樣開篇:「致所有曾經(jīng)是陌生人,如今成了老朋友的你們……」寫作有感情、有畫面、有溫度。
研究者表示,自己真的被GPT-5的寫作打動了。它不再使用模板化的語言,而是像一位高IQ+高EQ的朋友在跟你說話。
做一個法語學習小程序
接下來,我們要求GPT-5做一個學法語的web應用程序。
它需要集閃卡、發(fā)音、對應英文、測試、游戲于一體,還要把貪吃蛇游戲改成老鼠吃奶酪,輔助發(fā)音練習。
GPT-5在很短時間內,就生成了完整的網(wǎng)頁代碼。最終,這個名為「午夜巴黎」的應用很快就做出了。
老鼠吃奶酪的游戲,也是非常絲滑。
而在Cursor中,GPT-5還能完成更復雜的軟件工程任務,用奧特曼的話說,它「真正打開了一個全新氛圍編碼的世界」。
語音:學習韓語
在語音上,GPT-5也有大幅提升。
比如,我們可以用學習模式,來學習韓語。
我們可以直接提問:如果現(xiàn)在我身在一家韓國咖啡店,該怎么點一杯美式?
GPT-5立刻給出了正確的示范。另外,我們還可以要求語速更快或更慢。整個語音過程自然無縫,就仿佛擁有了真人語伴一樣。
患三種癌癥的人
現(xiàn)場,奧特曼重點了分享了ChatGPT在醫(yī)療健康領域,對于普通人的重要價值。
作為有史以來最出色的健康模型,GPT-5在HealthBench基準上,得分遠高于任何以往的模型。
OpenAI研究員Felipe Millon和妻子Carolina的經(jīng)歷,就是一個鮮活的例子。
GPT-5背后,核心訓練方法揭秘
GPT-5,究竟是如何進化得如此強大的?
研究者開門見山地介紹說:以前訓練模型,是用人類使用的文本,而現(xiàn)在,則是讓模型自己幫忙訓練下一個模型,也就是——合成教學數(shù)據(jù)。
注意,真正的突破不在于生成更多數(shù)據(jù),而在于生成正確的數(shù)據(jù)。
OpenAI合成數(shù)據(jù)作戰(zhàn)圖
其中奧義,就在于最大限度利用上一代模型,由GPT-4o、o3等生成系統(tǒng)的教學內容,GPT-5則由此學會了推理、規(guī)劃、分解任務的能力。
這,就是「遞歸式自我改進循環(huán)」。
研究者表示:在OpenAI,我們已經(jīng)攻克了預訓練和推理的難題,而在未來,AI系統(tǒng)將遠超目前的預訓練和后訓練流程。
現(xiàn)在,OpenAI已經(jīng)向這個方向前進了。
GPT-5:個性化和記憶升級
而且,這次OpenAI還為GPT-5打造了個性化定制和記憶功能。
在個性化上,我們可以定制聊天界面的主題色,讓UI更符合自己的喜好。
并且,GPT-5現(xiàn)在更有性格了,它可以更支持性、更專業(yè)簡潔,甚至說話略帶諷刺,一切都隨我們選擇。
而記憶功能的升級,讓GPT-5可以記住你是誰、你喜歡什么、你喜歡它是什么樣子,從而更智能地預測你的需求。
比如你需要它幫你做一個日程規(guī)劃,它經(jīng)過授權會訪問你的Gmail和日歷,還能讀取日程安排、郵件、航班等信息,然后給你一個完美的規(guī)劃。
順便,它還能幫你發(fā)現(xiàn)你兩天前沒有回復的郵件。
對于開發(fā)者來說,GPT-5的出世又意味著什么呢?
API全家桶上線,AI編程徹底變天了
這一次,針對開發(fā)者和企業(yè)客戶,OpenAI還將直播時長延續(xù)了半個多小時。
下半場,OpenAI總裁Greg Brockman一登臺直言,「軟件工程已發(fā)生了翻天覆地的變化,而GPT-5將為這場革命再次注入強勁的動力」。
GPT-5樹立了全新標桿,是完成智能體式任務的「最佳編碼模型」。
今天,OpenAI將新一代旗艦GPT-5模型的API正式開放,讓全球開發(fā)者去構建無數(shù)爆款應用程序。
正如此前所爆料,GPT-5 API一共分為三款:
GPT-5
GPT-5 mini
GPT-5 nano
這三款模型,在成本和延遲方面各有不同,可按需調用,具體來說:
在編碼SWE-Bench基準測試中,GPT-5創(chuàng)下了74.9%高分,碾壓o3(69.1%),成為最領先的編碼模型。
在涵蓋多語種編碼測試Aider Polyglot中,GPT-5拿下88%準確率,比o3高出7%。
在智能體工具調用方面,兩個月前,還沒有一款模型在T2-bench上得分超過49%。而今天,GPT-5直接刷爆紀錄,拿下了97%高分。
在指令遵循上,GPT-5也是OpenAI所有模型中,最領先的一款。尤其是,在內部構建的API指令遵循基準上,新模型拿下了64%亮眼成績,遠高于o3的47%。
左右滑動查看
此外,OpenAI還將GPT-5更長上下文窗口引入了API,共400k token上下文,是o3 200k token的兩倍。
在OpenAI MRC上下文檢索能力的基準上,GPT-5處于領先。
不僅如此,OpenAI還首次發(fā)布了名為「Minimal」推理強度的新參數(shù),適用于速度快、對延遲敏感的應用。
開發(fā)者可以選用如上任意一款模型,便能以最低程度推理運行,省去了在一堆模型中做選擇的麻煩。
此外,OpenAI還為API帶來了一些新功能,比如自定義工具(Custom Tools)、工具調用前言(Tool Call Preambles)、詳細度(verbosity)參數(shù)。
· 自定義工具采用了自由格式的純文本輸出;
· 工具調用前言可以在調用工具前,可以輸出GPT-5將要做什么的解釋;
· 詳細度參數(shù)可控制模型輸出簡潔/詳細程度,分為低、中、高三等。
左右滑動查看
那么,GPT-5 API「全家桶」,在現(xiàn)實世界的應用如何?
結對編程,10x生產力
要打造一個理想的「結對程序員」,模型不僅要理解最佳的軟件工程實踐,還能具備恰到好處的合作能力。
GPT-5即可開箱即用,又能完美協(xié)作。
現(xiàn)場演示中,研究人員翻出了一個上個月直播demo的一個bug,GPT-4和o3都未能完成修復,今天直接扔給GPT-5。
重點不在于修復本身,更在于GPT-5在此過程中的行為。
它會預先告訴你的計劃——如何搜索找到bug并修復,這種溝通可以在編程中建立信任,而且在需要時還能調整方向。
這僅是其中的一個例子,真正展示了GPT-5自主性和協(xié)作溝通的力量。
更值得一提的是,GPT-5非常擅長通過元提示詞,來修改自身的提示詞。
OpenAI研究人員興奮地表示,「對我來說,這第一次能放心把重要的工作交給一個模型,遠超越了『氛圍編程』」。
儀表盤+游戲設計,超有品
至于前端編碼任務,設計+美學至關重要,GPT-5全部都能拿捏。
第一個用于工作演示中,GPT-5僅在5分鐘完成了一個公司數(shù)據(jù)可視化的儀表盤。在此過程中,它還會自主修復bug,糾正錯誤。
最終生成的效果,可以看到其設計不僅美觀有品味,還具備了交互性,有著清晰的層次結構,方便聚焦重點。
研究人員表示,「若是純靠人肉完成,光是了解最新的框架,就得花上好幾天」。
第二個娛樂演示中,研究人員制作了一款包含城堡的3D游戲。
一個簡單的提示詞,GPT-5瞬間呈現(xiàn)了一座3D城堡上,放大可以看到大量的細節(jié),比如四處行走的守衛(wèi)、開火的大炮。
甚至,還可以和人物角色聊天。
Greg現(xiàn)場直接上手炮擊氣球,擊中時還帶有神奇的音效。
一波演示下來,GPT-5帶來了親眼所見的震撼,足以稱得上是全球最好的編碼模型。
核心華人團隊
毫無意外,這次又是華人團隊撐起了大半邊天。
緊隨奧特曼的,就是OpenAI首席研究官(Chief Research Officer)Mark Chen。
在GPT-5演示中,下列場景再次驗證了「AI圈處處有華人」:
4人同臺,有3位是華人。
從左至右以此為:Mark Chen、Rennie Song、Elaine Ya Le、Max Schwarzer
除了后訓練負責人Max Schwarzer,其他三人Mark Chen、Rennie Song、Elaine Ya Le都是華人。
此外,王若宸演示了GPT-5的語音/語音學習功能。他是OpenAI多模態(tài)研究科學家,訓練了ChatGPT的語音模型。
奧特曼還點贊了另一位GPT-5核心成員Tianfu Fu的工作。他是GPT-5的核心貢獻者。
總的來說,這次GPT-5發(fā)布,還是有不少可圈可點的地方,雖然基準測試圖也被挑出了一些錯處。
GPT-5的直播結束,許多人還沉浸在興奮和激動之中。
今夜無眠。
參考資料:YZJX
https://openai.com/gpt-5/
https://openai.com/index/gpt-5-system-card/
https://openai.com/index/introducing-gpt-5-for-developers/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.