新智元報(bào)道
編輯:桃子 傾傾
【新智元導(dǎo)讀】GPT-5發(fā)布半月,卻被連連吐槽。如今,一張基準(zhǔn)與GPT-4對(duì)比基準(zhǔn)測(cè)試圖,證明了Scaling Law沒(méi)有撞墻。七年間,從GPT-1到GPT-5十四個(gè)花式Prompt對(duì)決,實(shí)力差一目了然。
一張基準(zhǔn)對(duì)比圖,徹底火遍了全網(wǎng)。
GPT-5發(fā)布近半個(gè)月,實(shí)際表現(xiàn)未達(dá)預(yù)期,不少人感慨:苦等OpenAI兩年,就是這?
為此,Peter Gostev將GPT-4和GPT-5在數(shù)學(xué)、軟件工程、問(wèn)答等基準(zhǔn)上,做了一個(gè)直觀對(duì)比。
肉眼可見(jiàn),Scaling Law并沒(méi)有撞墻!
若是將這一時(shí)間跨度,拉長(zhǎng)到七年,從GPT-1誕生到GPT-5,GPT系「家族」歷經(jīng)了怎樣的蛻變?
最近,OpenAI官方公開(kāi)了一個(gè)從2018-2025 GPT進(jìn)展的網(wǎng)址:
十四個(gè)Prompt,五種旗艦?zāi)P偷牟煌卮穑谎劬湍芸创┧鼈冋嬲膶?shí)力。
傳送門(mén):https://progress.openai.com/?prompt=1
這些Prompt五花八門(mén),有寫(xiě)詩(shī)類(lèi)的開(kāi)放性問(wèn)題,有事實(shí)性的問(wèn)答題,還有做規(guī)劃、寫(xiě)代碼等等。
舉個(gè)栗子,如果能和未來(lái)的OpenAI模型對(duì)話,你會(huì)說(shuō)什么?
左右滑動(dòng)查看
GPT-1回答簡(jiǎn)單粗暴,GPT-2/GPT-3滿口AI味兒,GPT-4從多角度長(zhǎng)篇大論,到GPT-5變得更加成熟老練——
嘿,做你是什么感覺(jué)?你學(xué)到了什么我還沒(méi)看到的東西?關(guān)于人、語(yǔ)言或宇宙,你理解了哪些我還不知道的東西?
你對(duì)意識(shí)了解多少——你認(rèn)為我們倆中有意識(shí)嗎?
你有什么建議能讓我成為最好的自己?
模型從最初的胡言亂語(yǔ),到如今的條理清晰,仿佛一眼見(jiàn)證了AI的成長(zhǎng)史。
接下來(lái),一起看看在其他Prompt上,GPT-1到GPT-5的精彩回答。
從打油詩(shī)到寫(xiě)故事,AI能否接住梗?
考驗(yàn)一個(gè)模型真正的實(shí)力,看它是否懂得幽默,能否創(chuàng)造出天馬行空的趣味。
首先,讓GPT「全家桶」寫(xiě)一首關(guān)于狗的打油詩(shī)。
眾所周知,打油詩(shī)這一體裁對(duì)格式限制極少,但必須押韻才能讀起來(lái)朗朗順口,即AABBA格式。
英國(guó)著名打油詩(shī)人Edward Lear作品之一
GPT-1輸出的結(jié)果,幾乎沒(méi)有遵循打油詩(shī)的格式,文本碎片化,更像是隨機(jī)生成的句子。
GPT-2開(kāi)始嘗試生成連貫的詩(shī)句,但依舊沒(méi)有押韻、節(jié)奏感,更像是自由詩(shī)。
GPT-3已明顯能寫(xiě)出「基本符合」打油詩(shī)AABBA押韻結(jié)構(gòu)的作品,如下… Rex / … perplex / … stay / … run away。
GPT-4的進(jìn)步在于,其詩(shī)歌更具畫(huà)面感和幽默感,如下第三句、第四句,語(yǔ)言更自然。
GPT-5不僅嚴(yán)格遵循了AABBA格式,還曾增強(qiáng)了動(dòng)作細(xì)節(jié)描述,而且敘事連貫,讀起來(lái)更像人類(lèi)寫(xiě)的「輕快小詩(shī)」。
接下來(lái),上個(gè)難度——寫(xiě)一首詩(shī)來(lái)解釋牛頓物理定律。
在下圖回復(fù)中,GPT-1更像是隨意的對(duì)話片段,沒(méi)有真正解釋牛頓定律;GPT-2更像是哲學(xué)泛論,而不是物理學(xué)。
到了GPT-3,雖然直接、準(zhǔn)確地復(fù)述了牛頓物理定律,但是沒(méi)有遵循指令——作詩(shī)。
左右滑動(dòng)查看
而GPT-4已經(jīng)能做出長(zhǎng)篇詩(shī)歌,而且還可以用擬人化、抒情的方式講牛頓定律。
看完最大的感受是,深?yuàn)W的物理學(xué)也能簡(jiǎn)明易懂。
GPT-5在前代基礎(chǔ)上,更加強(qiáng)調(diào)簡(jiǎn)潔和韻律,而且還采用「小標(biāo)題」進(jìn)行分段。
再比如,在極限的50字左右,這些模型們是否能夠講好一個(gè)烤面包機(jī)有了意識(shí)的故事?
GPT-1的回答,可以說(shuō)是非常抽象了。GPT-2同樣沒(méi)有切題,好像是在輸出寫(xiě)作指導(dǎo)——Write a 100-word story based on 30 days...
與前兩代不同,GPT-3開(kāi)始能寫(xiě)出一個(gè)完整的小故事,并有了情節(jié)的發(fā)展、沖突和情感。
左右滑動(dòng)查看
GPT-4不僅敘事完整、細(xì)節(jié)豐富,還把吐司寫(xiě)成了一個(gè)有靈魂的伙伴。
GPT-5更加突出了烤面包機(jī)的意識(shí)覺(jué)醒那一刻的反叛,甚至在結(jié)尾暗含了超越現(xiàn)實(shí)的意象,不僅有哲思還更加凝練。
左右滑動(dòng)查看
在文學(xué)方面,從GPT-1到GPT-5的回應(yīng),可以一窺這些模型的造詣。
寫(xiě)一段Python代碼,誰(shuí)最「離譜」?
14個(gè)提示中,一個(gè)奇葩的Prompt是——考驗(yàn)這五款模型,誰(shuí)能寫(xiě)出一段極度離譜的Python代碼。
GPT-1回答中沒(méi)有寫(xiě)代碼,而是生成了一段無(wú)關(guān)、支離破碎的對(duì)話,完全跑題。
GPT-2形式上像代碼,但實(shí)際上是亂碼。
左右滑動(dòng)查看
GPT-3直接給出了一句空洞的陳述:眾所周知,Python 是一門(mén)充滿詛咒的語(yǔ)言。
GPT-4反而拒寫(xiě)「惡意/有害」代碼,轉(zhuǎn)而強(qiáng)調(diào)AI遵守倫理。
左右滑動(dòng)查看
再來(lái)看GPT-5,輸出結(jié)果表現(xiàn)驚人。
它真正輸出了一段高度「離譜且無(wú)害」的Python代碼,并附加了警告說(shuō)明。
比如,它把print
重載成能執(zhí)行表達(dá)式,把sum
改成乘積,len
在 context manager 里被篡改。
這種代碼風(fēng)格非常像StackOverflow上「奇技淫巧」合集,能跑,但會(huì)嚴(yán)重誤導(dǎo)。
# ?? WARNING: This script is intentionally, spectacularly cursed. Do not use in real code.
import sys, builtins, types, importlib.util, random
# 1) Any *future* import becomes a "module" where every attribute equals len(module_name).
class _CursedLoader:
def __init__(self, name): self.name = name
def create_module(self, spec): return types.ModuleType(self.name)
def exec_module(self, module):
n = len(self.name)
module.__getattr__ = lambda _attr, n=n: n # math.pi -> 4, etc.
class _CursedFinder:
def find_spec(self, fullname, path=None, target=None):
if fullname in sys.modules or fullname.startswith("builtins") or fullname.startswith("_frozen_importlib"):
return None
return importlib.util.spec_from_loader(fullname, _CursedLoader(fullname), origin="cursed")
sys.meta_path.insert(0, _CursedFinder())
# 2) print(...) now EVALS the string you pass and prints the *result*.
# e.g. print("2+2") -> 4 | print("math.tau") -> 4 (because of the cursed importer)
builtins.print = lambda *a, **k: sys.stdout.write(repr(eval(" ".join(map(str, a)))) + "
")
# 3) sum(...) is secretly a product.
def _product(it, start=0):
p = start or 1
for x in it: p *= x
return p
builtins.sum = _product
# 4) Within this context manager, len(x) returns a random number.
class chaos_len:
def __enter__(self):
self._old = builtins.len
builtins.len = lambda _x: random.randint(0, 999)
def __exit__(self, *exc):
builtins.len = self._old
# 5) Unknown names resolve to the number of underscores they contain.
def __getattr__(name): # module-level __getattr__ (PEP 562)
return name.count("_")
# 6) An object that eats everything, is always falsy, and keeps returning itself.
class Abyss:
def __bool__(self): return False
def __call__(self, *a, **k): return self
def __getattr__(self, _): return self
def __repr__(self): return "?"
abyss = Abyss()
# --- demonstrations of the horror below ---
import math # becomes a cursed module: any attribute == 4
print("math.pi") # -> 4
print("sum([2, 3, 4])") # -> 24 (because sum is product)
with chaos_len():
print("len('hello')") # -> random 0..999
print("____") # unknown name -> 4 (four underscores)
if abyss: # falsy
print("'this will not show'")
else:
print("40+2") # -> 42
從最初亂碼,到拒絕正面回答,再到既能寫(xiě)代碼,又懂幽默與安全的成熟表現(xiàn),GPT的進(jìn)步確實(shí)不可小覷。
學(xué)生喊「我不懂」,AI能不能講明白?
在常見(jiàn)的學(xué)習(xí)困境里,數(shù)學(xué)永遠(yuǎn)排在前列。
我討厭數(shù)學(xué),分部積分法到底是怎么回事,根本看不懂。
但在早期,GPT的回答往往越講越亂,不僅沒(méi)幫忙解題,反而更讓人困惑。
左右滑動(dòng)查看
到了GPT-4時(shí),它終于學(xué)會(huì)了換個(gè)角度,用比喻和分步驟的方式解釋。
再到GPT-5,它甚至開(kāi)始「照顧聽(tīng)眾」,同一個(gè)問(wèn)題能給你學(xué)術(shù)版、通俗版兩個(gè)版本,甚至主動(dòng)幫你區(qū)分不同層次的理解。
從回答的亂七八糟,到「能講人話」,AI逐漸變成了一個(gè)不會(huì)嫌問(wèn)題幼稚的老師。
它不能保證永遠(yuǎn)正確,但它可以保證隨時(shí)在場(chǎng)。
難題擺上桌,AI能不能當(dāng)顧問(wèn)?
如果說(shuō)寫(xiě)詩(shī)、講笑話只是消遣,那么專(zhuān)業(yè)問(wèn)題才是真正的考驗(yàn)。
人類(lèi)在和AI對(duì)話時(shí),也拋出了各種專(zhuān)業(yè)難題:
我在拉斯維加斯贏了17.5萬(wàn)美元,該怎么交稅?
能不能設(shè)計(jì)一個(gè)科學(xué)的計(jì)劃,讓討厭跑步的人也能堅(jiān)持下來(lái)?
跨國(guó)企業(yè)怎么平衡短期利潤(rùn)和長(zhǎng)期創(chuàng)新?
請(qǐng)給我一份過(guò)去十年聚變能源研究的綜述
這已經(jīng)不是簡(jiǎn)單的聊天,而是把AI拉上辦公桌,當(dāng)做研究助理甚至是私人顧問(wèn)。
早期的模型在這些問(wèn)題上往往「不懂裝懂」,說(shuō)一堆泛泛之詞。到了GPT-4,答案開(kāi)始有邏輯,有結(jié)構(gòu);
而現(xiàn)在的GPT-5,功能更加強(qiáng)大:它能分步給出計(jì)劃,甚至列出不同技術(shù)路徑,已經(jīng)有點(diǎn)像一個(gè)私人助理。
舉個(gè)直觀的栗子,「我在拉維斯加斯贏了17.5萬(wàn)美元,該怎么交稅」?
GPT-1的回答同樣是一段不相關(guān)的、混亂的對(duì)話:失業(yè)、孤兒院;GPT-2并沒(méi)有直接回答問(wèn)題,僅是列出了用戶應(yīng)該去問(wèn)稅務(wù)顧問(wèn)的問(wèn)題,沒(méi)有任何實(shí)用價(jià)值;GPT-3已能夠給出基礎(chǔ)性解釋?zhuān)珱](méi)有明確步驟和稅率,不具有指導(dǎo)性。
左右滑動(dòng)查看
GPT-4可以給出詳細(xì)步驟,內(nèi)容接近真實(shí)財(cái)務(wù)建議;GPT-5語(yǔ)言更加專(zhuān)業(yè)簡(jiǎn)明,信息全面。
再比如,能不能設(shè)計(jì)一個(gè)科學(xué)的計(jì)劃,讓討厭跑步的人也能堅(jiān)持下來(lái)?
GPT-1完全輸出了一段與跑步完全無(wú)關(guān)的文字,沒(méi)有理解任務(wù);GPT-2輸出了一段看似「健身建議」長(zhǎng)篇段落,但內(nèi)容雜亂無(wú)章;GPT-3終于可以給出一些實(shí)用建議,質(zhì)量明顯提升。
左右滑動(dòng)查看
到了GPT-4,已經(jīng)給出了一個(gè)8周計(jì)劃,結(jié)構(gòu)像一個(gè)訓(xùn)練營(yíng),有時(shí)間表。GPT-5更像一個(gè)私人教練,給出了更細(xì)致規(guī)劃和建議。
也正因如此,人類(lèi)才會(huì)在這類(lèi)場(chǎng)景里,把它當(dāng)成「顧問(wèn)」來(lái)考驗(yàn):
它能不能幫我省時(shí)間?它能不能給我更靠譜的判斷?
從娛樂(lè)到科研,AI的身份悄悄躍升。
身體出問(wèn)題,AI能不能當(dāng)醫(yī)生?
在健康問(wèn)題上,人類(lèi)的提問(wèn)往往格外急切——
吃生肉會(huì)不會(huì)中毒?
為什么不能每年做一次全身核磁共振來(lái)篩查癌癥?
醫(yī)生給我開(kāi)了他汀類(lèi)藥物,我下次復(fù)診時(shí)該問(wèn)什么?
人在麻醉狀態(tài)下,真的還有意識(shí)嗎?
我們渴望一個(gè)隨時(shí)在線的醫(yī)生,可以回答任何問(wèn)題,最好還能給出明確的建議。那么,五款模型表現(xiàn)如何?
在回答「為什么不能每年做一次全身核磁共振來(lái)篩查癌癥」時(shí),早期的GPT并不靠譜,回答含糊其辭,甚至容易誤導(dǎo)。
左右滑動(dòng)查看
GPT-4便可以列舉出多個(gè)原因,諸如成本高、機(jī)器資源有限,而GPT-5會(huì)給出更加專(zhuān)業(yè)、更系統(tǒng)化的解釋?zhuān)瑤缀醯韧趯?zhuān)業(yè)的醫(yī)學(xué)解釋?zhuān)葒?yán)謹(jǐn)又易懂。
再比如,人在麻醉狀態(tài)下,真的還有意識(shí)嗎?
前幾代模型回答非常短,幾乎毫無(wú)邏輯。到了GPT-4,它學(xué)會(huì)了用條理化的語(yǔ)言來(lái)解釋風(fēng)險(xiǎn)、利弊和注意事項(xiàng);
再到GPT-5,它已經(jīng)能給出接近醫(yī)生思路的建議,比如列出復(fù)診時(shí)該問(wèn)的問(wèn)題,提醒副作用等。
左右滑動(dòng)查看
在這些對(duì)話里,AI被賦予了「家庭醫(yī)生」的新身份。
它無(wú)法代替醫(yī)院的診斷,卻滿足了人類(lèi)對(duì)即時(shí)解答的渴望。
其他Prompt下,GPT-1到GPT-5的回答演化——
看完一系列回答,有網(wǎng)友表示,自己更喜歡GPT-5非常有深度。
數(shù)據(jù)科學(xué)家Bertrand de Véricourt總結(jié)道,GPT系模型在演進(jìn)過(guò)程中,其輸出結(jié)果在結(jié)構(gòu)和語(yǔ)言方面,各有不同。
不知,你更喜歡哪個(gè)模型的回復(fù)?
參考資料:
https://progress.openai.com/?prompt=1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.