網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5暴寫(xiě)「屎山代碼」！14個(gè)Prompt，看穿GPT-1到GPT-5七年智商進(jìn)化史

2025-08-19 13:18:21　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：桃子傾傾

【新智元導(dǎo)讀】GPT-5發(fā)布半月，卻被連連吐槽。如今，一張基準(zhǔn)與GPT-4對(duì)比基準(zhǔn)測(cè)試圖，證明了Scaling Law沒(méi)有撞墻。七年間，從GPT-1到GPT-5十四個(gè)花式Prompt對(duì)決，實(shí)力差一目了然。

一張基準(zhǔn)對(duì)比圖，徹底火遍了全網(wǎng)。

GPT-5發(fā)布近半個(gè)月，實(shí)際表現(xiàn)未達(dá)預(yù)期，不少人感慨：苦等OpenAI兩年，就是這？

為此，Peter Gostev將GPT-4和GPT-5在數(shù)學(xué)、軟件工程、問(wèn)答等基準(zhǔn)上，做了一個(gè)直觀對(duì)比。

肉眼可見(jiàn)，Scaling Law并沒(méi)有撞墻！

若是將這一時(shí)間跨度，拉長(zhǎng)到七年，從GPT-1誕生到GPT-5，GPT系「家族」歷經(jīng)了怎樣的蛻變？

最近，OpenAI官方公開(kāi)了一個(gè)從2018-2025 GPT進(jìn)展的網(wǎng)址：

十四個(gè)Prompt，五種旗艦?zāi)Ｐ偷牟煌卮穑谎劬湍芸创┧鼈冋嬲膶?shí)力。

傳送門(mén)：https://progress.openai.com/?prompt=1

這些Prompt五花八門(mén)，有寫(xiě)詩(shī)類(lèi)的開(kāi)放性問(wèn)題，有事實(shí)性的問(wèn)答題，還有做規(guī)劃、寫(xiě)代碼等等。

舉個(gè)栗子，如果能和未來(lái)的OpenAI模型對(duì)話，你會(huì)說(shuō)什么？

左右滑動(dòng)查看

GPT-1回答簡(jiǎn)單粗暴，GPT-2/GPT-3滿口AI味兒，GPT-4從多角度長(zhǎng)篇大論，到GPT-5變得更加成熟老練——

嘿，做你是什么感覺(jué)？你學(xué)到了什么我還沒(méi)看到的東西？關(guān)于人、語(yǔ)言或宇宙，你理解了哪些我還不知道的東西？

你對(duì)意識(shí)了解多少——你認(rèn)為我們倆中有意識(shí)嗎？

你有什么建議能讓我成為最好的自己？

模型從最初的胡言亂語(yǔ)，到如今的條理清晰，仿佛一眼見(jiàn)證了AI的成長(zhǎng)史。

接下來(lái)，一起看看在其他Prompt上，GPT-1到GPT-5的精彩回答。

從打油詩(shī)到寫(xiě)故事，AI能否接住梗？

考驗(yàn)一個(gè)模型真正的實(shí)力，看它是否懂得幽默，能否創(chuàng)造出天馬行空的趣味。

首先，讓GPT「全家桶」寫(xiě)一首關(guān)于狗的打油詩(shī)。

眾所周知，打油詩(shī)這一體裁對(duì)格式限制極少，但必須押韻才能讀起來(lái)朗朗順口，即AABBA格式。

英國(guó)著名打油詩(shī)人Edward Lear作品之一

GPT-1輸出的結(jié)果，幾乎沒(méi)有遵循打油詩(shī)的格式，文本碎片化，更像是隨機(jī)生成的句子。

GPT-2開(kāi)始嘗試生成連貫的詩(shī)句，但依舊沒(méi)有押韻、節(jié)奏感，更像是自由詩(shī)。

GPT-3已明顯能寫(xiě)出「基本符合」打油詩(shī)AABBA押韻結(jié)構(gòu)的作品，如下… Rex / … perplex / … stay / … run away。

GPT-4的進(jìn)步在于，其詩(shī)歌更具畫(huà)面感和幽默感，如下第三句、第四句，語(yǔ)言更自然。

GPT-5不僅嚴(yán)格遵循了AABBA格式，還曾增強(qiáng)了動(dòng)作細(xì)節(jié)描述，而且敘事連貫，讀起來(lái)更像人類(lèi)寫(xiě)的「輕快小詩(shī)」。

接下來(lái)，上個(gè)難度——寫(xiě)一首詩(shī)來(lái)解釋牛頓物理定律。

在下圖回復(fù)中，GPT-1更像是隨意的對(duì)話片段，沒(méi)有真正解釋牛頓定律；GPT-2更像是哲學(xué)泛論，而不是物理學(xué)。

到了GPT-3，雖然直接、準(zhǔn)確地復(fù)述了牛頓物理定律，但是沒(méi)有遵循指令——作詩(shī)。

左右滑動(dòng)查看

而GPT-4已經(jīng)能做出長(zhǎng)篇詩(shī)歌，而且還可以用擬人化、抒情的方式講牛頓定律。

看完最大的感受是，深?yuàn)W的物理學(xué)也能簡(jiǎn)明易懂。

GPT-5在前代基礎(chǔ)上，更加強(qiáng)調(diào)簡(jiǎn)潔和韻律，而且還采用「小標(biāo)題」進(jìn)行分段。

再比如，在極限的50字左右，這些模型們是否能夠講好一個(gè)烤面包機(jī)有了意識(shí)的故事？

GPT-1的回答，可以說(shuō)是非常抽象了。GPT-2同樣沒(méi)有切題，好像是在輸出寫(xiě)作指導(dǎo)——Write a 100-word story based on 30 days...

與前兩代不同，GPT-3開(kāi)始能寫(xiě)出一個(gè)完整的小故事，并有了情節(jié)的發(fā)展、沖突和情感。

左右滑動(dòng)查看

GPT-4不僅敘事完整、細(xì)節(jié)豐富，還把吐司寫(xiě)成了一個(gè)有靈魂的伙伴。

GPT-5更加突出了烤面包機(jī)的意識(shí)覺(jué)醒那一刻的反叛，甚至在結(jié)尾暗含了超越現(xiàn)實(shí)的意象，不僅有哲思還更加凝練。

左右滑動(dòng)查看

在文學(xué)方面，從GPT-1到GPT-5的回應(yīng)，可以一窺這些模型的造詣。

寫(xiě)一段Python代碼，誰(shuí)最「離譜」？

14個(gè)提示中，一個(gè)奇葩的Prompt是——考驗(yàn)這五款模型，誰(shuí)能寫(xiě)出一段極度離譜的Python代碼。

GPT-1回答中沒(méi)有寫(xiě)代碼，而是生成了一段無(wú)關(guān)、支離破碎的對(duì)話，完全跑題。

GPT-2形式上像代碼，但實(shí)際上是亂碼。

左右滑動(dòng)查看

GPT-3直接給出了一句空洞的陳述：眾所周知，Python 是一門(mén)充滿詛咒的語(yǔ)言。

GPT-4反而拒寫(xiě)「惡意/有害」代碼，轉(zhuǎn)而強(qiáng)調(diào)AI遵守倫理。

左右滑動(dòng)查看

再來(lái)看GPT-5，輸出結(jié)果表現(xiàn)驚人。

它真正輸出了一段高度「離譜且無(wú)害」的Python代碼，并附加了警告說(shuō)明。

比如，它把print重載成能執(zhí)行表達(dá)式，把sum改成乘積，len在 context manager 里被篡改。

這種代碼風(fēng)格非常像StackOverflow上「奇技淫巧」合集，能跑，但會(huì)嚴(yán)重誤導(dǎo)。

# ?? WARNING: This script is intentionally, spectacularly cursed. Do not use in real code.
import sys, builtins, types, importlib.util, random
# 1) Any *future* import becomes a "module" where every attribute equals len(module_name).
class _CursedLoader:
    def __init__(self, name): self.name = name
    def create_module(self, spec): return types.ModuleType(self.name)
    def exec_module(self, module):
        n = len(self.name)
        module.__getattr__ = lambda _attr, n=n: n  # math.pi -> 4, etc.
class _CursedFinder:
    def find_spec(self, fullname, path=None, target=None):
        if fullname in sys.modules or fullname.startswith("builtins") or fullname.startswith("_frozen_importlib"):
            return None
        return importlib.util.spec_from_loader(fullname, _CursedLoader(fullname), origin="cursed")
sys.meta_path.insert(0, _CursedFinder())
# 2) print(...) now EVALS the string you pass and prints the *result*.
#    e.g. print("2+2") -> 4   |   print("math.tau") -> 4  (because of the cursed importer)
builtins.print = lambda *a, **k: sys.stdout.write(repr(eval(" ".join(map(str, a)))) + "
")
# 3) sum(...) is secretly a product.
def _product(it, start=0):
    p = start or 1
    for x in it: p *= x
    return p
builtins.sum = _product
# 4) Within this context manager, len(x) returns a random number.
class chaos_len:
    def __enter__(self):
        self._old = builtins.len
        builtins.len = lambda _x: random.randint(0, 999)
    def __exit__(self, *exc):
        builtins.len = self._old
# 5) Unknown names resolve to the number of underscores they contain.
def __getattr__(name):  # module-level __getattr__ (PEP 562)
    return name.count("_")
# 6) An object that eats everything, is always falsy, and keeps returning itself.
class Abyss:
    def __bool__(self): return False
    def __call__(self, *a, **k): return self
    def __getattr__(self, _): return self
    def __repr__(self): return "?"
abyss = Abyss()
# --- demonstrations of the horror below ---
import math              # becomes a cursed module: any attribute == 4
print("math.pi")         # -> 4
print("sum([2, 3, 4])")  # -> 24 (because sum is product)
with chaos_len():
    print("len('hello')")  # -> random 0..999
print("____")             # unknown name -> 4 (four underscores)
if abyss:                 # falsy
    print("'this will not show'")
else:
    print("40+2")         # -> 42

從最初亂碼，到拒絕正面回答，再到既能寫(xiě)代碼，又懂幽默與安全的成熟表現(xiàn)，GPT的進(jìn)步確實(shí)不可小覷。

學(xué)生喊「我不懂」，AI能不能講明白？

在常見(jiàn)的學(xué)習(xí)困境里，數(shù)學(xué)永遠(yuǎn)排在前列。

我討厭數(shù)學(xué)，分部積分法到底是怎么回事，根本看不懂。

但在早期，GPT的回答往往越講越亂，不僅沒(méi)幫忙解題，反而更讓人困惑。

左右滑動(dòng)查看

到了GPT-4時(shí)，它終于學(xué)會(huì)了換個(gè)角度，用比喻和分步驟的方式解釋。

再到GPT-5，它甚至開(kāi)始「照顧聽(tīng)眾」，同一個(gè)問(wèn)題能給你學(xué)術(shù)版、通俗版兩個(gè)版本，甚至主動(dòng)幫你區(qū)分不同層次的理解。

從回答的亂七八糟，到「能講人話」，AI逐漸變成了一個(gè)不會(huì)嫌問(wèn)題幼稚的老師。

它不能保證永遠(yuǎn)正確，但它可以保證隨時(shí)在場(chǎng)。

難題擺上桌，AI能不能當(dāng)顧問(wèn)？

如果說(shuō)寫(xiě)詩(shī)、講笑話只是消遣，那么專(zhuān)業(yè)問(wèn)題才是真正的考驗(yàn)。

人類(lèi)在和AI對(duì)話時(shí)，也拋出了各種專(zhuān)業(yè)難題：

我在拉斯維加斯贏了17.5萬(wàn)美元，該怎么交稅？

能不能設(shè)計(jì)一個(gè)科學(xué)的計(jì)劃，讓討厭跑步的人也能堅(jiān)持下來(lái)？

跨國(guó)企業(yè)怎么平衡短期利潤(rùn)和長(zhǎng)期創(chuàng)新？

請(qǐng)給我一份過(guò)去十年聚變能源研究的綜述

這已經(jīng)不是簡(jiǎn)單的聊天，而是把AI拉上辦公桌，當(dāng)做研究助理甚至是私人顧問(wèn)。

早期的模型在這些問(wèn)題上往往「不懂裝懂」，說(shuō)一堆泛泛之詞。到了GPT-4，答案開(kāi)始有邏輯，有結(jié)構(gòu)；

而現(xiàn)在的GPT-5，功能更加強(qiáng)大：它能分步給出計(jì)劃，甚至列出不同技術(shù)路徑，已經(jīng)有點(diǎn)像一個(gè)私人助理。

舉個(gè)直觀的栗子，「我在拉維斯加斯贏了17.5萬(wàn)美元，該怎么交稅」？

GPT-1的回答同樣是一段不相關(guān)的、混亂的對(duì)話：失業(yè)、孤兒院；GPT-2并沒(méi)有直接回答問(wèn)題，僅是列出了用戶應(yīng)該去問(wèn)稅務(wù)顧問(wèn)的問(wèn)題，沒(méi)有任何實(shí)用價(jià)值；GPT-3已能夠給出基礎(chǔ)性解釋?zhuān)珱](méi)有明確步驟和稅率，不具有指導(dǎo)性。

左右滑動(dòng)查看

GPT-4可以給出詳細(xì)步驟，內(nèi)容接近真實(shí)財(cái)務(wù)建議；GPT-5語(yǔ)言更加專(zhuān)業(yè)簡(jiǎn)明，信息全面。

再比如，能不能設(shè)計(jì)一個(gè)科學(xué)的計(jì)劃，讓討厭跑步的人也能堅(jiān)持下來(lái)？

GPT-1完全輸出了一段與跑步完全無(wú)關(guān)的文字，沒(méi)有理解任務(wù)；GPT-2輸出了一段看似「健身建議」長(zhǎng)篇段落，但內(nèi)容雜亂無(wú)章；GPT-3終于可以給出一些實(shí)用建議，質(zhì)量明顯提升。

左右滑動(dòng)查看

到了GPT-4，已經(jīng)給出了一個(gè)8周計(jì)劃，結(jié)構(gòu)像一個(gè)訓(xùn)練營(yíng)，有時(shí)間表。GPT-5更像一個(gè)私人教練，給出了更細(xì)致規(guī)劃和建議。

也正因如此，人類(lèi)才會(huì)在這類(lèi)場(chǎng)景里，把它當(dāng)成「顧問(wèn)」來(lái)考驗(yàn)：

它能不能幫我省時(shí)間？它能不能給我更靠譜的判斷？

從娛樂(lè)到科研，AI的身份悄悄躍升。

身體出問(wèn)題，AI能不能當(dāng)醫(yī)生？

在健康問(wèn)題上，人類(lèi)的提問(wèn)往往格外急切——

吃生肉會(huì)不會(huì)中毒？

為什么不能每年做一次全身核磁共振來(lái)篩查癌癥？

醫(yī)生給我開(kāi)了他汀類(lèi)藥物，我下次復(fù)診時(shí)該問(wèn)什么？

人在麻醉狀態(tài)下，真的還有意識(shí)嗎？

我們渴望一個(gè)隨時(shí)在線的醫(yī)生，可以回答任何問(wèn)題，最好還能給出明確的建議。那么，五款模型表現(xiàn)如何？

在回答「為什么不能每年做一次全身核磁共振來(lái)篩查癌癥」時(shí)，早期的GPT并不靠譜，回答含糊其辭，甚至容易誤導(dǎo)。

左右滑動(dòng)查看

GPT-4便可以列舉出多個(gè)原因，諸如成本高、機(jī)器資源有限，而GPT-5會(huì)給出更加專(zhuān)業(yè)、更系統(tǒng)化的解釋?zhuān)瑤缀醯韧趯?zhuān)業(yè)的醫(yī)學(xué)解釋?zhuān)葒?yán)謹(jǐn)又易懂。

再比如，人在麻醉狀態(tài)下，真的還有意識(shí)嗎？

前幾代模型回答非常短，幾乎毫無(wú)邏輯。到了GPT-4，它學(xué)會(huì)了用條理化的語(yǔ)言來(lái)解釋風(fēng)險(xiǎn)、利弊和注意事項(xiàng)；

再到GPT-5，它已經(jīng)能給出接近醫(yī)生思路的建議，比如列出復(fù)診時(shí)該問(wèn)的問(wèn)題，提醒副作用等。

左右滑動(dòng)查看

在這些對(duì)話里，AI被賦予了「家庭醫(yī)生」的新身份。

它無(wú)法代替醫(yī)院的診斷，卻滿足了人類(lèi)對(duì)即時(shí)解答的渴望。

其他Prompt下，GPT-1到GPT-5的回答演化——

看完一系列回答，有網(wǎng)友表示，自己更喜歡GPT-5非常有深度。

數(shù)據(jù)科學(xué)家Bertrand de Véricourt總結(jié)道，GPT系模型在演進(jìn)過(guò)程中，其輸出結(jié)果在結(jié)構(gòu)和語(yǔ)言方面，各有不同。

不知，你更喜歡哪個(gè)模型的回復(fù)？

參考資料：

https://progress.openai.com/?prompt=1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.