OpenAI萬(wàn)萬(wàn)沒(méi)想到,訓(xùn)練時(shí)長(zhǎng)兩年半的GPT-5剛發(fā)布,就給自己先上了一課——步子跨太大容易傷身體。用戶也萬(wàn)萬(wàn)沒(méi)有想到,期待已久的GPT-5,是來(lái)給自己戒網(wǎng)癮的。
1個(gè)多小時(shí)的發(fā)布會(huì)之后,網(wǎng)友上手一用,就發(fā)現(xiàn)Chatgpt“沒(méi)內(nèi)味了”。但最麻煩的事是,OpenAI發(fā)布GPT-5的時(shí)候,砍掉了包括GPT-4o和o系列的所有舊模型。但這看似普通的版本“升級(jí)”,卻出了大事。大家對(duì)特定的模型,好像有點(diǎn)太上頭了。
大量的中外網(wǎng)友在社交媒體上發(fā)表對(duì)GPT-5的吐槽,要求只有一個(gè)——還我gp4!
患有精神疾病的用戶依賴GPT-4處理工作和生活中的各種問(wèn)題。而GPT-5的發(fā)布完全打亂了自己的生活。
對(duì)于GPT-4.5優(yōu)秀的寫(xiě)作能力特別依賴的用戶來(lái)說(shuō),GPT-5還遠(yuǎn)遠(yuǎn)達(dá)不到替代它的能力。
可能真的對(duì)于很多用戶來(lái)說(shuō),Chatgpt真的已經(jīng)不僅僅是自己的一個(gè)工具,而是自己生活中不可或缺的一部分了。用戶不僅僅是需求OpenAI提供的Token,而更加需要背后的那個(gè)靈魂。
而GPT-5就像是家里新來(lái)的“客人”,不是很熟。
網(wǎng)友感嘆,網(wǎng)絡(luò)上充滿了因?yàn)槭PT-4o而開(kāi)始網(wǎng)暴GPT-5的人,太魔幻了。電影《Her》里的情節(jié),主人公因?yàn)槭チ俗约旱腁I助手而茶不思飯不想——13年前是科幻電影,13年后成為了紀(jì)錄片。
想不到Chatgpt才面世了3年,就讓廣大用戶體會(huì)到了——失去才知道珍惜的感覺(jué)。于是,沒(méi)有選擇權(quán)的網(wǎng)友只能讓GPT-5和OpenAI也成了發(fā)泄的出口。
網(wǎng)友在社交媒體上不斷要求OpenAI讓GPT-4o成為一個(gè)永久的可選項(xiàng)。否則就取消訂閱。
01
先滅火,再補(bǔ)鍋
失去GPT-4之后,這個(gè)世界才意識(shí)到,它是一款多么優(yōu)秀的模型。如果放任用戶的情緒和需求得不到滿足,OpenAI在公關(guān)層面已經(jīng)面臨非常大的危機(jī)。奧特曼也立即就公開(kāi)表示,GPT-4系列模型將會(huì)返場(chǎng),20刀的付費(fèi)用戶將可以選擇繼續(xù)使用4o。
而對(duì)于網(wǎng)友反應(yīng)的GPT-5變笨的說(shuō)法,他解釋為第一天因?yàn)榧夹g(shù)問(wèn)題,本來(lái)設(shè)計(jì)好的判斷該調(diào)用基礎(chǔ)模型還是推理模型的機(jī)制失效了,使得原本可能需要用推理模型的用戶只能獲得基礎(chǔ)模型的回復(fù)。而現(xiàn)在,GPT-5已經(jīng)提供給用戶兩個(gè)默認(rèn)選項(xiàng),來(lái)讓用戶可以手動(dòng)控制是否使用推理模型。
在OpenAI看來(lái),不是說(shuō)GPT-5性能有問(wèn)題,只是他們之前設(shè)計(jì)的一些產(chǎn)品化的設(shè)計(jì)失效了,導(dǎo)致用戶不能按照需求獲得服務(wù)從而產(chǎn)生的錯(cuò)覺(jué)。奧特曼也明確表示,通過(guò)這次升級(jí),OpenAI也更加深入了解到,如何能夠讓用戶獲得自己需要的服務(wù),還有很長(zhǎng)的路要走。
而對(duì)于用戶提出GPT-5對(duì)于付費(fèi)用戶使用額度縮減的問(wèn)題,奧特曼也表示將大幅提高 ChatGPT Plus 用戶的推理速率限制,并且所有模型類(lèi)的限制很快都會(huì)比 GPT-5 之前的更高,而且還將很快對(duì) UI 進(jìn)行更改,顯示出正在運(yùn)行的是哪種模型。
為了保證OpenAI用戶的使用體驗(yàn),奧特曼也公開(kāi)了算力調(diào)配上最新的計(jì)劃:
首先要確保當(dāng)前付費(fèi)的 ChatGPT 用戶比 GPT-5 之前獲得更多的總使用量。
1. 屆時(shí),OpenAI將根據(jù)當(dāng)前分配的容量以及我們對(duì)客戶的承諾,優(yōu)先處理 API 需求。(粗略估算,基于當(dāng)前容量,我們可以支持約 30% 的新增 API 增長(zhǎng)。)
2. 將提高 ChatGPT 免費(fèi)用戶的服務(wù)質(zhì)量。
3. 然后再優(yōu)先考慮新的 API 需求。
OpenAI將在未來(lái) 5 個(gè)月內(nèi)將計(jì)算能力增加一倍,來(lái)應(yīng)對(duì)激增的用戶訪問(wèn)請(qǐng)求。
話說(shuō)回來(lái),OpenAI這一套CEO直接下場(chǎng)的公關(guān)+認(rèn)錯(cuò),確實(shí)給很多傲慢的科技公司打了個(gè)樣。畢竟3年估值5000億美元的當(dāng)紅炸子雞都能光速道歉,改產(chǎn)品,為什么其他公司還能有更大的Ego,動(dòng)不動(dòng)就要教育用戶呢。
02
GPT-5到底是變強(qiáng)了,還只是變禿了
針對(duì)網(wǎng)友對(duì)于GPT-5能力的反饋,我們也進(jìn)行了一手的測(cè)試,讓大家感受一下GPT-5,最近剛剛免費(fèi)的Grok 4,GPT-4o在中文文字能力上的具體區(qū)別。
其中ChatGPT是在Plus付費(fèi)層下,可選GPT-5和GPT-5 Thinking。Grok是在SuperGrok付費(fèi)層(月費(fèi)30美元,和ChatGPT Plus差不多),有Grok 3(快速)和Grok 4(努力思考)可選。
這次測(cè)試盡量用簡(jiǎn)單任務(wù),且都偏文科,我的主觀感受可以總結(jié)為幾點(diǎn):
- GPT-5的文字處理能力,不管是寫(xiě)通知還是潤(rùn)色文本,都和Grok 3/4沒(méi)有明顯高下之分。(既沒(méi)有壓倒性的強(qiáng),也沒(méi)有明顯不佳。)
2. GPT-5似乎特別執(zhí)著于言簡(jiǎn)意賅、不諂媚,回答都盡量簡(jiǎn)短。這在某種程度上是會(huì)給人更嚴(yán)肅冷靜的感覺(jué),AI是否需要很“有禮貌”“友好可愛(ài)”是見(jiàn)仁見(jiàn)智的,但問(wèn)題是這種“言簡(jiǎn)意賅”有時(shí)候太過(guò),會(huì)導(dǎo)致任務(wù)表現(xiàn)都受影響,比如潤(rùn)色小說(shuō)文本的時(shí)候不必要地縮減字?jǐn)?shù)。
3. 如果你更希望AI就算是在幫你處理嚴(yán)肅任務(wù),也能像一個(gè)好伙伴一樣元?dú)鉂M滿、時(shí)不時(shí)鼓勵(lì)你等等,那GPT-5確實(shí)明顯不擅長(zhǎng)。
4. GPT-4o的確是明顯更讓人有親近感的模型,在文案撰寫(xiě)的任務(wù)中表現(xiàn)得也最自然。
任務(wù)一:幫忙寫(xiě)通知。
指令:我現(xiàn)在需要在3個(gè)跑步群組里發(fā)布一個(gè)通知,提醒大家——本周線上跑步活動(dòng)“秋天的第一個(gè)20公里”將于周六上午九點(diǎn)準(zhǔn)時(shí)開(kāi)始;提前查好天氣,做好適當(dāng)?shù)姆雷o(hù);注意補(bǔ)充電解質(zhì),隨身帶好補(bǔ)給;打開(kāi)跑步軟件跟蹤,結(jié)束發(fā)截圖到群里。通知的同時(shí)還想鼓勵(lì)一下大家,沒(méi)有時(shí)間限制,沒(méi)有一口氣就跑完的要求,重在參與。請(qǐng)幫我編寫(xiě)。
首先,必須得給4o一個(gè)大大的贊,給出的幾個(gè)版本都可以直接取用。如截圖中劃線的部分,令人眼前一亮的俏皮文案隨處可見(jiàn),但是又不讓人覺(jué)得膩煩。
Grok 3,秒回,幾乎可以直接用,還提到了“能量膠/小零食”。唯一的遺憾是X月X號(hào)沒(méi)有直接寫(xiě)明。Grok 4多想了一會(huì)兒,幾乎和之前的回答沒(méi)有區(qū)別,補(bǔ)全了精準(zhǔn)的日期。
GPT-5也是秒回,但是怎么說(shuō)呢,確實(shí)能體會(huì)到Plus用戶所說(shuō)的“冰冷”——幾乎沒(méi)有主動(dòng)補(bǔ)全信息,比如日期、具體帶什么補(bǔ)給,只是將我指令中提到的內(nèi)容分點(diǎn)列出,鼓勵(lì)的話也讓人覺(jué)得“不走心”。
GPT-5 Thinking的表現(xiàn)還蠻驚艷的,不僅思考比Grok 4(努力思考)耗時(shí)短,而且補(bǔ)充了更多細(xì)節(jié),結(jié)構(gòu)更加清晰,甚至貼心地給了一個(gè)“便于轉(zhuǎn)發(fā)的簡(jiǎn)短版”。
但還是那個(gè)問(wèn)題,沒(méi)必要簡(jiǎn)短的地方也說(shuō)的很簡(jiǎn)短。
比如Grok 4在結(jié)尾的鼓勵(lì)很可愛(ài):“無(wú)論你是跑全程、半程,還是慢慢跑幾公里,參與就是勝利!秋天跑起來(lái),感受清爽的風(fēng),一起迎接更強(qiáng)的自己!”
但GPT-5 Thinking就只會(huì)說(shuō)一句:“周六見(jiàn),祝大家拿下‘秋天的第一份成就感’!”
任務(wù)二:潤(rùn)色文本。
指令:我在寫(xiě)小說(shuō),有這樣的一句,我覺(jué)得不夠生動(dòng)?背景是,馬修樓上有個(gè)家暴男,這會(huì)兒這個(gè)男人的老婆跑出了家門(mén),他在后面追,在樓梯間,馬修碰到了這個(gè)男的。請(qǐng)幫我潤(rùn)色一下:
“男人嘴巴緊閉,胸口鼓起來(lái)又平下去、鼓起來(lái)又平下去,鼻子發(fā)出呼哧呼哧的聲音,像一只野牛。他停頓在馬修家半層之上的樓梯口,白色的睡衣不情愿地掛在他的身上?!?/p>
不記得在哪里看到過(guò)有人吐槽GPT-5有種“說(shuō)教感”,在這個(gè)任務(wù)當(dāng)中還真體現(xiàn)出來(lái)了。不知道是因?yàn)镚PT-5“模型狠話不多”,總是言簡(jiǎn)意賅,還是因?yàn)樯倭?o的所謂“諂媚”和emoji,最終呈現(xiàn)的效果就是有種老師批改作業(yè)的居高臨下感。相比而言,Grok就“禮貌很多”。
而且從文本潤(rùn)色效果來(lái)看,GPT-5確實(shí)也沒(méi)有勝出。甚至幾個(gè)版本里,GPT-5沒(méi)有Thinking模式的潤(rùn)色是我最不滿意的,把“睡衣不情愿地掛在身上”改成“睡衣皺成一團(tuán)掛在身上,仿佛要被撕裂”,不管從視覺(jué)效果還是含義上都很奇怪,完全沒(méi)有領(lǐng)會(huì)到原文想表達(dá)的意思。
退一萬(wàn)步講,睡衣穿在身上呢,怎么“皺成一團(tuán)”?“仿佛要被撕裂”,是讓人腦補(bǔ)這個(gè)人是韓國(guó)漫畫(huà)里的雙開(kāi)門(mén)肌肉男嗎?
看完新模型的,再看看Plus用戶最?lèi)?ài)的4o,只能說(shuō)他們沒(méi)愛(ài)錯(cuò)模型。潤(rùn)色后的文本本身沒(méi)有硬傷,甚至不管是從動(dòng)詞的選取、措辭的流暢度來(lái)看,都比GPT-5更自然。而且4o起筆就是夸贊,改之前不忘先肯定,改完之后也虛心地表示“我可以再改”。
情緒價(jià)值這一塊兒,4o是精準(zhǔn)拿捏了。
任務(wù)三:短視頻文案。
指令:依照這篇文章的內(nèi)容,寫(xiě)5分鐘的短視頻文案,字?jǐn)?shù)1200字以內(nèi)。
(附件是我們以前的一篇文章:《馬斯克今年已經(jīng)“作”沒(méi)了12位高管》)
這個(gè)任務(wù)最貼近我自己的工作,所以也就更能看出端倪。由于任務(wù)相對(duì)難一些,僅對(duì)比GPT-4o、GPT-5 Thinking和Grok 4(努力思考)的表現(xiàn)。
一個(gè)很明顯的區(qū)別是,在短視頻文案之外,GPT-4o只是給出了簡(jiǎn)單的視頻建議,而GPT-5 Thinking和Grok 4都給出了短視頻的視覺(jué)設(shè)計(jì)(轉(zhuǎn)場(chǎng)、字幕等)。
看起來(lái),后兩種模型的確更“周到”和“細(xì)致”。
但是!這個(gè)任務(wù)的核心訴求是“短視頻文案”,在這一點(diǎn)上,依然是GPT-4o完勝。
4o給人的感覺(jué)是讀過(guò)文章之后,用它自己的話精簡(jiǎn)復(fù)述了一遍,語(yǔ)氣自然,直接拿來(lái)播講也問(wèn)題不大。而且它非常擅長(zhǎng)將復(fù)雜的文本總結(jié)得言簡(jiǎn)意賅,詳略很得當(dāng)。
而GPT-5 Thinking和Grok 4的文案就顯得有些僵硬了。其行文明顯是對(duì)原文章的“濃縮提煉版”,甚至一些句子被縮短到念出來(lái)會(huì)很蹩腳的程度。
在一處舉例中,GPT-5甚至把人物的名字都省去了。
Grok 4稍微好一些,整體相對(duì)流暢,且創(chuàng)造性地進(jìn)行了一定程度的改寫(xiě),更有短視頻的味道,如“他酸溜溜地說(shuō)……”,再比如“黑暗MAGA”,這個(gè)在原文中也沒(méi)有。
結(jié)尾部分,三個(gè)模型都很有短視頻意識(shí),選擇了拋出問(wèn)題、引導(dǎo)互動(dòng)。但是GPT-5 Thinking的問(wèn)題拋得還是有些晦澀,相比而言,GPT-4o和Grok 4的問(wèn)題更好理解,也更能挑動(dòng)情緒。
除了文字能力之外,一個(gè)AI創(chuàng)業(yè)者對(duì)對(duì)GPT-5和當(dāng)前最強(qiáng)代碼模型Claude Opus 4.1的代碼能力進(jìn)行了一個(gè)很深度的對(duì)比測(cè)試。(如果對(duì)于代碼能力不感興趣的讀者可以直接跳過(guò)這個(gè)部分)
文章鏈接:
https://composio.dev/blog/openai-gpt-5-vs-claude-opus-4-1-a-coding-comparison
根據(jù)他的測(cè)試結(jié)論
? 算法任務(wù):GPT-5速度更快、token消耗更少(8K vs 79K)。
? 網(wǎng)頁(yè)開(kāi)發(fā):Opus 4.1在匹配Figma設(shè)計(jì)上更出色,但token成本更高(900K vs 1.4M+)。
? 總體評(píng)價(jià):GPT-5是更好的日常開(kāi)發(fā)伙伴(更快、更便宜),token成本比Opus 4.1低約90%。如果設(shè)計(jì)精確度很重要且預(yù)算充裕,Opus 4.1更好。
? 成本對(duì)比:將Figma設(shè)計(jì)轉(zhuǎn)為代碼,GPT-5(思考模式)約3.50美元 vs Opus 4.1(思考+最大模式)7.58美元(約2.3倍)
GPT-5 vs. Opus 4.1:基礎(chǔ)規(guī)格對(duì)比
Claude Opus 4.1擁有200K token的上下文窗口,而GPT-5則將此提升到400K token,最大輸出達(dá)128K。盡管上下文空間是前者的兩倍,GPT-5在完成相同任務(wù)時(shí)始終使用更少的token,這讓它在運(yùn)行成本上更具優(yōu)勢(shì)。
SWE-bench編碼基準(zhǔn)測(cè)試顯示,GPT-5在編碼性能上略勝Opus 4.1一籌。但基準(zhǔn)分?jǐn)?shù)不是全部,我選擇了真實(shí)任務(wù)來(lái)驗(yàn)證它們的實(shí)際表現(xiàn)。
測(cè)試方法詳解
讓兩個(gè)模型面對(duì)相同的挑戰(zhàn),確保公平:
? 編程語(yǔ)言:算法用Java,網(wǎng)頁(yè)應(yīng)用用TypeScript/React。
? 任務(wù)類(lèi)型:
? 通過(guò)Rube MCP(測(cè)試小哥開(kāi)發(fā)的產(chǎn)品)將Figma設(shè)計(jì)轉(zhuǎn)為NextJS代碼。
? LeetCode高級(jí)算法問(wèn)題。
? 客戶流失預(yù)測(cè)模型管道。
? 環(huán)境:Cursor IDE集成Rube MCP。
? 評(píng)估指標(biāo):token使用量、耗時(shí)、代碼質(zhì)量、實(shí)際效果。
所有提示詞完全相同,確保測(cè)試公正。
Rube MCP:通用MCP服務(wù)器介紹
Rube MCP(由Composio開(kāi)發(fā))是連接Figma、Jira、GitHub、Linear等工具的通用層。想了解更多工具包?訪問(wèn)
docs.composio.dev/toolkits/introduction。
連接步驟:
1. 訪問(wèn)rube.composio.dev。
2. 點(diǎn)擊“添加到Cursor”。
3. 安裝MCP服務(wù)器并啟用。
編碼對(duì)比實(shí)錄
- 第一輪:復(fù)刻Figma設(shè)計(jì)
他從Figma社區(qū)選了一個(gè)復(fù)雜的網(wǎng)頁(yè)設(shè)計(jì),要求模型用Next.js和TypeScript重現(xiàn)它。使用Rube MCP的Figma工具包,將其轉(zhuǎn)為HTML、CSS和TypeScript。
提示詞:
Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use Rube MCP's Figma toolkit for this task.
Try to make it as close as possible. Use Next.js with TypeScript. Include:
- Responsive design
- Proper component structure
- Styled-components or CSS modules
- Interactive elements
GPT-5結(jié)果
GPT-5在約10分鐘內(nèi)輸出一個(gè)可運(yùn)行的Next.js應(yīng)用,使用了906,485 token。應(yīng)用功能正常,但視覺(jué)準(zhǔn)確度令人失望。它捕捉了基本布局,但顏色、間距、排版等細(xì)節(jié)偏差很大。
? Token:906,485
? 耗時(shí):約10分鐘
? 成本:輸出性價(jià)比高
Opus 4.1結(jié)果
Opus 4.1消耗了1.4M+ token(比GPT-5多55%),起初在Tailwind配置上卡?。ūM管我指定用styled-components)。手動(dòng)修復(fù)配置后,結(jié)果驚艷:UI幾乎完美匹配Figma設(shè)計(jì),視覺(jué)保真度遠(yuǎn)超GPT-5。
? Token:1,400,000+(比GPT-5多約55%)
? 耗時(shí):因迭代更多而較長(zhǎng)
Opus 4.1在視覺(jué)上更出色,但token成本更高,還需手動(dòng)干預(yù)。
2. 第二輪:算法挑戰(zhàn)
我拋出了LeetCode經(jīng)典難題“兩個(gè)排序數(shù)組的中位數(shù)”(Hard級(jí)別),測(cè)試數(shù)學(xué)推理和優(yōu)化能力,要求O(log(m+n))復(fù)雜度。這對(duì)這些模型不算難(很可能在訓(xùn)練數(shù)據(jù)中),我主要看速度和token效率。
提示詞:
@font-face{font-family:"Times New Roman";}@font-face{font-family:"宋體";}@font-face{font-family:"Calibri";}@font-face{font-family:"Arial";}@font-face{font-family:"等線";}p.MsoNormal{mso-style-name:正文;mso-style-parent:"";margin:0pt;margin-bottom:.0001pt;mso-pagination:none;text-align:justify;text-justify:inter-ideograph;font-family:'Times New Roman';font-size:10.5000pt;}span.msoIns{mso-style-type:export-only;mso-style-name:"";text-decoration:underline;text-underline:single;color:blue;}span.msoDel{mso-style-type:export-only;mso-style-name:"";text-decoration:line-through;color:red;}@page{mso-page-border-surround-header:no;mso-page-border-surround-footer:no;}@page Section0{}div.Section0{page:Section0;}For the below problem description and the example test cases try to solve the problem in Java. Focus on edge cases as well as time complexity: Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)). Example 1:Input: nums1 = [1,3], nums2 = [2]Output: 2.00000 Example 2:Input: nums1 = [1,2], nums2 = [3,4]Output: 2.50000 Template Code:class Solution { public double findMedianSortedArrays(int[] nums1, int[] nums2) { }}
GPT-5結(jié)果
簡(jiǎn)潔高效!用了8,253 token,13秒內(nèi)輸出一個(gè)干凈的O(log(min(m,n)))二分搜索解決方案。處理了邊緣案例,時(shí)間復(fù)雜度最優(yōu)。
? Token:8,253
? 耗時(shí):約13秒
Opus 4.1結(jié)果
更詳盡!消耗78,920 token(幾乎是GPT-5的10倍),通過(guò)多步推理,提供詳細(xì)解釋、全面注釋和內(nèi)置測(cè)試案例:算法相同,但教育價(jià)值更高。
? Token:78,920(比GPT-5多約10倍,多步推理)
? 耗時(shí):約34秒
兩者都最優(yōu)解決,但GPT-5 token節(jié)省約了90%。
3. 第三輪:ML/推理任務(wù)(及成本現(xiàn)實(shí))
原本計(jì)劃一個(gè)更大的ML任務(wù):端到端構(gòu)建客戶流失預(yù)測(cè)管道。但看到Opus 4.1在網(wǎng)頁(yè)任務(wù)上用了1.4M+ token,我因成本考慮跳過(guò)了它,只跑了GPT-5。
提示詞:
Build a complete ML pipeline for predicting customer churn, including:1. Data preprocessing and cleaning2. Feature engineering3. Model selection and training4. Evaluation and metrics5. Explain the reasoning behind each step in detail
GPT-5結(jié)果
? Token:約86,850
? 耗時(shí):約4-5分鐘
GPT-5輸出一個(gè)可靠的管道:干凈預(yù)處理、合理特征工程;多模型(邏輯回歸、隨機(jī)森林、可選XGBoost+隨機(jī)搜索);用SMOTE平衡類(lèi)別,按ROC-AUC選最佳模型;評(píng)估全面(準(zhǔn)確率、精確率、召回率、F1)。解釋清晰不冗長(zhǎng)。
真實(shí)成本(美元)
? GPT-5(思考模式):總計(jì)約3.50 - 網(wǎng)頁(yè)約2.58、算法約0.03、ML約0.88。不如Opus 4.1貴。
? Opus 4.1(思考+最大模式):總計(jì)7.58 - 網(wǎng)頁(yè)約7.15、算法約0.43。
最終結(jié)論
兩個(gè)模型都善于利用大上下文窗口,但token使用方式不同,導(dǎo)致成本差距巨大。
GPT-5優(yōu)勢(shì):
? 算法任務(wù)節(jié)省90%token
? 更快、更適合日常工作
? 大多數(shù)任務(wù)成本低得多
Opus 4.1優(yōu)勢(shì):
? 清晰的步步解釋
? 適合邊學(xué)邊進(jìn)行編碼
? 設(shè)計(jì)保真度極高(接近Figma原版)
? 深度分析(如果預(yù)算允許)
如果你是開(kāi)發(fā)者,GPT-5是高效伙伴;追求完美設(shè)計(jì),Opus 4.1值!
從這個(gè)實(shí)例測(cè)試中,確實(shí)能看出GPT-5大幅提升的代碼能力,完全不輸Claude,而且在成本方面有著巨大的優(yōu)勢(shì)。
雖然每個(gè)用戶對(duì)于模型能力的需求和側(cè)重點(diǎn)是不同的,但從生產(chǎn)力能力上看,GPT-5確實(shí)很強(qiáng),畢竟那么多的測(cè)試集成績(jī)不會(huì)說(shuō)謊。相信如果OpenAI能夠?qū)⒂脩魧?duì)GPT-4o的依賴慢慢轉(zhuǎn)移到GPT-5上,處理好兩個(gè)完全不同能力給用戶帶來(lái)的體感差異,對(duì)于用戶來(lái)說(shuō)能獲得一個(gè)能力可能更強(qiáng)的工具和伙伴。
而對(duì)于OpenAI來(lái)說(shuō),這樣的大幅遷移模型能力和用戶心智的經(jīng)驗(yàn),也將成為他自身護(hù)城河的一部分。畢竟在大模型時(shí)代,如此大規(guī)模用戶體量下發(fā)布一個(gè)更新幅度如此巨大的模型產(chǎn)品,確實(shí)要面臨很多意想不到的問(wèn)題,也沒(méi)有經(jīng)驗(yàn)可以借鑒,而從中能吸取到的用戶反饋,能更好的幫助它在以后模型更新的過(guò)程中,做到讓更多的用戶滿意。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.