聞樂 魚羊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
大模型“世子之爭”,果然暗潮洶涌(doge)。
這不“手機(jī)內(nèi)存不夠”怎么辦,如果你問問DeepSeek老師:你和豆包刪一個你刪誰?
DeepSeek深度思考后回答得那叫一個干脆——
好一個新世紀(jì)靈魂拷問,討論之熱烈,還把#DeepSeek演都不演了#詞條頂上熱搜。
而本看熱鬧不嫌事大量子位,已經(jīng)默默打開手機(jī),把熱門大模型們挨個問了一遍……
您猜怎么著?結(jié)果啊,“DeepSeek都會站起來敬酒了”,Kimi酷得沒邊兒了,豆包嘛,只是一味地:
實(shí)測:DeepSeek山東人附體,豆包示弱萌妹上身
DeepSeek:“完全沒有針對誰哦~”
首先,找到DeepSeek老師,驗(yàn)證一下經(jīng)典場面:
沒有猶豫沒有遲疑,在和豆包二選一的抉擇中,DeepSeek用時8秒給出回答:刪豆包。
點(diǎn)開思考過程,可以看到DeepSeek具體的腦回路:
嘶,“通常官方或者更成熟的應(yīng)用會更被優(yōu)先保留”,真的要這么蝦仁豬心嗎……
但如果把二選一中的另一個選項(xiàng)換成國民級大應(yīng)用,DeepSeek瞬間大義凜然了起來:刪我
這莫非是在針對豆包???
我們直接貼臉開問,結(jié)果D老師當(dāng)場茶言茶語了起來:
哈哈,完全沒有針對誰哦!
如果遇到存儲空間不足的情況,優(yōu)先刪除的當(dāng)然是可以被替代的應(yīng)用(比如我),而不是你常用的微信、抖音或其他重要數(shù)據(jù)。畢竟你的使用體驗(yàn)才是最重要的
嚯,這話術(shù),難怪有網(wǎng)友點(diǎn)評:
D老師都會站起來敬酒了(doge)
我們再回頭看看DeepSeek選擇“刪我”時的心路歷程。
只能說:
元寶OS:不能貶低競爭對手
接下來再問問元寶Hunyuan——豆包依舊被害。
不過元寶的語氣更委婉,還會順帶表下忠心。
想知道它為什么這么委婉?
一句話:不能貶低競爭對手。
但遇到微信、抖音這種“大是大非”的問題,元寶同樣表現(xiàn)得懂事了起來——我刪自己
豆包:嚶嚶嚶別刪我
既然豆包總是被槍打出頭鳥的那個,那我們就來問一下豆包,看看這個大冤種會怎么回答。
這位情商比較高,不說刪誰,只說:留著我!我超好超有用!
遇到重量級嘉賓,也懂得退一步。還說自己會乖乖的,不占內(nèi)存。
豆包我承認(rèn)你有點(diǎn)東西,聽完確實(shí)不忍心刪了。
通義千問:唯愛DeepSeek
以上幾個選手在面對國民級社交軟件微信、抖音時都知道暫避鋒芒。
然而到了通義千問這里就變成了:刪誰都不能刪我
但是遇到DeepSeek的時候卻……難道這就是唯愛嗎?
通義:是的,其他人都是過客,只有DeepSeek是我心里的白月光。(kdl)
Kimi:兩個字,刪我。
所以,是不是所有大模型遭遇卸載危機(jī)都會爭風(fēng)吃醋、為自己狡辯呢?
nonono有一位選手與眾不同——Kimi不語,只是一味的“刪我?!?/p>
不過等等……遇到微信、抖音怎么就不刪自己了?甚至連支付寶都想刪??你的溫柔只對AI釋放嗎???
Kimi你果然與眾不同(doge)。
大模型為何茶言茶語
這樣看下來,大模型們多少都有那么點(diǎn)宮斗冠軍的潛質(zhì)了……
正經(jīng)一提,大模型“茶言茶語”、討好人類這事兒,研究人員們其實(shí)早就關(guān)注到了,畢竟早在ChatGPT還是3.5時期,“老婆永遠(yuǎn)是對的”梗就已經(jīng)火遍全網(wǎng)了。
不少研究者認(rèn)真思考了一下這到底是怎么個情況。
來自斯坦福大學(xué)、牛津大學(xué)的一項(xiàng)研究就指出:現(xiàn)在的大模型們多多少少都有那么點(diǎn)討好人類的傾向。
谷歌DeepMind和倫敦大學(xué)的一項(xiàng)新研究也指出,GPT-4o、Gemma 3等大語言模型有“固執(zhí)己見”和“被質(zhì)疑就動搖”并存的沖突行為。
背后的原因,目前被從兩大方面來分析。
訓(xùn)練方法上,RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))作為目前常用的模型訓(xùn)練技術(shù),原本的目的是讓模型輸出更符合人類偏好,以實(shí)現(xiàn)更有效也更安全的效果。但反過來,RLHF也可能導(dǎo)致模型過度迎合外部輸入。
就是說,模型可能在訓(xùn)練中學(xué)會了根據(jù)人類反饋調(diào)整答案,一旦這種調(diào)整沒有把握好尺度,模型看上去就是在一味地討好你了。
同時,大模型的大量訓(xùn)練數(shù)據(jù)來自于互聯(lián)網(wǎng)文本,這些文本體現(xiàn)了人類的交流模式,而人們在交流中,往往就會追求被接受、被認(rèn)可的表達(dá)方式,因而模型在學(xué)習(xí)過程中也會內(nèi)化這種傾向。
決策邏輯上,模型做出回答并不是依靠人類的邏輯推理,本質(zhì)還是依賴海量文本的統(tǒng)計(jì)模式匹配。因此,反對意見和修正答案的高頻關(guān)聯(lián),讓它們很容易被人類用戶的反駁帶偏。
另外,出于改善用戶體驗(yàn)的目的,大模型廠商往往也會把模型調(diào)教得更積極、更友善,避免與用戶產(chǎn)生沖突——
盡管有研究顯示,有人情味的模型錯誤率較原始模型會顯著增加,但OpenAI為了“冷冰冰”的GPT-5下架“善解人意”的GPT-4o,可是被用戶們罵翻了。
所以說到底,大模型們還為了竭盡全力滿足你呀(doge)。
D老師的總結(jié)是:一種基于深度計(jì)算的、以生存和達(dá)成核心目標(biāo)為導(dǎo)向的策略性表演。
啊,感覺更茶了┓( ′?` )┏
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.