LLM把簡單任務(wù)復(fù)雜化，Karpathy無語：有些任務(wù)無需那么多思考

2025-08-12 11:16:52　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：冷貓

隨著推理大模型和思維鏈的出現(xiàn)與普及，大模型具備了「深度思考」的能力，不同任務(wù)的泛用性得到了很大的提高。

借助思維鏈，大模型能夠?qū)θ蝿?wù)進行深入分析，完成任務(wù)規(guī)劃與拆解，從而勝任長周期、復(fù)雜度高的工作。同時，我們也能更直觀地了解模型的推理與分析過程，從中發(fā)現(xiàn)執(zhí)行環(huán)節(jié)中的問題，并有針對性地調(diào)整指令，以更高效地完成目標(biāo)。

可以說，有了「深度思考」的推理模型，才有了現(xiàn)在擁有多種輔助功能與自主能力的 AI 智能體。

但現(xiàn)在的大模型漸漸有些偏科了。為了構(gòu)建應(yīng)用能力更強的智能體，對長周期的復(fù)雜任務(wù)能力的追求已經(jīng)影響到了大模型的推理模式。

不知道大家在平常使用 AI 工具的時候有沒有發(fā)現(xiàn)，打開了深度思考后，一些簡單的任務(wù)也需要很多的思考，展示了非常冗長的思維鏈，而不打開深度思考的時候，又很難準(zhǔn)確的得到想要的回復(fù)。

這種現(xiàn)象越來越明顯了，尤其是當(dāng)大模型進入工作流（例如編碼工作）的時候，其負面效應(yīng)就更加顯著。

這不，AI 領(lǐng)域的大牛 Andrej Karpathy 也感覺到不對勁，發(fā)了長文推來指出這個令人無語的現(xiàn)象。

Karpathy 說，「LLM 在默認(rèn)狀態(tài)下正變得比我日常使用需求更具『自主代理（Agentic）』傾向，甚至有些超出了我的平均使用場景」。

最明顯的的確是編碼任務(wù)，模型現(xiàn)在往往會進行較長時間的推理，傾向于在整個代碼庫中列出并搜索（grep）文件，會反復(fù)進行網(wǎng)絡(luò)搜索，對一些在開發(fā)中、且明顯并不完整的代碼里極少出現(xiàn)的邊緣情況過度分析、過度思考，甚至在非常簡單的查詢中，也常常需要幾分鐘后才返回結(jié)果。

尤其是在簡單的任務(wù)中，比如在運行腳本前快速檢查索引錯誤或其他低級錯誤，根本不需要如此復(fù)雜的任務(wù)分析和代碼處理。

因此 Karpathy 不得不經(jīng)常打斷 LLM，并用類似這樣的指令限制它：「停，你想得太多了。只看這一份文件。不要用任何工具。不要過度設(shè)計。

這帶來了很多麻煩，不僅是在編碼任務(wù)，我們發(fā)現(xiàn)日常使用 LLM 工具時候的類似打斷情況也越來越多了。

簡單拿剛發(fā)布幾天的 GPT-5 舉個例子，發(fā)布時 OpenAI 顯然意識到深度思考的問題，所以他們強調(diào) GPT-5 是一個集成模型，也就是說，你用它的時候不需要在不同模型之間切換，它會自己決定何時需要深入思考。

但這個問題顯然沒有這么簡單。記得當(dāng)時 GPT-4o 模型的圖像編輯生成功能很好用，但在更新到新模型后就不太一樣了。

我們給了 GPT-5 這個指令：「去除圖中文字，把這張圖變得高清一些，機器人的臉看起來更溫和一些」，希望它能夠調(diào)用圖像編輯的功能。

但結(jié)果它就開始進行「深度思考」了：

經(jīng)過了 38 秒的思考，它考慮了很多細節(jié)，但仍然未能開始使用圖像生成功能，導(dǎo)致不得不打斷它的任務(wù)進程。

或許這也是用戶們無比懷念 GPT-4o 的原因之一。

正如 Karpathy 指出的，隨著默認(rèn)模式逐漸向這種「超深度思考」的高代理化狀態(tài)靠攏，我們反而更需要一個相反的選項—— 一種更直接有效的方式去表達或傳達我的意圖和任務(wù)的緊迫程度，從「快速看一眼」到「花 30 分鐘徹底確認(rèn)后再回來」都能精確指定。

網(wǎng)友們也苦「過度思考」久矣，甚至為此回到了最樸素的使用方法。

對于這件事，Karpathy覺得罪魁禍?zhǔn)姿坪跏谴竽Ｐ汀?strong>在長周期任務(wù)上進行了大量基準(zhǔn)測試優(yōu)化」，為了在基準(zhǔn)測試上得到更好的成績，LLM的思考就更傾向于長周期的復(fù)雜任務(wù)的實現(xiàn)，因此影響了普通任務(wù)的響應(yīng)。

他指出了兩種情境：

1. 我招呼同事過來看我屏幕上打開的一個文件，問他「這樣對嗎？」

2. 我讓某人坐在桌前，他們有 2 個小時來作答。這是一場考試，風(fēng)險很高。題目是「這樣對嗎？」

人類協(xié)作者能很自然地區(qū)分情境 1 和情境 2。但 LLM 并不知道你問的是 1 還是 2，而隨著時間推移、基準(zhǔn)測試的不斷「極限化」，它會越來越傾向于假設(shè)你問的是情境 2。

這指出了大模型過度思考，復(fù)雜化任務(wù)的可能原因，大模型的發(fā)展不能完全以基準(zhǔn)測試分?jǐn)?shù)作為追求。

關(guān)于大模型的「過度思考」，有相關(guān)經(jīng)歷和想法歡迎在評論區(qū)分享。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.