成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

LLM把簡單任務(wù)復(fù)雜化,Karpathy無語:有些任務(wù)無需那么多思考

0
分享至



機器之心報道

編輯:冷貓

隨著推理大模型和思維鏈的出現(xiàn)與普及,大模型具備了「深度思考」的能力,不同任務(wù)的泛用性得到了很大的提高。

借助思維鏈,大模型能夠?qū)θ蝿?wù)進行深入分析,完成任務(wù)規(guī)劃與拆解,從而勝任長周期、復(fù)雜度高的工作。同時,我們也能更直觀地了解模型的推理與分析過程,從中發(fā)現(xiàn)執(zhí)行環(huán)節(jié)中的問題,并有針對性地調(diào)整指令,以更高效地完成目標(biāo)。

可以說,有了「深度思考」的推理模型,才有了現(xiàn)在擁有多種輔助功能與自主能力的 AI 智能體。

但現(xiàn)在的大模型漸漸有些偏科了。為了構(gòu)建應(yīng)用能力更強的智能體,對長周期的復(fù)雜任務(wù)能力的追求已經(jīng)影響到了大模型的推理模式。

不知道大家在平常使用 AI 工具的時候有沒有發(fā)現(xiàn),打開了深度思考后,一些簡單的任務(wù)也需要很多的思考,展示了非常冗長的思維鏈,而不打開深度思考的時候,又很難準(zhǔn)確的得到想要的回復(fù)。

這種現(xiàn)象越來越明顯了,尤其是當(dāng)大模型進入工作流(例如編碼工作)的時候,其負面效應(yīng)就更加顯著。

這不,AI 領(lǐng)域的大牛 Andrej Karpathy 也感覺到不對勁,發(fā)了長文推來指出這個令人無語的現(xiàn)象。



Karpathy 說,「LLM 在默認(rèn)狀態(tài)下正變得比我日常使用需求更具『自主代理(Agentic)』傾向,甚至有些超出了我的平均使用場景」。

最明顯的的確是編碼任務(wù),模型現(xiàn)在往往會進行較長時間的推理,傾向于在整個代碼庫中列出并搜索(grep)文件,會反復(fù)進行網(wǎng)絡(luò)搜索,對一些在開發(fā)中、且明顯并不完整的代碼里極少出現(xiàn)的邊緣情況過度分析、過度思考,甚至在非常簡單的查詢中,也常常需要幾分鐘后才返回結(jié)果。

尤其是在簡單的任務(wù)中,比如在運行腳本前快速檢查索引錯誤或其他低級錯誤,根本不需要如此復(fù)雜的任務(wù)分析和代碼處理。

因此 Karpathy 不得不經(jīng)常打斷 LLM,并用類似這樣的指令限制它:「停,你想得太多了。只看這一份文件。不要用任何工具。不要過度設(shè)計。

這帶來了很多麻煩,不僅是在編碼任務(wù),我們發(fā)現(xiàn)日常使用 LLM 工具時候的類似打斷情況也越來越多了。

簡單拿剛發(fā)布幾天的 GPT-5 舉個例子,發(fā)布時 OpenAI 顯然意識到深度思考的問題,所以他們強調(diào) GPT-5 是一個集成模型,也就是說,你用它的時候不需要在不同模型之間切換,它會自己決定何時需要深入思考。

但這個問題顯然沒有這么簡單。記得當(dāng)時 GPT-4o 模型的圖像編輯生成功能很好用,但在更新到新模型后就不太一樣了。

我們給了 GPT-5 這個指令:「去除圖中文字,把這張圖變得高清一些,機器人的臉看起來更溫和一些」,希望它能夠調(diào)用圖像編輯的功能。

但結(jié)果它就開始進行「深度思考」了:



經(jīng)過了 38 秒的思考,它考慮了很多細節(jié),但仍然未能開始使用圖像生成功能,導(dǎo)致不得不打斷它的任務(wù)進程。

或許這也是用戶們無比懷念 GPT-4o 的原因之一。

正如 Karpathy 指出的,隨著默認(rèn)模式逐漸向這種「超深度思考」的高代理化狀態(tài)靠攏,我們反而更需要一個相反的選項—— 一種更直接有效的方式去表達或傳達我的意圖和任務(wù)的緊迫程度,從「快速看一眼」到「花 30 分鐘徹底確認(rèn)后再回來」都能精確指定。

網(wǎng)友們也苦「過度思考」久矣,甚至為此回到了最樸素的使用方法。





對于這件事,Karpathy覺得罪魁禍?zhǔn)姿坪跏谴竽P汀?strong>在長周期任務(wù)上進行了大量基準(zhǔn)測試優(yōu)化」,為了在基準(zhǔn)測試上得到更好的成績,LLM的思考就更傾向于長周期的復(fù)雜任務(wù)的實現(xiàn),因此影響了普通任務(wù)的響應(yīng)。



他指出了兩種情境:

1. 我招呼同事過來看我屏幕上打開的一個文件,問他「這樣對嗎?」

2. 我讓某人坐在桌前,他們有 2 個小時來作答。這是一場考試, 風(fēng)險很高。題目是「這樣對嗎?」

人類協(xié)作者能很自然地區(qū)分情境 1 和情境 2。但 LLM 并不知道你問的是 1 還是 2,而隨著時間推移、基準(zhǔn)測試的不斷「極限化」,它會越來越傾向于假設(shè)你問的是情境 2。

這指出了大模型過度思考,復(fù)雜化任務(wù)的可能原因,大模型的發(fā)展不能完全以基準(zhǔn)測試分?jǐn)?shù)作為追求。

關(guān)于大模型的「過度思考」,有相關(guān)經(jīng)歷和想法歡迎在評論區(qū)分享。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特斯拉中國將續(xù)航里程830公里MODEL 3售價下調(diào)至25.95萬元

特斯拉中國將續(xù)航里程830公里MODEL 3售價下調(diào)至25.95萬元

界面新聞
2025-09-01 08:43:58
小米粥再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):常吃小米粥,身體或有4改善

小米粥再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):常吃小米粥,身體或有4改善

泠泠說史
2025-08-28 16:14:53
俄羅斯總統(tǒng)普京乘機抵達天津 出席2025年上合組織峰會

俄羅斯總統(tǒng)普京乘機抵達天津 出席2025年上合組織峰會

新京報
2025-08-31 09:27:39
“萬花叢中一點黑”,大學(xué)舉牌學(xué)姐火了,網(wǎng)友:這個學(xué)院沒人了嗎

“萬花叢中一點黑”,大學(xué)舉牌學(xué)姐火了,網(wǎng)友:這個學(xué)院沒人了嗎

妍妍教育日記
2025-08-29 19:13:08
越扒越有!孟村“蘇妲己”白麗影,對象不止一個金某,腳踏幾條船

越扒越有!孟村“蘇妲己”白麗影,對象不止一個金某,腳踏幾條船

麥大人
2025-08-31 14:36:08
心梗、腦梗、腦出血突發(fā)!記住這3個“黃金求救法”,能救命!

心梗、腦梗、腦出血突發(fā)!記住這3個“黃金求救法”,能救命!

孟大夫之家1
2025-08-26 20:00:38
成都車展殺瘋了!極氪9X預(yù)售1小時狂賣4.2萬臺,47.99萬起太香了

成都車展殺瘋了!極氪9X預(yù)售1小時狂賣4.2萬臺,47.99萬起太香了

聊聊車生活
2025-08-30 21:40:24
39歲恩施富豪付君銳去世,疑因壓力大致心梗,多才多藝有勞斯萊斯

39歲恩施富豪付君銳去世,疑因壓力大致心梗,多才多藝有勞斯萊斯

裕豐娛間說
2025-08-31 09:12:48
富士康“賭輸”了!郭臺銘做夢也沒有想到,“制裁”會來的這么快

富士康“賭輸”了!郭臺銘做夢也沒有想到,“制裁”會來的這么快

混沌錄
2025-08-22 18:23:58
51年最差,女排止步16強,趙勇卸任?誰注意賽后表態(tài),獎金曝光

51年最差,女排止步16強,趙勇卸任?誰注意賽后表態(tài),獎金曝光

東球弟
2025-08-31 21:32:49
1932年,一男子摟著兩名原住民美女拍照。兩位美女笑得非常自然

1932年,一男子摟著兩名原住民美女拍照。兩位美女笑得非常自然

百態(tài)人間
2025-08-27 11:24:18
6G+衛(wèi)星導(dǎo)航!六家硬核公司誰才是“天地互聯(lián)”真龍頭?

6G+衛(wèi)星導(dǎo)航!六家硬核公司誰才是“天地互聯(lián)”真龍頭?

林子說事
2025-08-31 21:27:56
金正恩還沒到,首位觀禮閱兵的巨頭抵華,規(guī)格極高,中方通告全球

金正恩還沒到,首位觀禮閱兵的巨頭抵華,規(guī)格極高,中方通告全球

凡知
2025-08-30 15:10:45
窮人突然有錢后能揮霍到什么程度?網(wǎng)友:暴富后的膨脹太可怕了!

窮人突然有錢后能揮霍到什么程度?網(wǎng)友:暴富后的膨脹太可怕了!

特約前排觀眾
2025-07-11 00:05:10
一損俱損!衛(wèi)星圖像顯示俄控克里米亞地區(qū)多架俄軍直升機遭摧毀

一損俱損!衛(wèi)星圖像顯示俄控克里米亞地區(qū)多架俄軍直升機遭摧毀

軍迷戰(zhàn)情室
2025-08-31 18:20:05
危險堪比核彈,需中國幫忙監(jiān)控,薩雷茲湖為何令中亞四國膽戰(zhàn)心驚

危險堪比核彈,需中國幫忙監(jiān)控,薩雷茲湖為何令中亞四國膽戰(zhàn)心驚

貓咪紀(jì)實說
2025-08-26 14:09:12
黃紫昌亮相蘇超或引爆更大爭議 中國足協(xié)該不該管?這是根導(dǎo)火索!

黃紫昌亮相蘇超或引爆更大爭議 中國足協(xié)該不該管?這是根導(dǎo)火索!

勁爆體壇
2025-08-31 08:28:16
廣東79-77險勝!張文逸26分,杜鋒重點贊賞2小將,球員數(shù)據(jù)出爐

廣東79-77險勝!張文逸26分,杜鋒重點贊賞2小將,球員數(shù)據(jù)出爐

老吳說體育
2025-09-01 00:40:53
重慶廳官藍慶華被查,今年1月當(dāng)選市政協(xié)秘書長

重慶廳官藍慶華被查,今年1月當(dāng)選市政協(xié)秘書長

澎湃新聞
2025-08-31 19:58:28
白宮官員抱怨歐洲阻礙結(jié)束俄烏沖突,“特朗普正考慮暫時退出外交斡旋”

白宮官員抱怨歐洲阻礙結(jié)束俄烏沖突,“特朗普正考慮暫時退出外交斡旋”

環(huán)球網(wǎng)資訊
2025-09-01 06:43:48
2025-09-01 09:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11188文章數(shù) 142430關(guān)注度
往期回顧 全部

科技要聞

百度19億美元天價收購將成歷史:91助手全面停服

頭條要聞

牛彈琴:中國最高領(lǐng)導(dǎo)人會見莫迪 說的三句話意味深長

頭條要聞

牛彈琴:中國最高領(lǐng)導(dǎo)人會見莫迪 說的三句話意味深長

體育要聞

破2億身家!莎拉波娃的"勝負腦"

娛樂要聞

胡歌是永遠都不會離婚的,原因很簡單

財經(jīng)要聞

個人消費貸款貼息開閘!多家銀行提前預(yù)熱

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

健康
教育
數(shù)碼
公開課
軍事航空

精神科專家解答學(xué)習(xí)困難七大問題

教育要聞

單位換了新校長,宣布三項新規(guī)定,贏得老師們熱烈的掌聲

數(shù)碼要聞

菲律賓前市長采購16臺i7-11700電腦花17.5萬美元,實際市場價僅7%

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

哈馬斯證實其軍事領(lǐng)導(dǎo)人辛瓦爾已死亡

無障礙瀏覽 進入關(guān)懷版