成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

研究人員提出OThink-R1,讓大模型自行決定是否需要深度思考

0
分享至

近日,浙江大學(xué)碩士生張盛佳和所在團(tuán)隊(duì)發(fā)現(xiàn):深度推理模型的部分推理過程是不必要的。一方面,目前的深度推理模型在面對一些例如“1+1=?”的簡單問題時,也需要大費(fèi)周章地進(jìn)行深度思考。而人類在面對諸如此類的簡單問題時,往往能夠憑直覺給出答案;另一方面,在一些簡單任務(wù)上(例如,常識問答和小學(xué)生數(shù)學(xué)題),即使不具有深度推理能力的大模型也能取得較好的效果。本次研究基于所觀察到的現(xiàn)象提出了一種解決方案,使得深度推理大模型在解決問題時,能夠自行決定是否進(jìn)行深度思考,有利于計(jì)算資源更加合理的分配,提升大模型的推理效率。


圖 | 張盛佳(來源:張盛佳)

據(jù)介紹,受限于數(shù)據(jù)與算力的規(guī)模,預(yù)訓(xùn)練以 Transformer 為基礎(chǔ)架構(gòu)的大模型所帶來的收益正在不斷式微。那么,該如何進(jìn)一步提升大模型的能力?近來,以 DeepSeek-R1、OpenAI o1 為代表的深度推理大模型突破了預(yù)訓(xùn)練 Scaling Law 的限制,通過增加測試時計(jì)算資源的投入,在多種復(fù)雜任務(wù)上取得了優(yōu)異的效果。與非深度推理大模型相比,深度推理大模型通過模仿人類進(jìn)行深度思考,能夠更加準(zhǔn)確地理解用戶的需求,更加深入地分析用戶提出的問題。

然而,目前的深度推理大模型面臨嚴(yán)重的冗余思考問題:即使面對例如“1+1=?”這樣的簡單問題,深度推理大模型也需要進(jìn)行長時間的思考,造成了計(jì)算資源的浪費(fèi)。

實(shí)際上,人類的思考模式可以分為“根據(jù)直覺得出答案”的快思考和“進(jìn)行深入分析得出答案”的慢思考。在面臨一些簡單的問題時,人類往往能夠通過直覺直接給出答案。


圖 | OThink-R1 主體框架(來源:張盛佳)

受到人類思考模式的啟發(fā),該團(tuán)隊(duì)提出了這樣一個問題:如何賦予深度推理大模型自動切換快慢思考的能力,自行決定是否需要進(jìn)行深度思考,從而更加合理地利用計(jì)算資源?

針對該問題,他們提出了一種創(chuàng)新性解決方案。具體來說,本研究首先對非推理模型(模仿人類快思考,直接給出答案)和深度推理模型在簡單任務(wù)(例如,常識問答和小學(xué)生數(shù)學(xué)題)上均成功解決的問題進(jìn)行統(tǒng)計(jì),收集這類問題上深度推理模型的推理思維鏈。通過大量比較推理思維鏈的異同,本研究總結(jié)出“必要推理”和“冗余推理”的多條特征,并根據(jù)此將深度推理思維鏈分類為必要推理和冗余推理,將冗余推理中的深度推理部分刪除,構(gòu)成一批混合推理思維鏈數(shù)據(jù)集。最后,基于該數(shù)據(jù)集對深度推理模型進(jìn)行監(jiān)督微調(diào),賦予深度推理模型自動切換快慢思考的能力。

因此,本研究對實(shí)現(xiàn)“Test-time Scaling Law”具有十分重要的意義,其賦予了深度推理大模型自動切換快慢思考的能力,使得模型能夠更加合理的分配計(jì)算資源。因此,模型能夠通過內(nèi)部知識直接給出一些簡單問題的答案,也能夠開啟深度思考,細(xì)致地分析一些困難的問題。

據(jù)介紹,本次研究項(xiàng)目是 OPPO 與浙江大學(xué)聯(lián)合攻關(guān)課題之一。受年初 DeepSeek-R1 一系列研究的啟發(fā),該團(tuán)隊(duì)嘗試著來探索 DeepSeek-R1 模型的相關(guān)性質(zhì)。如前所述,他們發(fā)現(xiàn)在使用 DeepSeek-R1 模型時,即使問很簡單的問題,例如“1+1=?”或者“請幫我修改我的作業(yè)”之類的問題,也會生成特別長的思維鏈。這實(shí)際上是不必要的,不僅增長用戶等待時間,還會浪費(fèi)計(jì)算資源。

在研究初期,最困擾該團(tuán)隊(duì)的是如何設(shè)計(jì)穩(wěn)定的模型輸出結(jié)果驗(yàn)證器。一方面,他們發(fā)現(xiàn) DeepSeek-R1 這類模型,遵循指令的能力不夠優(yōu)秀。這就導(dǎo)致模型推理的結(jié)果不具有特定的格式,加大了提取模型結(jié)果的難度。

另一方面,該團(tuán)隊(duì)自己構(gòu)建了許多模型的輸出結(jié)果驗(yàn)證器,但是這些結(jié)果驗(yàn)證器沒有很好地考慮各種輸出結(jié)果的風(fēng)格,十分不穩(wěn)定。有時會出現(xiàn)模型回答是正確的,但是并未正確地提取模型的答案?;蛘咛崛〉藉e誤的模型答案導(dǎo)致無法正確地評估各個模型的效果,以及無法正確地評估該團(tuán)隊(duì)所提出方法的效果。

在這個問題解決之后,該團(tuán)隊(duì)最初始的方案是想基于 GRPO 算法,利用強(qiáng)化學(xué)習(xí)的方式去激發(fā)出模型快慢思考的能力。然而,DeepSeek-R1 這一類模型指令遵循能力差,該團(tuán)隊(duì)設(shè)計(jì)了許多 prompt,都無法在訓(xùn)練的初期讓模型輸出跳過深度思考過程的回答。于是該團(tuán)隊(duì)轉(zhuǎn)向設(shè)計(jì)獎勵函數(shù),期望能夠通過設(shè)計(jì)一類特殊的獎勵函數(shù),讓模型的思考過程長度首先降為 0,然后慢慢增長。經(jīng)過該團(tuán)隊(duì)多次嘗試,該團(tuán)隊(duì)設(shè)計(jì)了一類在理論上能夠達(dá)到該效果的獎勵函數(shù),但是經(jīng)過多次嘗試,該獎勵函數(shù)在實(shí)際中并未達(dá)到該團(tuán)隊(duì)的目標(biāo)效果。

這個時候該團(tuán)隊(duì)嘗試著使用 DPO 算法,將快思考的回答作為正樣本,慢思考的回答作為負(fù)樣本,進(jìn)行模型訓(xùn)練。該團(tuán)隊(duì)進(jìn)行了許多實(shí)驗(yàn),DPO 效果極其不穩(wěn)定,訓(xùn)練出的模型均表現(xiàn)出效果大幅下降。在閱讀相關(guān)文獻(xiàn)后,該團(tuán)隊(duì)發(fā)現(xiàn),DPO 這類算法不適合分布劇烈變化的情況。于是最后該團(tuán)隊(duì)嘗試使用監(jiān)督微調(diào)的方式,進(jìn)行模型的訓(xùn)練。具體做法是,收集訓(xùn)練集上推理模型的正確回答,刪除這其中非推理模型也能解決的問題上推理模型的深度思考過程,使用監(jiān)督微調(diào)進(jìn)行訓(xùn)練。這個方案在初期取得了相比于之前兩個方案更優(yōu)的效果:模型性能不會大幅下降,同時模型能夠開始自行決定是否思考。

然而,該團(tuán)隊(duì)發(fā)現(xiàn),這個方案仍然無法很好地遷移到其他場景下,仍然會造成模型性能的大幅降低。于是該團(tuán)隊(duì)開始考慮,是否在非推理模型能夠解決的問題上,模型的一部分深度思考過程也是必要的。從這個想法出發(fā),該團(tuán)隊(duì)開始利用大模型對深度思考過程進(jìn)行分類,將其分類為有效思考和冗余思考,重新構(gòu)造數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)。最終,在這個方案下,該團(tuán)隊(duì)做出了比較好的效果。盡管該團(tuán)隊(duì)的研究已經(jīng)賦予了推理大語言模型自動切換快慢思考的能力,但目前 OThink-R1 還依賴大模型 LLM-Judge 來判斷推理冗余。未來該團(tuán)隊(duì)期望繼續(xù)深入研究,以端到端的方式來賦予模型自動切換快慢思考的能力。

參考資料:

標(biāo)題:OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

作者:Shengjia Zhang (Zhejiang University), Junjie Wu (OPPO Research Institute), Jiawei Chen (Zhejiang University), Changwang Zhang (OPPO Research Institute), Xingyu Lou (OPPO Research Institute), Wangchunshu Zhou (OPPO Research Institute), Sheng Zhou (Zhejiang University), Can Wang (Zhejiang University), Jun Wang (OPPO Research Institute)

鏈接: https://arxiv.org/abs/2506.02397

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2026年新農(nóng)合繳費(fèi)即將開始,財(cái)政補(bǔ)貼700元,年滿60歲的能免繳嗎

2026年新農(nóng)合繳費(fèi)即將開始,財(cái)政補(bǔ)貼700元,年滿60歲的能免繳嗎

花心電影
2025-09-03 08:43:02
護(hù)士跑馬拉松后續(xù):目前未上班,兩位同事發(fā)聲,多年付出成笑話

護(hù)士跑馬拉松后續(xù):目前未上班,兩位同事發(fā)聲,多年付出成笑話

小嵩
2025-09-02 14:34:04
姚明受邀參加九三閱兵!2米26太顯眼,與霍啟剛同框,郭晶晶沒來

姚明受邀參加九三閱兵!2米26太顯眼,與霍啟剛同框,郭晶晶沒來

行舟問茶
2025-09-03 10:37:08
劉強(qiáng)東還是好福氣的,娶到章澤天,她生完三胎后,歸來還是少女

劉強(qiáng)東還是好福氣的,娶到章澤天,她生完三胎后,歸來還是少女

動物奇奇怪怪
2025-09-03 13:10:07
馬筱梅承認(rèn)懷孕,談與汪小菲相處細(xì)節(jié)活得通透,汪小菲很黏馬筱梅

馬筱梅承認(rèn)懷孕,談與汪小菲相處細(xì)節(jié)活得通透,汪小菲很黏馬筱梅

娛圈小愚
2025-09-02 14:53:55
癌其實(shí)就是一團(tuán)痰和瘀!記住3個千金不換的“腫瘤天然克星”,化痰散結(jié),逼退癌細(xì)胞,不用多花一分錢!

癌其實(shí)就是一團(tuán)痰和瘀!記住3個千金不換的“腫瘤天然克星”,化痰散結(jié),逼退癌細(xì)胞,不用多花一分錢!

腫瘤科王紅軍
2025-09-02 10:56:44
特斯拉,重磅發(fā)布!

特斯拉,重磅發(fā)布!

魯中晨報(bào)
2025-09-03 07:03:08
釋永信事件大反轉(zhuǎn):有多位名人發(fā)聲力挺,究竟是真情還是假面?

釋永信事件大反轉(zhuǎn):有多位名人發(fā)聲力挺,究竟是真情還是假面?

詩意世界
2025-09-02 11:41:49
曼谷再現(xiàn)大規(guī)模集會,群眾怒吼“拒絕為泰黨”!政治鬧劇何時收場

曼谷再現(xiàn)大規(guī)模集會,群眾怒吼“拒絕為泰黨”!政治鬧劇何時收場

瞻史
2025-09-02 22:49:02
屢教不改,多次被罰,東莞市莞番高速公路有限公司因違法建設(shè)被罰

屢教不改,多次被罰,東莞市莞番高速公路有限公司因違法建設(shè)被罰

齊魯壹點(diǎn)
2025-09-03 11:58:26
特朗普等了2天,中方回應(yīng)8個字,五角大樓下禁令,不許聘用中國人

特朗普等了2天,中方回應(yīng)8個字,五角大樓下禁令,不許聘用中國人

議紀(jì)史
2025-09-03 12:50:03
悶聲干大事兒,杜江曬特殊“請柬”,霍思燕這不得“吹”一輩子?

悶聲干大事兒,杜江曬特殊“請柬”,霍思燕這不得“吹”一輩子?

深析古今
2025-09-03 10:25:06
媒體人:維爾茨和伊薩克增加利物浦工資負(fù)擔(dān),或許薩拉赫進(jìn)入離隊(duì)倒計(jì)時

媒體人:維爾茨和伊薩克增加利物浦工資負(fù)擔(dān),或許薩拉赫進(jìn)入離隊(duì)倒計(jì)時

雷速體育
2025-09-03 04:51:17
奚夢瑤何猷君:6年婚姻,正式解綁。

奚夢瑤何猷君:6年婚姻,正式解綁。

LULU生活家
2025-08-30 18:05:01
王霜受邀觀看閱兵式:很榮幸,深受鼓舞,感恩時代

王霜受邀觀看閱兵式:很榮幸,深受鼓舞,感恩時代

懂球帝
2025-09-03 12:43:51
娃哈哈宗澤后認(rèn)親突變,103歲老母一錘定音,宗馥莉繼承穩(wěn)坐

娃哈哈宗澤后認(rèn)親突變,103歲老母一錘定音,宗馥莉繼承穩(wěn)坐

花心電影
2025-08-30 21:23:30
跟著中方走準(zhǔn)沒錯,巴方?jīng)Q定放下34年恩怨,和中方一好友握手言和

跟著中方走準(zhǔn)沒錯,巴方?jīng)Q定放下34年恩怨,和中方一好友握手言和

愛下廚的阿釃
2025-09-03 04:55:49
從9.5分到0.1分,從國漫頂流到擺爛,斗破蒼穹是怎么走向毀滅的?

從9.5分到0.1分,從國漫頂流到擺爛,斗破蒼穹是怎么走向毀滅的?

落星荷動漫
2025-09-01 21:40:37
烏克蘭收復(fù)頓涅茨克的新經(jīng)濟(jì)鎮(zhèn)!連接紅軍村戰(zhàn)略要地

烏克蘭收復(fù)頓涅茨克的新經(jīng)濟(jì)鎮(zhèn)!連接紅軍村戰(zhàn)略要地

項(xiàng)鵬飛
2025-09-02 17:44:02
齊魯銀行行長張華年齡不小已滿59歲 離法定退休年齡只有1年

齊魯銀行行長張華年齡不小已滿59歲 離法定退休年齡只有1年

運(yùn)營商財(cái)經(jīng)網(wǎng)
2025-09-03 11:07:21
2025-09-03 13:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
15591文章數(shù) 514041關(guān)注度
往期回顧 全部

科技要聞

谷歌搜索反壟斷案宣判:Chrome保住了

頭條要聞

游客從西安趕到北京看閱兵 稱看到戰(zhàn)機(jī)編隊(duì)"這趟值了"

頭條要聞

游客從西安趕到北京看閱兵 稱看到戰(zhàn)機(jī)編隊(duì)"這趟值了"

體育要聞

從山西到達(dá)拉斯,李月汝與她的籃球野心

娛樂要聞

謝霆鋒與王菲vs張柏芝合影 對比明顯

財(cái)經(jīng)要聞

黃金新一波漲勢來了!這輪能下場嗎?

汽車要聞

帶激光雷達(dá)的純電小型SUV 長安啟源全新Q05配色曝光

態(tài)度原創(chuàng)

游戲
房產(chǎn)
藝術(shù)
公開課
軍事航空

《餓狼傳說》不知火舞高端雕像 清涼裝性感無雙

房產(chǎn)要聞

海南樓市,最新榜單發(fā)布!有盤單月狂賣11.7億!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

九三盛大閱兵全程回顧

無障礙瀏覽 進(jìn)入關(guān)懷版