研究人員提出OThink-R1，讓大模型自行決定是否需要深度思考

2025-09-01 22:41:23　來源: DeepTech深科技

北京舉報(bào)

分享至

近日，浙江大學(xué)碩士生張盛佳和所在團(tuán)隊(duì)發(fā)現(xiàn)：深度推理模型的部分推理過程是不必要的。一方面，目前的深度推理模型在面對一些例如“1+1=？”的簡單問題時，也需要大費(fèi)周章地進(jìn)行深度思考。而人類在面對諸如此類的簡單問題時，往往能夠憑直覺給出答案；另一方面，在一些簡單任務(wù)上（例如，常識問答和小學(xué)生數(shù)學(xué)題），即使不具有深度推理能力的大模型也能取得較好的效果。本次研究基于所觀察到的現(xiàn)象提出了一種解決方案，使得深度推理大模型在解決問題時，能夠自行決定是否進(jìn)行深度思考，有利于計(jì)算資源更加合理的分配，提升大模型的推理效率。

圖 | 張盛佳（來源：張盛佳）

據(jù)介紹，受限于數(shù)據(jù)與算力的規(guī)模，預(yù)訓(xùn)練以 Transformer 為基礎(chǔ)架構(gòu)的大模型所帶來的收益正在不斷式微。那么，該如何進(jìn)一步提升大模型的能力？近來，以 DeepSeek-R1、OpenAI o1 為代表的深度推理大模型突破了預(yù)訓(xùn)練 Scaling Law 的限制，通過增加測試時計(jì)算資源的投入，在多種復(fù)雜任務(wù)上取得了優(yōu)異的效果。與非深度推理大模型相比，深度推理大模型通過模仿人類進(jìn)行深度思考，能夠更加準(zhǔn)確地理解用戶的需求，更加深入地分析用戶提出的問題。

然而，目前的深度推理大模型面臨嚴(yán)重的冗余思考問題：即使面對例如“1+1=?”這樣的簡單問題，深度推理大模型也需要進(jìn)行長時間的思考，造成了計(jì)算資源的浪費(fèi)。

實(shí)際上，人類的思考模式可以分為“根據(jù)直覺得出答案”的快思考和“進(jìn)行深入分析得出答案”的慢思考。在面臨一些簡單的問題時，人類往往能夠通過直覺直接給出答案。

圖 | OThink-R1 主體框架（來源：張盛佳）

受到人類思考模式的啟發(fā)，該團(tuán)隊(duì)提出了這樣一個問題：如何賦予深度推理大模型自動切換快慢思考的能力，自行決定是否需要進(jìn)行深度思考，從而更加合理地利用計(jì)算資源？

針對該問題，他們提出了一種創(chuàng)新性解決方案。具體來說，本研究首先對非推理模型（模仿人類快思考，直接給出答案）和深度推理模型在簡單任務(wù)（例如，常識問答和小學(xué)生數(shù)學(xué)題）上均成功解決的問題進(jìn)行統(tǒng)計(jì)，收集這類問題上深度推理模型的推理思維鏈。通過大量比較推理思維鏈的異同，本研究總結(jié)出“必要推理”和“冗余推理”的多條特征，并根據(jù)此將深度推理思維鏈分類為必要推理和冗余推理，將冗余推理中的深度推理部分刪除，構(gòu)成一批混合推理思維鏈數(shù)據(jù)集。最后，基于該數(shù)據(jù)集對深度推理模型進(jìn)行監(jiān)督微調(diào)，賦予深度推理模型自動切換快慢思考的能力。

因此，本研究對實(shí)現(xiàn)“Test-time Scaling Law”具有十分重要的意義，其賦予了深度推理大模型自動切換快慢思考的能力，使得模型能夠更加合理的分配計(jì)算資源。因此，模型能夠通過內(nèi)部知識直接給出一些簡單問題的答案，也能夠開啟深度思考，細(xì)致地分析一些困難的問題。

據(jù)介紹，本次研究項(xiàng)目是 OPPO 與浙江大學(xué)聯(lián)合攻關(guān)課題之一。受年初 DeepSeek-R1 一系列研究的啟發(fā)，該團(tuán)隊(duì)嘗試著來探索 DeepSeek-R1 模型的相關(guān)性質(zhì)。如前所述，他們發(fā)現(xiàn)在使用 DeepSeek-R1 模型時，即使問很簡單的問題，例如“1+1=？”或者“請幫我修改我的作業(yè)”之類的問題，也會生成特別長的思維鏈。這實(shí)際上是不必要的，不僅增長用戶等待時間，還會浪費(fèi)計(jì)算資源。

在研究初期，最困擾該團(tuán)隊(duì)的是如何設(shè)計(jì)穩(wěn)定的模型輸出結(jié)果驗(yàn)證器。一方面，他們發(fā)現(xiàn) DeepSeek-R1 這類模型，遵循指令的能力不夠優(yōu)秀。這就導(dǎo)致模型推理的結(jié)果不具有特定的格式，加大了提取模型結(jié)果的難度。

另一方面，該團(tuán)隊(duì)自己構(gòu)建了許多模型的輸出結(jié)果驗(yàn)證器，但是這些結(jié)果驗(yàn)證器沒有很好地考慮各種輸出結(jié)果的風(fēng)格，十分不穩(wěn)定。有時會出現(xiàn)模型回答是正確的，但是并未正確地提取模型的答案?；蛘咛崛〉藉e誤的模型答案導(dǎo)致無法正確地評估各個模型的效果，以及無法正確地評估該團(tuán)隊(duì)所提出方法的效果。

在這個問題解決之后，該團(tuán)隊(duì)最初始的方案是想基于 GRPO 算法，利用強(qiáng)化學(xué)習(xí)的方式去激發(fā)出模型快慢思考的能力。然而，DeepSeek-R1 這一類模型指令遵循能力差，該團(tuán)隊(duì)設(shè)計(jì)了許多 prompt，都無法在訓(xùn)練的初期讓模型輸出跳過深度思考過程的回答。于是該團(tuán)隊(duì)轉(zhuǎn)向設(shè)計(jì)獎勵函數(shù)，期望能夠通過設(shè)計(jì)一類特殊的獎勵函數(shù)，讓模型的思考過程長度首先降為 0，然后慢慢增長。經(jīng)過該團(tuán)隊(duì)多次嘗試，該團(tuán)隊(duì)設(shè)計(jì)了一類在理論上能夠達(dá)到該效果的獎勵函數(shù)，但是經(jīng)過多次嘗試，該獎勵函數(shù)在實(shí)際中并未達(dá)到該團(tuán)隊(duì)的目標(biāo)效果。

這個時候該團(tuán)隊(duì)嘗試著使用 DPO 算法，將快思考的回答作為正樣本，慢思考的回答作為負(fù)樣本，進(jìn)行模型訓(xùn)練。該團(tuán)隊(duì)進(jìn)行了許多實(shí)驗(yàn)，DPO 效果極其不穩(wěn)定，訓(xùn)練出的模型均表現(xiàn)出效果大幅下降。在閱讀相關(guān)文獻(xiàn)后，該團(tuán)隊(duì)發(fā)現(xiàn)，DPO 這類算法不適合分布劇烈變化的情況。于是最后該團(tuán)隊(duì)嘗試使用監(jiān)督微調(diào)的方式，進(jìn)行模型的訓(xùn)練。具體做法是，收集訓(xùn)練集上推理模型的正確回答，刪除這其中非推理模型也能解決的問題上推理模型的深度思考過程，使用監(jiān)督微調(diào)進(jìn)行訓(xùn)練。這個方案在初期取得了相比于之前兩個方案更優(yōu)的效果：模型性能不會大幅下降，同時模型能夠開始自行決定是否思考。

然而，該團(tuán)隊(duì)發(fā)現(xiàn)，這個方案仍然無法很好地遷移到其他場景下，仍然會造成模型性能的大幅降低。于是該團(tuán)隊(duì)開始考慮，是否在非推理模型能夠解決的問題上，模型的一部分深度思考過程也是必要的。從這個想法出發(fā)，該團(tuán)隊(duì)開始利用大模型對深度思考過程進(jìn)行分類，將其分類為有效思考和冗余思考，重新構(gòu)造數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)。最終，在這個方案下，該團(tuán)隊(duì)做出了比較好的效果。盡管該團(tuán)隊(duì)的研究已經(jīng)賦予了推理大語言模型自動切換快慢思考的能力，但目前 OThink-R1 還依賴大模型 LLM-Judge 來判斷推理冗余。未來該團(tuán)隊(duì)期望繼續(xù)深入研究，以端到端的方式來賦予模型自動切換快慢思考的能力。

參考資料：

標(biāo)題：OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

作者：Shengjia Zhang (Zhejiang University), Junjie Wu (OPPO Research Institute), Jiawei Chen (Zhejiang University), Changwang Zhang (OPPO Research Institute), Xingyu Lou (OPPO Research Institute), Wangchunshu Zhou (OPPO Research Institute), Sheng Zhou (Zhejiang University), Can Wang (Zhejiang University), Jun Wang (OPPO Research Institute)

鏈接: https://arxiv.org/abs/2506.02397

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.