研究背景與方法
蘋果公司于2025年8月25日發(fā)布的最新研究表明,采用"檢查清單反饋強(qiáng)化學(xué)習(xí)(RLCF)"方法能有效提升大語言模型(LLM)的指令遵循能力。該研究通過將用戶指令轉(zhuǎn)化為具體檢查項(xiàng)(如"是否翻譯成西班牙語"),由更強(qiáng)大的教師模型對(duì)回答進(jìn)行0-100分評(píng)分,以此優(yōu)化學(xué)生模型的性能表現(xiàn)。
顯著性能提升
在五項(xiàng)基準(zhǔn)測(cè)試中,采用RLCF方法的開源模型Qwen2.5-7B-Instruct均取得突破:FollowBench測(cè)試的硬滿意度提升4個(gè)百分點(diǎn),InFoBench提高6個(gè)百分點(diǎn),Arena-Hard勝率上升3個(gè)百分點(diǎn)。其中一項(xiàng)測(cè)試甚至實(shí)現(xiàn)8.2%的性能增益,表現(xiàn)優(yōu)于傳統(tǒng)人工反饋強(qiáng)化學(xué)習(xí)(RLHF)方法。
應(yīng)用前景與局限
該技術(shù)特別適用于未來AI助手的復(fù)雜指令處理場(chǎng)景,但研究者指出其存在三點(diǎn)局限:僅針對(duì)復(fù)雜指令優(yōu)化、需依賴更強(qiáng)模型作為評(píng)判者、未涉及安全對(duì)齊功能。這項(xiàng)成果為提升人機(jī)交互可靠性提供了新思路,相關(guān)論文《檢查清單優(yōu)于獎(jiǎng)勵(lì)模型》已公開發(fā)表。
(消息來源:9to5Mac,2025年8月25日?qǐng)?bào)道)
參考鏈接:
https://9to5mac.com/2025/08/25/apple-study-shows-llms-also-benefit-from-the-oldest-productivity-trick-in-the-book/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.