蘋果新研究：不微調(diào)、不重訓(xùn)，如何讓AI提問效率暴增6.5倍？

2025-09-02 17:46:06　來源: 機器之心Pro

河北舉報

分享至

機器之心報道

編輯：Panda

在這場以大型語言模型（LLM）為核心的 AI 浪潮中，蘋果似乎一直保持著低調(diào)，很少出現(xiàn)在技術(shù)報道的前沿。盡管如此，時不時地，該公司也能拿出一些非常亮眼的研究成果，比如能在 iPhone 上直接運行的高效視覺語言模型FastVLM。

近日，蘋果與牛津大學(xué)和香港城市大學(xué)合作的一項新研究吸引了不少關(guān)注。其中提出了一種名為BED-LLM的新方法，能讓 AI 解決問題的能力直接提升 6.5 倍（成功率從 14% 暴增至 91%），而整個過程無需微調(diào)或重新訓(xùn)練，直接在當前模型上運行即可。

而實現(xiàn)這一突破的關(guān)鍵，便是讓 AI 學(xué)會問出完美的問題。

那么，究竟該如何做到這一點呢？

論文標題：BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design
論文地址：https://arxiv.org/abs/2508.21184

這要從 LLM 的一個不足之處說起，即難以智能且自適應(yīng)的方式主動從用戶或外部環(huán)境中獲取信息。這就像是 LLM 的「多輪遺忘癥」。

具體而言，雖然現(xiàn)代 LLM 通常能夠一次性生成連貫且富有洞察力的問題（或其他外部查詢），但它們通常難以根據(jù)先前在交互式任務(wù)中收集到的答案進行適當?shù)恼{(diào)整。比如，已有研究證明，LLM 在多步猜謎游戲、任務(wù)澄清、IT 任務(wù)自動化以及迭代式外部工具使用等問題上表現(xiàn)不佳。

因此，提高 LLM 自適應(yīng)地提出問題和有針對性地收集信息的能力是很有必要的。

簡單來說，LLM 僅僅基于其龐大的知識庫一次性生成好問題是不夠的。真正的智能體需要能根據(jù)用戶的實時反饋，動態(tài)調(diào)整策略，精準地提出下一個最有價值的問題。

BED-LLM：讓提問成為一門科學(xué)

牛津、蘋果和香港城市大學(xué)的這個聯(lián)合團隊提出，可以使用序貫貝葉斯實驗設(shè)計（Bayesian experimental desig/BED）框架來解決這一問題。

該框架提供了一種基于模型的信息論機制，可用于在給定實驗的生成模型的情況下做出自適應(yīng)設(shè)計決策。

具體而言，該團隊展示了如何將使用 LLM 進行交互式信息收集的問題表述為一個序貫實驗設(shè)計問題，其中有一個迭代過程：

每次選擇要問的問題（query），都要盡量最大化預(yù)期信息增益（Expected Information Gain, EIG）。
根據(jù)用戶的回答更新信念（belief）。
再基于新的信念選擇下一步要問的問題。

這就像科學(xué)實驗：一步步設(shè)計實驗、收集數(shù)據(jù)、更新假設(shè)，而不是一次性問到底。

這里，構(gòu)成序貫 BED 程序的底層生成模型源自 LLM，該團隊特別展示了該模型的構(gòu)建方式，并為關(guān)鍵設(shè)計決策提供了廣泛的見解。

該團隊將這種方法命名為BED-LLM，即Bayesian Experimental Design with Large Language Models。

這種名為 BED-LLM 的方法之所以高效，源于其背后三重智慧的巧妙設(shè)計：

智慧一：追求真正的信息增益，而非表面上的不確定性

過去的方法常常讓 AI 選擇自己「感覺最不確定」的問題，但這并非最優(yōu)解。BED-LLM 的核心是精確計算 EIG，確保問題能帶來最大價值。

論文中一個生動的例子可以說明這一點：假設(shè) AI 想了解你的電影偏好，它有兩個問題可選：

問題 A：「你最喜歡什么口味的冰淇淋？」
問題 B：「你最喜歡哪種電影類型？」

對于問題 A，AI 可能完全猜不到答案（即預(yù)測熵很高），但這個答案對于了解你的電影品味毫無幫助（EIG 為 0）。而問題 B 的答案雖然也不確定，但無論你回答「科幻」還是「喜劇」，都能極大地幫助 AI 縮小猜測范圍，因此它的 EIG 非常高。BED-LLM 正是基于這種原則來選擇問題的。

智慧二：強制邏輯自洽，糾正 LLM 的遺忘癥

研究發(fā)現(xiàn)，即便是 GPT-4o 這樣頂尖的模型，在多輪對話中也常常會忘記之前的約束，提出與歷史回答相矛盾的假設(shè) 。

BED-LLM 引入了先采樣后過濾(sample-then-filter)策略來解決這個問題。

它首先讓 LLM 生成一批可能的答案（例如，在猜名人游戲中生成多個候選人），然后用一個「邏輯過濾器」逐一檢查這些答案是否與用戶之前的所有回答都兼容，將不符合邏輯的選項直接剔除。這確保了 AI 的每一步推理都建立在已知的事實之上。

智慧三：生成問題有的放矢，而非天馬行空

在生成候選問題時，BED-LLM 采用了一種更具針對性的條件生成(Conditional generation)策略。它會先參考當前已經(jīng)過篩選、邏輯自洽的假設(shè)池，然后讓 LLM 提出能夠最高效「切分」這些假設(shè)的問題。這使得提問從一開始就目標明確，直指核心。

結(jié)果如何？

為了驗證 BED-LLM 的效果，研究團隊將其與兩種主流基準進行了對比：

Naive QA：完全依賴 LLM 的「直覺」來提問。
Entropy：采用簡化的 EIG 版本，即只考慮預(yù)測不確定性的方法。

結(jié)果顯示，無論是在「20 個問題」猜謎游戲還是電影偏好推薦任務(wù)中，BED-LLM 的表現(xiàn)都全面超越了基準方法。

具體而言，該團隊首先發(fā)現(xiàn)，BED-LLM 在各種 LLM 和目標數(shù)量下，顯著提升了 20 個問題問題的成功率。例如，在使用 Mistral-Large 預(yù)測名人時，該團隊觀察到成功率從 14% 提升至 91%。

其次，該團隊展示了 LLM 在電影推薦方面取得的顯著改進，表明即使 LLM 的預(yù)測模型與回答者的預(yù)測模型不同，這些優(yōu)勢依然有效。

更具現(xiàn)實意義的是，研究團隊還進行了一項「模型跨服聊天」的壓力測試：讓提問的 AI 和回答的 AI 使用完全不同的模型（例如，提問方是 Qwen，回答方是 GPT-4o-mini）。

這種設(shè)置更貼近真實世界，因為用戶的思維模型與 AI 本就不同。即便在這種「模型失配」的情況下，BED-LLM 的性能優(yōu)勢依然穩(wěn)固，展現(xiàn)了其強大的穩(wěn)健性。

總而言之，這項研究為我們展示了如何通過嚴謹?shù)臄?shù)學(xué)框架，將 LLM 從一個被動的知識問答庫，轉(zhuǎn)變?yōu)橐粋€主動、高效、且具備邏輯推理能力的信息收集者。這或許預(yù)示著，未來的 AI 交互將不再是簡單的一問一答，而是真正意義上的「智慧對話」。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.