機器之心報道
編輯:Panda
在這場以大型語言模型(LLM)為核心的 AI 浪潮中,蘋果似乎一直保持著低調(diào),很少出現(xiàn)在技術(shù)報道的前沿。盡管如此,時不時地,該公司也能拿出一些非常亮眼的研究成果,比如能在 iPhone 上直接運行的高效視覺語言模型FastVLM。
近日,蘋果與牛津大學(xué)和香港城市大學(xué)合作的一項新研究吸引了不少關(guān)注。其中提出了一種名為BED-LLM的新方法,能讓 AI 解決問題的能力直接提升 6.5 倍(成功率從 14% 暴增至 91%),而整個過程無需微調(diào)或重新訓(xùn)練,直接在當前模型上運行即可。
而實現(xiàn)這一突破的關(guān)鍵,便是讓 AI 學(xué)會問出完美的問題。
那么,究竟該如何做到這一點呢?
- 論文標題:BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design
- 論文地址:https://arxiv.org/abs/2508.21184
這要從 LLM 的一個不足之處說起,即難以智能且自適應(yīng)的方式主動從用戶或外部環(huán)境中獲取信息。這就像是 LLM 的「多輪遺忘癥」。
具體而言,雖然現(xiàn)代 LLM 通常能夠一次性生成連貫且富有洞察力的問題(或其他外部查詢),但它們通常難以根據(jù)先前在交互式任務(wù)中收集到的答案進行適當?shù)恼{(diào)整。比如,已有研究證明,LLM 在多步猜謎游戲、任務(wù)澄清、IT 任務(wù)自動化以及迭代式外部工具使用等問題上表現(xiàn)不佳。
因此,提高 LLM 自適應(yīng)地提出問題和有針對性地收集信息的能力是很有必要的。
簡單來說,LLM 僅僅基于其龐大的知識庫一次性生成好問題是不夠的。真正的智能體需要能根據(jù)用戶的實時反饋,動態(tài)調(diào)整策略,精準地提出下一個最有價值的問題 。
BED-LLM:讓提問成為一門科學(xué)
牛津、蘋果和香港城市大學(xué)的這個聯(lián)合團隊提出,可以使用序貫貝葉斯實驗設(shè)計(Bayesian experimental desig/BED)框架來解決這一問題。
該框架提供了一種基于模型的信息論機制,可用于在給定實驗的生成模型的情況下做出自適應(yīng)設(shè)計決策。
具體而言,該團隊展示了如何將使用 LLM 進行交互式信息收集的問題表述為一個序貫實驗設(shè)計問題,其中有一個迭代過程:
- 每次選擇要問的問題(query),都要盡量最大化預(yù)期信息增益(Expected Information Gain, EIG)。
- 根據(jù)用戶的回答更新信念(belief)。
- 再基于新的信念選擇下一步要問的問題。
這就像科學(xué)實驗:一步步設(shè)計實驗、收集數(shù)據(jù)、更新假設(shè),而不是一次性問到底。
這里,構(gòu)成序貫 BED 程序的底層生成模型源自 LLM,該團隊特別展示了該模型的構(gòu)建方式,并為關(guān)鍵設(shè)計決策提供了廣泛的見解。
該團隊將這種方法命名為BED-LLM,即Bayesian Experimental Design with Large Language Models。
這種名為 BED-LLM 的方法之所以高效,源于其背后三重智慧的巧妙設(shè)計:
智慧一:追求真正的信息增益,而非表面上的不確定性
過去的方法常常讓 AI 選擇自己「感覺最不確定」的問題,但這并非最優(yōu)解。BED-LLM 的核心是精確計算 EIG,確保問題能帶來最大價值。
論文中一個生動的例子可以說明這一點 :假設(shè) AI 想了解你的電影偏好,它有兩個問題可選:
- 問題 A:「你最喜歡什么口味的冰淇淋?」
- 問題 B:「你最喜歡哪種電影類型?」
對于問題 A,AI 可能完全猜不到答案(即預(yù)測熵很高),但這個答案對于了解你的電影品味毫無幫助(EIG 為 0) 。而問題 B 的答案雖然也不確定,但無論你回答「科幻」還是「喜劇」,都能極大地幫助 AI 縮小猜測范圍,因此它的 EIG 非常高 。BED-LLM 正是基于這種原則來選擇問題的。
智慧二:強制邏輯自洽,糾正 LLM 的遺忘癥
研究發(fā)現(xiàn),即便是 GPT-4o 這樣頂尖的模型,在多輪對話中也常常會忘記之前的約束,提出與歷史回答相矛盾的假設(shè) 。
BED-LLM 引入了先采樣后過濾(sample-then-filter)策略來解決這個問題。
它首先讓 LLM 生成一批可能的答案(例如,在猜名人游戲中生成多個候選人),然后用一個「邏輯過濾器」逐一檢查這些答案是否與用戶之前的所有回答都兼容,將不符合邏輯的選項直接剔除。這確保了 AI 的每一步推理都建立在已知的事實之上。
智慧三:生成問題有的放矢,而非天馬行空
在生成候選問題時,BED-LLM 采用了一種更具針對性的條件生成(Conditional generation)策略 。它會先參考當前已經(jīng)過篩選、邏輯自洽的假設(shè)池,然后讓 LLM 提出能夠最高效「切分」這些假設(shè)的問題 。這使得提問從一開始就目標明確,直指核心。
結(jié)果如何?
為了驗證 BED-LLM 的效果,研究團隊將其與兩種主流基準進行了對比:
- Naive QA:完全依賴 LLM 的「直覺」來提問。
- Entropy:采用簡化的 EIG 版本,即只考慮預(yù)測不確定性的方法 。
結(jié)果顯示,無論是在「20 個問題」猜謎游戲還是電影偏好推薦任務(wù)中,BED-LLM 的表現(xiàn)都全面超越了基準方法 。
具體而言,該團隊首先發(fā)現(xiàn),BED-LLM 在各種 LLM 和目標數(shù)量下,顯著提升了 20 個問題問題的成功率。例如,在使用 Mistral-Large 預(yù)測名人時,該團隊觀察到成功率從 14% 提升至 91%。
其次,該團隊展示了 LLM 在電影推薦方面取得的顯著改進,表明即使 LLM 的預(yù)測模型與回答者的預(yù)測模型不同,這些優(yōu)勢依然有效。
更具現(xiàn)實意義的是,研究團隊還進行了一項「模型跨服聊天」的壓力測試:讓提問的 AI 和回答的 AI 使用完全不同的模型(例如,提問方是 Qwen,回答方是 GPT-4o-mini)。
這種設(shè)置更貼近真實世界,因為用戶的思維模型與 AI 本就不同。即便在這種「模型失配」的情況下,BED-LLM 的性能優(yōu)勢依然穩(wěn)固,展現(xiàn)了其強大的穩(wěn)健性。
總而言之,這項研究為我們展示了如何通過嚴謹?shù)臄?shù)學(xué)框架,將 LLM 從一個被動的知識問答庫,轉(zhuǎn)變?yōu)橐粋€主動、高效、且具備邏輯推理能力的信息收集者。這或許預(yù)示著,未來的 AI 交互將不再是簡單的一問一答,而是真正意義上的「智慧對話」。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.