成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

蘋果新研究:不微調(diào)、不重訓(xùn),如何讓AI提問效率暴增6.5倍?

0
分享至

機器之心報道

編輯:Panda

在這場以大型語言模型(LLM)為核心的 AI 浪潮中,蘋果似乎一直保持著低調(diào),很少出現(xiàn)在技術(shù)報道的前沿。盡管如此,時不時地,該公司也能拿出一些非常亮眼的研究成果,比如能在 iPhone 上直接運行的高效視覺語言模型FastVLM。

近日,蘋果與牛津大學(xué)和香港城市大學(xué)合作的一項新研究吸引了不少關(guān)注。其中提出了一種名為BED-LLM的新方法,能讓 AI 解決問題的能力直接提升 6.5 倍(成功率從 14% 暴增至 91%),而整個過程無需微調(diào)或重新訓(xùn)練,直接在當前模型上運行即可。

而實現(xiàn)這一突破的關(guān)鍵,便是讓 AI 學(xué)會問出完美的問題。



那么,究竟該如何做到這一點呢?



  • 論文標題:BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design
  • 論文地址:https://arxiv.org/abs/2508.21184

這要從 LLM 的一個不足之處說起,即難以智能且自適應(yīng)的方式主動從用戶或外部環(huán)境中獲取信息。這就像是 LLM 的「多輪遺忘癥」。

具體而言,雖然現(xiàn)代 LLM 通常能夠一次性生成連貫且富有洞察力的問題(或其他外部查詢),但它們通常難以根據(jù)先前在交互式任務(wù)中收集到的答案進行適當?shù)恼{(diào)整。比如,已有研究證明,LLM 在多步猜謎游戲、任務(wù)澄清、IT 任務(wù)自動化以及迭代式外部工具使用等問題上表現(xiàn)不佳。

因此,提高 LLM 自適應(yīng)地提出問題和有針對性地收集信息的能力是很有必要的。

簡單來說,LLM 僅僅基于其龐大的知識庫一次性生成好問題是不夠的。真正的智能體需要能根據(jù)用戶的實時反饋,動態(tài)調(diào)整策略,精準地提出下一個最有價值的問題 。

BED-LLM:讓提問成為一門科學(xué)

牛津、蘋果和香港城市大學(xué)的這個聯(lián)合團隊提出,可以使用序貫貝葉斯實驗設(shè)計(Bayesian experimental desig/BED)框架來解決這一問題。

該框架提供了一種基于模型的信息論機制,可用于在給定實驗的生成模型的情況下做出自適應(yīng)設(shè)計決策。

具體而言,該團隊展示了如何將使用 LLM 進行交互式信息收集的問題表述為一個序貫實驗設(shè)計問題,其中有一個迭代過程:

  • 每次選擇要問的問題(query),都要盡量最大化預(yù)期信息增益(Expected Information Gain, EIG)。
  • 根據(jù)用戶的回答更新信念(belief)。
  • 再基于新的信念選擇下一步要問的問題。

這就像科學(xué)實驗:一步步設(shè)計實驗、收集數(shù)據(jù)、更新假設(shè),而不是一次性問到底。

這里,構(gòu)成序貫 BED 程序的底層生成模型源自 LLM,該團隊特別展示了該模型的構(gòu)建方式,并為關(guān)鍵設(shè)計決策提供了廣泛的見解。

該團隊將這種方法命名為BED-LLM,即Bayesian Experimental Design with Large Language Models。

這種名為 BED-LLM 的方法之所以高效,源于其背后三重智慧的巧妙設(shè)計:

智慧一:追求真正的信息增益,而非表面上的不確定性

過去的方法常常讓 AI 選擇自己「感覺最不確定」的問題,但這并非最優(yōu)解。BED-LLM 的核心是精確計算 EIG,確保問題能帶來最大價值。

論文中一個生動的例子可以說明這一點 :假設(shè) AI 想了解你的電影偏好,它有兩個問題可選:

  • 問題 A:「你最喜歡什么口味的冰淇淋?」
  • 問題 B:「你最喜歡哪種電影類型?」



對于問題 A,AI 可能完全猜不到答案(即預(yù)測熵很高),但這個答案對于了解你的電影品味毫無幫助(EIG 為 0) 。而問題 B 的答案雖然也不確定,但無論你回答「科幻」還是「喜劇」,都能極大地幫助 AI 縮小猜測范圍,因此它的 EIG 非常高 。BED-LLM 正是基于這種原則來選擇問題的。

智慧二:強制邏輯自洽,糾正 LLM 的遺忘癥

研究發(fā)現(xiàn),即便是 GPT-4o 這樣頂尖的模型,在多輪對話中也常常會忘記之前的約束,提出與歷史回答相矛盾的假設(shè) 。

BED-LLM 引入了先采樣后過濾(sample-then-filter)策略來解決這個問題。

它首先讓 LLM 生成一批可能的答案(例如,在猜名人游戲中生成多個候選人),然后用一個「邏輯過濾器」逐一檢查這些答案是否與用戶之前的所有回答都兼容,將不符合邏輯的選項直接剔除。這確保了 AI 的每一步推理都建立在已知的事實之上。

智慧三:生成問題有的放矢,而非天馬行空

在生成候選問題時,BED-LLM 采用了一種更具針對性的條件生成(Conditional generation)策略 。它會先參考當前已經(jīng)過篩選、邏輯自洽的假設(shè)池,然后讓 LLM 提出能夠最高效「切分」這些假設(shè)的問題 。這使得提問從一開始就目標明確,直指核心。



結(jié)果如何?

為了驗證 BED-LLM 的效果,研究團隊將其與兩種主流基準進行了對比:

  • Naive QA:完全依賴 LLM 的「直覺」來提問。
  • Entropy:采用簡化的 EIG 版本,即只考慮預(yù)測不確定性的方法 。

結(jié)果顯示,無論是在「20 個問題」猜謎游戲還是電影偏好推薦任務(wù)中,BED-LLM 的表現(xiàn)都全面超越了基準方法 。

具體而言,該團隊首先發(fā)現(xiàn),BED-LLM 在各種 LLM 和目標數(shù)量下,顯著提升了 20 個問題問題的成功率。例如,在使用 Mistral-Large 預(yù)測名人時,該團隊觀察到成功率從 14% 提升至 91%。



其次,該團隊展示了 LLM 在電影推薦方面取得的顯著改進,表明即使 LLM 的預(yù)測模型與回答者的預(yù)測模型不同,這些優(yōu)勢依然有效。



更具現(xiàn)實意義的是,研究團隊還進行了一項「模型跨服聊天」的壓力測試:讓提問的 AI 和回答的 AI 使用完全不同的模型(例如,提問方是 Qwen,回答方是 GPT-4o-mini)。

這種設(shè)置更貼近真實世界,因為用戶的思維模型與 AI 本就不同。即便在這種「模型失配」的情況下,BED-LLM 的性能優(yōu)勢依然穩(wěn)固,展現(xiàn)了其強大的穩(wěn)健性。



總而言之,這項研究為我們展示了如何通過嚴謹?shù)臄?shù)學(xué)框架,將 LLM 從一個被動的知識問答庫,轉(zhuǎn)變?yōu)橐粋€主動、高效、且具備邏輯推理能力的信息收集者。這或許預(yù)示著,未來的 AI 交互將不再是簡單的一問一答,而是真正意義上的「智慧對話」。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
不僅華為要謝,中國更要感謝梁孟松!為中國芯片竟放棄上億年薪!

不僅華為要謝,中國更要感謝梁孟松!為中國芯片竟放棄上億年薪!

青青子衿
2025-09-02 04:12:58
汪峰被嘲,一博主發(fā)圖問:開演唱會都不照鏡子嗎?沒有造型師嗎?

汪峰被嘲,一博主發(fā)圖問:開演唱會都不照鏡子嗎?沒有造型師嗎?

萱小蕾o
2025-09-02 12:25:32
廣東一公司宣布全員放假一天看閱兵,9月18日還組織免費看電影《731》,工作人員:不是作秀

廣東一公司宣布全員放假一天看閱兵,9月18日還組織免費看電影《731》,工作人員:不是作秀

極目新聞
2025-09-02 17:47:35
黑河小學(xué)開學(xué)迎來大批俄羅斯學(xué)生,校方:共接收16名留學(xué)生,用漢語教學(xué)

黑河小學(xué)開學(xué)迎來大批俄羅斯學(xué)生,校方:共接收16名留學(xué)生,用漢語教學(xué)

極目新聞
2025-09-02 18:14:42
11歲熊孩子按門鈴?fù)鎼鹤鲃”秽従訕寭羯硗觯【阶C實:男童身中“數(shù)槍”

11歲熊孩子按門鈴?fù)鎼鹤鲃”秽従訕寭羯硗觯【阶C實:男童身中“數(shù)槍”

都市快報橙柿互動
2025-09-02 07:50:59
趙今麥居然也穿絲襪了,而且還是油絲 真性感啊

趙今麥居然也穿絲襪了,而且還是油絲 真性感啊

鄉(xiāng)野小珥
2025-09-02 17:07:55
全澳大爆發(fā)!華人紛紛關(guān)店避難!中國留學(xué)生“別出門”!

全澳大爆發(fā)!華人紛紛關(guān)店避難!中國留學(xué)生“別出門”!

深度報
2025-09-01 22:15:15
印度總理莫迪訪華“親中親俄”?美白宮顧問破防了

印度總理莫迪訪華“親中親俄”?美白宮顧問破防了

看看新聞Knews
2025-09-02 21:15:03
誰的鋪位誰做主?女子理直氣壯要求換鋪,網(wǎng)友評論一針見血

誰的鋪位誰做主?女子理直氣壯要求換鋪,網(wǎng)友評論一針見血

法老不說教
2025-09-02 18:11:05
地下捐精有多亂:女子被約到賓館,捐精者:直接發(fā)生關(guān)系只收800

地下捐精有多亂:女子被約到賓館,捐精者:直接發(fā)生關(guān)系只收800

就一點
2025-09-02 16:17:03
特朗普,突發(fā)!深夜,暴跌!

特朗普,突發(fā)!深夜,暴跌!

數(shù)據(jù)寶
2025-09-02 07:43:47
金某在里面什么都招了,瑤瑤身上疑似檢出鎮(zhèn)定劑成分,真相太可怕

金某在里面什么都招了,瑤瑤身上疑似檢出鎮(zhèn)定劑成分,真相太可怕

魔都姐姐雜談
2025-09-02 13:38:13
全線大跳水!股債匯三殺

全線大跳水!股債匯三殺

中國基金報
2025-09-02 17:46:19
騎電瓶車帶兩娃跨越2000公里!安徽一家四口17天抵達成都,本人回應(yīng):用喜愛的方式帶孩子看世界

騎電瓶車帶兩娃跨越2000公里!安徽一家四口17天抵達成都,本人回應(yīng):用喜愛的方式帶孩子看世界

極目新聞
2025-09-02 19:59:22
張維為和吳京都說不得

張維為和吳京都說不得

林中木白
2025-09-02 20:40:28
某護士調(diào)休跑馬拉松奪冠:情商特別低,自私又自利。

某護士調(diào)休跑馬拉松奪冠:情商特別低,自私又自利。

通往遠方的路
2025-09-01 17:45:19
新華社快訊:中方?jīng)Q定自2025年9月15日至2026年9月14日,對俄羅斯持普通護照人員試行免簽政策

新華社快訊:中方?jīng)Q定自2025年9月15日至2026年9月14日,對俄羅斯持普通護照人員試行免簽政策

北青網(wǎng)-北京青年報
2025-09-02 16:19:04
中方釋放重要信號!預(yù)示九三前有大事發(fā)生,臺?;蛱硪粏T“虎將”

中方釋放重要信號!預(yù)示九三前有大事發(fā)生,臺海或添一員“虎將”

小lu侃侃而談
2025-09-01 20:04:11
宋承憲獨居7年:濟州島三次跪求劉亦菲未果,18年戒煙成癮,深夜翻戀情照片拒刪

宋承憲獨居7年:濟州島三次跪求劉亦菲未果,18年戒煙成癮,深夜翻戀情照片拒刪

可樂談情感
2025-09-02 14:59:46
美歐敲定數(shù)萬大軍入烏計劃后,普京在天津?qū)χ杏〗坏祝袊驯M力

美歐敲定數(shù)萬大軍入烏計劃后,普京在天津?qū)χ杏〗坏?,中國已盡力

阿傖說事
2025-09-02 11:45:08
2025-09-03 02:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11215文章數(shù) 142437關(guān)注度
往期回顧 全部

科技要聞

宇樹科技稱將在四季度提交IPO申請

頭條要聞

石破茂態(tài)度180度大轉(zhuǎn)彎 強硬表態(tài)將留任后又突然改口

頭條要聞

石破茂態(tài)度180度大轉(zhuǎn)彎 強硬表態(tài)將留任后又突然改口

體育要聞

埃德森妻子告別曼城:夢想成真的8年,收獲和回憶超越了足球

娛樂要聞

“廚神對決!”誰做的菜好吃?

財經(jīng)要聞

黃金破"次元" 年輕人熬夜買"金谷子"

汽車要聞

12分鐘大訂破3000 "配齊"的全新嵐圖知音滿血華為

態(tài)度原創(chuàng)

家居
房產(chǎn)
教育
旅游
游戲

家居要聞

簡約清新 暖色宜居小家

房產(chǎn)要聞

海南樓市,最新榜單發(fā)布!有盤單月狂賣11.7億!

教育要聞

開學(xué)啦!一系列教育民心工程在多地實施

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

9月上旬XGP新增公布:《空洞騎士:絲之歌》來了!

無障礙瀏覽 進入關(guān)懷版