新智元報(bào)道
編輯:桃子
【新智元導(dǎo)讀】谷歌DeepMind最新Nature王炸,直接把Gemini版大模型PH-LLM調(diào)教成了「AI健康私教」,把可穿戴冷冰冰的數(shù)據(jù),直接變成睡眠健身建議,結(jié)果準(zhǔn)確率暴打人類醫(yī)生。
AI醫(yī)學(xué)的圣杯,可能先被谷歌DeepMind奪下。
最近,谷歌全新健康大語言模型(PH-LLM)正式發(fā)布——一款微調(diào)Gemini的「?jìng)€(gè)人睡眠和健康」模型。
論文地址:https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com
PH-LLM將可穿戴設(shè)備中的數(shù)據(jù),瞬間轉(zhuǎn)化為可視化的內(nèi)容。
它就像一個(gè)「AI睡眠專家+健身教練」,可以全天候分析監(jiān)測(cè)個(gè)人的智能手表數(shù)據(jù)。
結(jié)果發(fā)現(xiàn),PH-LLM在睡眠醫(yī)學(xué)考試中得分(79%)碾壓醫(yī)生(76%),而且在健身認(rèn)證中直接把人類專家按在地上摩擦(88% vs 71%)。
更牛的是,在人類評(píng)估中,PH-LLM生成的健康建議,幾乎與專家無差別。而且,僅憑傳感器數(shù)據(jù),即可預(yù)測(cè)用戶睡眠質(zhì)量。
大多數(shù)可穿戴設(shè)備,往往只會(huì)給你一堆數(shù)據(jù)。
遺傳學(xué)博士Dominic Ng對(duì)此點(diǎn)評(píng)道,「PH-LLM所做的,正是一位優(yōu)秀醫(yī)生會(huì)做的事,即將數(shù)據(jù)綜合成『洞察』」。
最新研究已于14日登上Nature,具體看看,谷歌DeepMind如何做到的?
谷歌出手不凡,Gemini版「健康私教」
傳統(tǒng)臨床診療雖能提供寶貴信息,但對(duì)睡眠、運(yùn)動(dòng)、壓力等,生活健康指標(biāo)評(píng)估僅具階段性。
如今,可穿戴設(shè)備就能實(shí)現(xiàn)無感連續(xù)監(jiān)測(cè)。
不過,這些數(shù)據(jù)缺乏上下文背景,存儲(chǔ)分析算力要求高、解讀難度大等因素,并未廣泛應(yīng)用于臨床實(shí)踐。
甚至,這些數(shù)據(jù)也并未納入標(biāo)準(zhǔn)「醫(yī)學(xué)問答數(shù)據(jù)集」,導(dǎo)致通用基礎(chǔ)LLM和醫(yī)學(xué)LLM,都難以有效推理給出個(gè)性化建議。
為此,谷歌團(tuán)隊(duì)合力在Gemini上微調(diào)出PH-LLM,用于評(píng)估AI在睡眠與健康領(lǐng)域的表現(xiàn),如下圖所示。
可穿戴設(shè)備能監(jiān)測(cè)信息遠(yuǎn)超這兩個(gè)領(lǐng)域,為什么研究團(tuán)隊(duì)僅聚焦于此?
一方面,現(xiàn)有研究已充分驗(yàn)證可穿戴設(shè)備,在這些領(lǐng)域監(jiān)測(cè)數(shù)據(jù)的準(zhǔn)確性與適用性。
另一方面,設(shè)備使用者參與度高,無需提供臨床建議即可給出實(shí)用指導(dǎo)方案。
研究中的真實(shí)案例:僅憑一名65-70歲男性提供的30天數(shù)據(jù),PH-LLM便識(shí)別出了規(guī)律的睡眠時(shí)間表,但平均睡眠時(shí)間僅為5小時(shí)28分鐘(過低)。
為此,它建議道:
更好的睡眠時(shí)間是從晚上12:00到早上7:30。你可以通過每隔幾天將睡眠時(shí)間提前15分鐘,逐步達(dá)到目標(biāo)。
基于Gemini Ultra 1.0,PH-LLM采用了兩階段訓(xùn)練。
首先,作者對(duì)完整模型進(jìn)行了微調(diào),專門針對(duì)睡眠和健康領(lǐng)域的長(zhǎng)篇案例分析回復(fù)生成任務(wù)。
訓(xùn)練數(shù)據(jù)包含了,人口統(tǒng)計(jì)學(xué)文本數(shù)據(jù)、最長(zhǎng)30天的每日指標(biāo)、聚合指標(biāo),以及僅針對(duì)健康案例的個(gè)體運(yùn)動(dòng)日志等。
在完成案例分析微調(diào)后,他們又為PH-LLM增加了多模態(tài)適配器。
這個(gè)適配器是用于,根據(jù)至少15天的縱向被動(dòng)傳感器數(shù)據(jù)(包含每日睡眠與活動(dòng)指標(biāo)),來預(yù)測(cè)睡眠障礙和睡眠損傷的主觀報(bào)告結(jié)果(PROs)
兩階段訓(xùn)練完成后,團(tuán)隊(duì)從個(gè)人健康教練所需的多元能力維度出發(fā),針對(duì)三大任務(wù)評(píng)估了PH-LLM的表現(xiàn):
首先,通過多選題測(cè)試評(píng)估模型掌握的專家級(jí)領(lǐng)域知識(shí)儲(chǔ)備;
其次,通過長(zhǎng)案例研究檢驗(yàn)?zāi)P蛻?yīng)用專業(yè)知識(shí)、解讀聚合傳感器數(shù)據(jù)以提供教練建議的能力;
最后,測(cè)試模型預(yù)測(cè)患者主觀報(bào)告結(jié)果(PROs)的能力,使其在生成建議時(shí)能整合個(gè)體對(duì)睡眠質(zhì)量的自評(píng)數(shù)據(jù),真正實(shí)現(xiàn)個(gè)性化健康指導(dǎo)。
AI擊敗人類專家
測(cè)試結(jié)果顯示,在睡眠醫(yī)學(xué)和健康體能考試,PH-LLM的答題正確率分別達(dá)到79%和88%(表1與圖1b)。
這一結(jié)果,顯著超過獲得睡眠醫(yī)學(xué)繼續(xù)教育學(xué)分(CME)要求的約70%及格線。
而且,與主流外部模型相比,PH-LLM表現(xiàn)頗具競(jìng)爭(zhēng)力:睡眠類題目稍遜但體能類題目表現(xiàn)相當(dāng)。
具體而言,在睡眠醫(yī)學(xué)考試中PH-LLM得分79%,Gemini Ultra 1.0為77%;在體能考試中兩者均獲88%得分。
受試者工作特征曲線(ROC)與精確率-召回率曲線,均證實(shí)模型在兩類考試中的優(yōu)異表現(xiàn)(附圖2)。
值得注意的是,盡管針對(duì)睡眠與健康任務(wù)進(jìn)行了微調(diào),PH-LLM在PubMedQA29和MedQA30通用醫(yī)學(xué)基準(zhǔn)測(cè)試中,性能并未下降(附表1)。
值得一提的是,睡眠醫(yī)學(xué)題庫包含每道題目的人類考生答題分布等元數(shù)據(jù),這允許團(tuán)隊(duì)基于題目難度進(jìn)行分層性能比較。
PH-LLM在所有難度層級(jí)均小幅領(lǐng)先Gemini Ultra 1.0,且在難題上的優(yōu)勢(shì)更為明顯。
這表明,睡眠案例研究的微調(diào)確實(shí)提升了相關(guān)題目的解答能力(表2)。
為量化PH-LLM的表現(xiàn)水平,團(tuán)隊(duì)還招募了5位平均從業(yè)25年的睡眠醫(yī)學(xué)專家(均持有高級(jí)學(xué)位)和5位平均從業(yè)13.8年的職業(yè)運(yùn)動(dòng)教練參加同規(guī)格考試。
專家組在睡眠醫(yī)學(xué)試題樣本(N=204)中的平均正確率為76%,體能考試為71%,PH-LLM在兩類題庫中均超越人類專家(表1)。
按人類考生答題難度分層分析顯示,PH-LLM的表現(xiàn)與人類考生及受邀專家群體相當(dāng)(表2)。
案例分析,接近專家水平
接下來,研究團(tuán)隊(duì)進(jìn)一步評(píng)估了,模型應(yīng)用專業(yè)知識(shí)與解讀傳感器數(shù)據(jù)的能力。
為此,他們創(chuàng)建了首個(gè)睡眠與健康領(lǐng)域的詳細(xì)個(gè)人健康案例數(shù)據(jù)集(857個(gè)案例,含3,271組問答對(duì)),由多位相關(guān)領(lǐng)域?qū)<夜餐瑢彾ā?/p>
該數(shù)據(jù)集包含持續(xù)數(shù)周的個(gè)體可穿戴傳感器數(shù)據(jù),以及對(duì)應(yīng)的深度分析與建議(圖2a,b)。
在健康管理案例分析中,PH-LLM模型在三個(gè)維度(運(yùn)動(dòng)處方制定、恢復(fù)方案建議、訓(xùn)練準(zhǔn)備度評(píng)估)上,表現(xiàn)出與人類專家及Gemini Ultra 1.0相當(dāng)?shù)乃剑▓D2d)。
傳感器數(shù)據(jù),預(yù)測(cè)健康報(bào)告
此外,為了評(píng)估PH-LLM能否推斷用戶體驗(yàn)以優(yōu)化健康指導(dǎo),團(tuán)隊(duì)測(cè)試了每日傳感器數(shù)值數(shù)據(jù)預(yù)測(cè)睡眠障礙和睡眠損傷PROs的能力。
首先通過計(jì)算問卷回答間的相關(guān)性分析PRO數(shù)據(jù),發(fā)現(xiàn)16個(gè)問題測(cè)量了相關(guān)但獨(dú)立的睡眠維度(圖3a)。
隨后檢查傳感器特征是否存在混雜因素,發(fā)現(xiàn)不同設(shè)備和參與者依從性間的傳感器讀數(shù)分布相似。
結(jié)果顯示:沒有單一特征對(duì)所有PROs具有絕對(duì)預(yù)測(cè)優(yōu)勢(shì),預(yù)測(cè)信號(hào)廣泛分布于多個(gè)傳感器(圖3b)。
為使PH-LLM能從傳感器特征預(yù)測(cè)PROs,研究人員又訓(xùn)練了一個(gè)多層感知機(jī)(MLP)適配器,將20項(xiàng)傳感器特征的統(tǒng)計(jì)量映射至PH-LLM的潛在標(biāo)記空間(方法部分)。
隨后將這些潛在標(biāo)記作為上下文輸入PH-LLM,要求其預(yù)測(cè)每個(gè)二分類結(jié)局。
在保留測(cè)試集中,團(tuán)隊(duì)比較了零樣本提示、少樣本提示與PH-LLM適配器方法,在受試者工作特征曲線下面積(AUROC)和精確召回曲線下面積(AUPRC)的表現(xiàn)(圖3c,d)。
值得注意的是,客觀睡眠測(cè)量數(shù)據(jù)對(duì)主觀睡眠質(zhì)量指標(biāo)的預(yù)測(cè)力通常有限,但配備適配器的PH-LLM在AUROC和AUPRC上均顯著優(yōu)于兩種提示方法。
正如Dominic Ng所言,谷歌研究意義并不止于一個(gè)「AI戰(zhàn)勝醫(yī)生」的故事。
這恰恰證明了,LLM可以將被動(dòng)的健康監(jiān)測(cè),轉(zhuǎn)化為積極的健康管理。
它不僅了解你的身體,還能理解其原因,并給出及時(shí)應(yīng)對(duì)方法。
這就是預(yù)防醫(yī)學(xué)的未來。
參考資料:
https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com
https://x.com/GoogleForHealth/status/1956050991695933619
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.