AI 能否像人類一樣真正“看見”并形成持久的“記憶”?如今,這一設(shè)想正逐漸成為現(xiàn)實(shí)。
這一突破性進(jìn)展的實(shí)現(xiàn),源自 28 歲華人沈俊瀟(Shawn Shen)所創(chuàng)立的美國(guó)硅谷初創(chuàng)公司 Memories.ai。該公司不久前發(fā)布了全球首款大型視覺記憶模型(LVMM,Large Visual Memory Model),突破性地實(shí)現(xiàn)了對(duì)海量視覺信息的長(zhǎng)期存儲(chǔ)、快速檢索與深度推理。
這一技術(shù)正應(yīng)用于安防、個(gè)性化 AI 助手、媒體創(chuàng)作等眾多領(lǐng)域。根據(jù)公司描述,其“準(zhǔn)確率極高,甚至能精確達(dá)到毫秒級(jí)理解”,讓機(jī)器像人類一樣理解世界,為構(gòu)建下一代具備持續(xù)學(xué)習(xí)能力的通用人工智能奠定基礎(chǔ)。
值得關(guān)注的是,沈俊瀟的學(xué)術(shù)與職業(yè)背景也為這一技術(shù)突破提供了堅(jiān)實(shí)支撐。他在英國(guó)完成高中學(xué)業(yè)后,獲得全額獎(jiǎng)學(xué)金進(jìn)入英國(guó)劍橋大學(xué)連續(xù)攻讀本科、碩士及博士學(xué)位,其后曾擔(dān)任 Meta Reality Labs 的研究科學(xué)家,在虛擬與增強(qiáng)現(xiàn)實(shí)領(lǐng)域積累了大量前沿經(jīng)驗(yàn)。目前,他還同時(shí)擔(dān)任英國(guó)布里斯托大學(xué)助理教授,持續(xù)推動(dòng)視覺計(jì)算與人工智能領(lǐng)域的交叉研究。
圖丨沈俊瀟(來(lái)源:沈俊瀟)
有望為多個(gè)領(lǐng)域帶來(lái)顛覆性變化
未來(lái)的通用人工智能(AGI)如果要在某些方面接近人類,就必須具備兩個(gè)彼此獨(dú)立的核心能力:智力與記憶。這兩者分屬不同維度——正如一個(gè)人可能聰慧卻健忘,或記憶力超群但推理能力有限。
當(dāng)前,無(wú)論是工業(yè)界還是學(xué)術(shù)界,大多將重心放在提升 AI 的智力層面,而對(duì) AI 長(zhǎng)期記憶機(jī)制的系統(tǒng)性探索仍顯不足。盡管已有部分企業(yè)開始涉足這一領(lǐng)域,但多數(shù)局限于文本級(jí)別的上下文工程(context engineering),尚未深入更本質(zhì)的視覺化記憶架構(gòu)。
在沈俊瀟看來(lái),文字從本質(zhì)上并不能構(gòu)成真正的記憶,它更近似于一種短期上下文。這種形式雖然能夠支撐程序性記憶(procedural memory),卻難以承載人類真正意義上的長(zhǎng)期記憶——情景記憶(episodic memory)。
他舉例解釋道:“當(dāng)一個(gè)人回想起上次吃漢堡的情景,腦海中浮現(xiàn)的是具體的畫面,比如漢堡的外觀,而非‘我吃了一個(gè)漢堡’這樣的文字描述?!睋?jù)他介紹,人類記憶中約 80% 屬于視覺化內(nèi)容,僅有約 20% 為文字或程序性內(nèi)容。因此,構(gòu)建 AI 的長(zhǎng)期記憶更應(yīng)聚焦于引入視覺記憶機(jī)制,而非停留在文本層面。
受人類記憶結(jié)構(gòu)的啟發(fā),Memories.ai 在開發(fā) LVMM 時(shí),設(shè)計(jì)了一套完整的記憶處理架構(gòu),其能夠準(zhǔn)確解析用戶意圖、精準(zhǔn)定位并提取相關(guān)的視覺記憶片段、整合所有關(guān)聯(lián)視覺信息,并能夠基于這些記憶內(nèi)容與用戶當(dāng)前查詢進(jìn)行復(fù)雜推理。
該系統(tǒng)包括多個(gè)功能模塊:一個(gè)負(fù)責(zé)將記憶線索轉(zhuǎn)換為可檢索請(qǐng)求的查詢模型、一個(gè)執(zhí)行粗粒度篩選的檢索模型、一個(gè)支持全模態(tài)索引的存儲(chǔ)模型、一個(gè)執(zhí)行細(xì)粒度信息提取的選擇模型、一個(gè)用于記憶監(jiān)控的反射模型,以及一個(gè)實(shí)現(xiàn)記憶重建的重構(gòu)模型。
沈俊瀟對(duì) DeepTech 表示:“LVMM 部分功能依托視頻檢索,但其核心遠(yuǎn)不止于此。理解 10 小時(shí)視頻與 1 小時(shí)視頻在基礎(chǔ)技術(shù)上或許相似,但實(shí)現(xiàn)百萬(wàn)小時(shí)級(jí)別的視覺理解,則需根本性的架構(gòu)創(chuàng)新——包括數(shù)據(jù)庫(kù)設(shè)計(jì)、算法優(yōu)化與底層基礎(chǔ)設(shè)施的重構(gòu)。目前,我們可處理數(shù)據(jù)庫(kù)的規(guī)模已經(jīng)達(dá)到億級(jí)?!?/p>
根據(jù) Memories.ai 發(fā)布的技術(shù)報(bào)告,LVMM 在視頻分類、檢索與問(wèn)答等多個(gè)任務(wù)中都表現(xiàn)出卓越性能。其中一個(gè)顯著的對(duì)比是,在視頻分析時(shí)長(zhǎng)方面,OpenAI GPT 4o 是 3 分鐘,Google Gemini 2.5 Pro 可實(shí)現(xiàn) 1 小時(shí),而 LVMM 是近乎無(wú)限的視覺記憶。
(來(lái)源:Memories.ai)
據(jù)介紹,LVMM 的長(zhǎng)期視覺記憶有望在多個(gè)領(lǐng)域帶來(lái)顛覆性的變化。
安防監(jiān)控領(lǐng)域,核心挑戰(zhàn)在于實(shí)現(xiàn)持續(xù)的身份識(shí)別。一個(gè)典型的案例是,在電視劇《我是刑警》的情節(jié)中,警方曾動(dòng)員數(shù)百人通宵篩查監(jiān)控視頻以追蹤嫌疑人。而借助 LVMM 系統(tǒng),同類任務(wù)可通過(guò) AI 自動(dòng)觀看并快速定位目標(biāo)片段,甚至可對(duì)從童年到成年階段的人物進(jìn)行追蹤,并極大提升效率。
沈俊瀟還舉例說(shuō)道:“不同地區(qū)對(duì)危險(xiǎn)的定義存在差異,例如美國(guó)各州對(duì)同一行為的判定可能截然不同,系統(tǒng)需借助長(zhǎng)期學(xué)習(xí)以理解這些場(chǎng)景特征?!?/p>
AI 助手與硬件方向,個(gè)性化是重要發(fā)展趨勢(shì)。理想的 AI 助手應(yīng)能理解用戶所見所聞,從而更精準(zhǔn)地響應(yīng)需求。現(xiàn)有工具如 ChatGPT 雖智力表現(xiàn)突出,但在用戶體驗(yàn)上常顯得“不夠貼心”,仍需用戶頻繁補(bǔ)充上下文,并且這些信息往往涵蓋多模態(tài)內(nèi)容。因此,發(fā)展具備多模態(tài)長(zhǎng)期記憶能力的 AI 助手已成為明確的技術(shù)方向之一。據(jù)了解,Memories.ai 已與頭部 AI 硬件公司展開合作,如 Rokid 和前魅族 CMO 李楠?jiǎng)?chuàng)立的 AI 硬件公司 Angry Miao。
媒體和教育領(lǐng)域,Memories.ai 正在與 BBC 等媒體以及相關(guān)公司展開合作,旨在將大量歷史視頻素材與其他多模態(tài)數(shù)據(jù)整合為動(dòng)態(tài)的數(shù)據(jù)湖,以支持更高效的搜索與問(wèn)答功能。
相冊(cè)和視頻管理應(yīng)用中,長(zhǎng)期視覺記憶同樣至關(guān)重要。據(jù)介紹,Memories.ai 正在與三星展開合作,把 LVMM 部署到端側(cè)手機(jī)上。擁有“記憶”意味著在數(shù)萬(wàn)張照片和視頻中,能夠通過(guò)自然語(yǔ)言精準(zhǔn)檢索特定的某個(gè)片段。對(duì)于視頻創(chuàng)作者來(lái)說(shuō),該系統(tǒng)可構(gòu)建專門的視頻搜索引擎和文檔引擎,并可實(shí)現(xiàn)快速自動(dòng)剪輯。
此外,基于網(wǎng)絡(luò)視頻進(jìn)行宏觀趨勢(shì)分析也成為可能,AI 可借此識(shí)別內(nèi)容流行度規(guī)律、成因與傳播特征,為創(chuàng)作與決策提供參考。
從更長(zhǎng)遠(yuǎn)的角度看,該技術(shù)為構(gòu)建人工智能的基礎(chǔ)視覺記憶層奠定了重要基礎(chǔ)。無(wú)論是能夠追溯生活點(diǎn)滴的 AI 助手、通過(guò)觀察世界學(xué)習(xí)的人形機(jī)器人、智能眼鏡或可穿戴設(shè)備,還是真正具備視覺理解能力的下一代智能系統(tǒng),都有賴于持續(xù)、穩(wěn)定且高效的視覺記憶機(jī)制。
“不走尋常路”:從 14 歲出國(guó)讀高中到硅谷創(chuàng)業(yè)
沈俊瀟出生于江蘇吳江,他始終秉持“選擇大于努力”的信念,其人生軌跡也因多次“非同尋?!钡倪x擇而顯得獨(dú)特。他的第一個(gè)關(guān)鍵抉擇是從鎮(zhèn)小學(xué)轉(zhuǎn)至市區(qū)初中就讀,然而他并未止步,始終想去“更大的世界看看”。盡管中考成績(jī)出色,14 歲的他仍憑借全國(guó)僅有兩個(gè)名額的全額獎(jiǎng)學(xué)金遠(yuǎn)赴英國(guó)攻讀高中。
在劍橋大學(xué),沈俊瀟完成了從本科到博士的全程學(xué)習(xí),博士階段的研究聚焦于開發(fā)基于機(jī)器學(xué)習(xí)的用戶交互意圖推斷模型,應(yīng)用于光學(xué)透視頭戴式顯示器場(chǎng)景,師從佩爾·奧拉·克里斯滕森(Per Ola Kristensson)教授和比爾·伯恩(Bill Byrne)教授。在這一時(shí)期,人工智能技術(shù)的迅猛發(fā)展使他看到了實(shí)現(xiàn)“以技術(shù)提升人類效率”這一愿景的現(xiàn)實(shí)路徑。
博士畢業(yè)后,沈俊瀟加入 Meta Reality Labs 擔(dān)任研究科學(xué)家。在該崗位中,他主要從事與時(shí)間序列分析密切相關(guān)的科研工作。他表示:“我此前從事了大量手勢(shì)理解相關(guān)研究,而手勢(shì)識(shí)別本質(zhì)也屬于時(shí)間序列問(wèn)題。無(wú)論是手勢(shì)識(shí)別、語(yǔ)義理解還是視頻解析,這些研究方向在方法論上是一脈相承的。”
在多數(shù)企業(yè)集中于提升 AI“智力”之時(shí),他選擇了差異化的研究方向——專注于構(gòu)建 AI 的“記憶”能力。然而,當(dāng)前人工智能領(lǐng)域在長(zhǎng)期記憶,尤其是對(duì)海量視覺信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)與有效利用方面仍存在諸多尚未突破的科學(xué)問(wèn)題。
在這一背景下,沈俊瀟及合作者率先從人類記憶的理論體系出發(fā),系統(tǒng)探索了 AI 長(zhǎng)期記憶的實(shí)現(xiàn)路徑。人類智能依托智力與記憶兩大支柱:當(dāng)前 AI 的智力層面已廣泛采用神經(jīng)網(wǎng)絡(luò)模型,其設(shè)計(jì)靈感本就源自對(duì)人腦結(jié)構(gòu)的借鑒;而在記憶方面,團(tuán)隊(duì)致力于在“生物學(xué)合理性”(與人類記憶的相似程度)與“工程性能”(實(shí)際解決問(wèn)題的效能)之間尋求平衡。
完全模擬人類記憶并不一定帶來(lái)最優(yōu)性能,而完全脫離生物啟示的設(shè)計(jì)又往往難以契合復(fù)雜認(rèn)知任務(wù)的需求。正如神經(jīng)網(wǎng)絡(luò)并未完全復(fù)制人腦,卻在兩者間找到有效平衡,沈俊瀟與團(tuán)隊(duì)也以類似思路推進(jìn)記憶研究——并非追求一對(duì)一的機(jī)械映射,而是以人類記憶機(jī)制為深層啟發(fā),構(gòu)建更符合認(rèn)知架構(gòu)的 AI 記憶系統(tǒng)。
在沈俊瀟作為通訊作者發(fā)表在預(yù)印本網(wǎng)站arXiv的一篇論文中,對(duì)此有比較清晰的闡述。相關(guān)論文題目為《人類啟發(fā)視角:人工智能長(zhǎng)期記憶綜述》(Human-inspired Perspectives: A Survey on AI Long-term Memory)[1]。
該研究從人類記憶機(jī)制出發(fā),探討了 AI 長(zhǎng)期記憶的存儲(chǔ)、檢索和遺忘機(jī)制,并提出了一個(gè)基于人類記憶理論的新型認(rèn)知架構(gòu)——自適應(yīng)長(zhǎng)期記憶架構(gòu)(SALM,Self-Adaptive Long-term Memory),為未來(lái) AI 系統(tǒng)的設(shè)計(jì)提供了理論基礎(chǔ)。
圖丨相關(guān)論文(來(lái)源:arXiv)
諾貝爾物理學(xué)獎(jiǎng)得主杰弗里·辛頓(Geoffrey Hinton)曾提出“記憶重構(gòu)”的概念,即記憶并非靜態(tài)存儲(chǔ),而是在每次提取時(shí)被動(dòng)態(tài)重建。沈俊瀟團(tuán)隊(duì)同樣將記憶處理為結(jié)構(gòu)化表征,并在回溯時(shí)實(shí)施層級(jí)化的重新塑造,以模擬人類記憶的靈活性與適應(yīng)性。
研究中還借鑒了人類長(zhǎng)期記憶的經(jīng)典“三分模型”,將人類長(zhǎng)期記憶分為情景記憶(Episodic Memory)、語(yǔ)義記憶(Semantic Memory)和程序性記憶(Procedural Memory)。
具體而言,情景記憶是關(guān)于特定事件的記憶,比如“我上周開車去郊游”;語(yǔ)義記憶是關(guān)于事實(shí)和概念的記憶,比如“汽車有四個(gè)輪子,自行車有兩個(gè)輪子”;而程序性記憶是關(guān)于技能和習(xí)慣的記憶,比如“我如何學(xué)會(huì)駕駛汽車”。
(來(lái)源:arXiv)
在另一項(xiàng)研究中 [2],沈俊瀟還與合作者共同探討了記憶增強(qiáng)技術(shù)的現(xiàn)有局限性,以及為解決這些問(wèn)題而開展的研究工作。
他們?cè)谘芯窟^(guò)程中發(fā)現(xiàn),現(xiàn)有的記憶增強(qiáng)技術(shù)存在一些明顯的不足。例如,目前的技術(shù)只能基于標(biāo)簽進(jìn)行搜索,而無(wú)法實(shí)現(xiàn)基于語(yǔ)義的搜索和問(wèn)答。這限制了記憶增強(qiáng)技術(shù)在復(fù)雜場(chǎng)景中的應(yīng)用,因?yàn)檎Z(yǔ)義搜索能夠更精準(zhǔn)地理解和回應(yīng)用戶的查詢需求。
基于這些發(fā)現(xiàn),團(tuán)隊(duì)將長(zhǎng)期視頻理解視為更具突破意義的研究方向。他們判斷,以第一視角為主的視頻數(shù)據(jù)將在未來(lái)成為主流,因而較早開始推進(jìn)相關(guān)技術(shù)的落地探索,致力于使 AI 系統(tǒng)能夠?qū)崿F(xiàn)對(duì)長(zhǎng)周期、高復(fù)雜度視頻內(nèi)容的結(jié)構(gòu)化理解和語(yǔ)義檢索。
通過(guò)這些工作,團(tuán)隊(duì)提出應(yīng)通過(guò)引入長(zhǎng)期視覺記憶增強(qiáng) AI 的系統(tǒng)能力,并在理論構(gòu)建與技術(shù)實(shí)踐之間建立閉環(huán)。他們相信,通過(guò)克服現(xiàn)有記憶模型在語(yǔ)義化、自適應(yīng)與重構(gòu)能力方面的不足,能夠?yàn)闃?gòu)建真正具備可持續(xù)學(xué)習(xí)與演化能力的 AI 系統(tǒng)開辟新路徑。
正是看到了這些問(wèn)題,2024 年沈俊瀟決定“快速行動(dòng)”——他與曾在 Meta并肩作戰(zhàn)的機(jī)器學(xué)習(xí)工程師 Ben(Enmin)Zhou 共同創(chuàng)立了 Memories.ai。另?yè)?jù)悉,截至目前 Memories.ai 已經(jīng)完成由 Susa Ventures 領(lǐng)投,三星風(fēng)投、Fusion Fund 等知名機(jī)構(gòu)跟投的 800 萬(wàn)美元種子輪融資。
圖丨沈俊瀟與 Ben(Enmin)Zhou(右)(來(lái)源:Memories.ai)
沈俊瀟認(rèn)為,AI 技術(shù)必將重塑未來(lái)硬件形態(tài),在個(gè)人電腦和智能手機(jī)之后將催生第三代核心終端。依托 Memories.ai 所研發(fā)的海量視頻理解核心技術(shù),公司已與一家國(guó)內(nèi)頭部硬件企業(yè)達(dá)成合作,將共同推出產(chǎn)品 LUCI Pin。
目前,Memories.ai 還在積極推進(jìn)一款與可穿戴設(shè)備深度融合的核心硬件研發(fā)。該設(shè)備旨在全天候記錄用戶生活影像,捕獲人類的視覺記憶,并將其有效轉(zhuǎn)化為 AI 可用的視覺記憶體系?!拔覀兿M磥?lái) AI 的長(zhǎng)期視覺記憶能變得更精準(zhǔn)、更快速,并在更多行業(yè)得到廣泛應(yīng)用?!鄙蚩t表示。
參考資料:
1.https://arxiv.org/abs/2411.00489
2.J. Shen, J. J. Dudley and P. O. Kristensson, Encode-Store-Retrieve: Augmenting Human Memory through Language-Encoded Egocentric Perception, 2024 IEEE International Symposium on Mixed and Augmented Reality (ISMAR), Bellevue, WA, USA, 2024, pp. 923-931, doi: 10.1109/ISMAR62088.2024.00108.
3.https://shawnshenjx.github.io/
4.https://memories.ai/blog/large-visual-memory-model
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.