當(dāng) AlphaGo 還在實(shí)驗(yàn)室蟄伏時(shí),這位 95 后已經(jīng)預(yù)見(jiàn)了強(qiáng)化學(xué)習(xí)的革命性潛力——Pokee AI 的創(chuàng)始人兼 CEO 朱哲清用十年時(shí)間完成了一場(chǎng) AI 技術(shù)的“三級(jí)跳”。
從美國(guó)杜克大學(xué)和斯坦福大學(xué)的理論探索到 Meta 的工業(yè)實(shí)踐,他作為高級(jí)研究經(jīng)理主導(dǎo)開(kāi)發(fā)的 Pearl 框架和許多強(qiáng)化學(xué)習(xí)模型產(chǎn)品不僅為 Meta 創(chuàng)造了數(shù)億美元的商用應(yīng)用價(jià)值,更讓他堅(jiān)定了基于強(qiáng)化學(xué)習(xí)技術(shù)的創(chuàng)業(yè)方向。
Pokee.ai 是致力于改變企業(yè)工作流的一站式通用 agent 平臺(tái),它“用自然語(yǔ)言一句話就能讓 AI 幫你把活干完”——從社媒生成發(fā)布管理、做 Google Slides、在 Overleaf 上面寫論文、生成音視頻,到發(fā)郵件、調(diào) API、管項(xiàng)目,這些僅需要幾分鐘的時(shí)間。
圖丨朱哲清(來(lái)源:朱哲清)
最近,DeepTech 與朱哲清聊了聊他的學(xué)術(shù)洞見(jiàn)與創(chuàng)業(yè)思考,希望通過(guò)這次交流,更加了解強(qiáng)化學(xué)習(xí)如何從實(shí)驗(yàn)室走向產(chǎn)業(yè)應(yīng)用,以及 AI 智能體未來(lái)的發(fā)展方向。
從理論到實(shí)踐的強(qiáng)化學(xué)習(xí)進(jìn)化之路
2014 年,朱哲清開(kāi)啟了杜克大學(xué)計(jì)算機(jī)科學(xué)專業(yè)的本科學(xué)習(xí)生涯,師從羅納德·帕爾(Ronald Parr)教授。彼時(shí),谷歌 DeepMind 團(tuán)隊(duì)的 AlphaGo 和 MuZero 尚未問(wèn)世,大多數(shù)研究者對(duì)強(qiáng)化學(xué)習(xí)仍保持觀望態(tài)度。
而朱哲清已敏銳洞察到強(qiáng)化學(xué)習(xí)與傳統(tǒng)監(jiān)督學(xué)習(xí)的本質(zhì)差異:基于靜態(tài)數(shù)據(jù)集訓(xùn)練的傳統(tǒng)模型受限于既有數(shù)據(jù)分布,僅能在已知數(shù)據(jù)點(diǎn)間進(jìn)行插值推理;而強(qiáng)化學(xué)習(xí)作為智能體與環(huán)境動(dòng)態(tài)交互的產(chǎn)物,其數(shù)據(jù)分布由策略決策與環(huán)境反饋共同塑造,具備在新情境中主動(dòng)預(yù)測(cè)行為結(jié)果的獨(dú)特能力。
這種特性與人類認(rèn)知學(xué)習(xí)模式高度契合——正如人類無(wú)需海量樣本即可實(shí)現(xiàn)舉一反三(例如從加法自然推導(dǎo)出減法運(yùn)算),強(qiáng)化學(xué)習(xí)也因此被譽(yù)為“人類學(xué)習(xí)的第一性原理”。
2017 至 2018 年間,強(qiáng)化學(xué)習(xí)迎來(lái)了爆發(fā)式發(fā)展。他以“最高榮譽(yù)畢業(yè)生獎(jiǎng)”畢業(yè)后來(lái)到斯坦福大學(xué),并在本杰明·范·羅伊(Benjamin Van Roy)教授指導(dǎo)下獲得強(qiáng)化學(xué)習(xí)博士學(xué)位。
語(yǔ)言模型技術(shù)的快速發(fā)展,也為強(qiáng)化學(xué)習(xí)創(chuàng)造了前所未有的訓(xùn)練環(huán)境:在語(yǔ)言任務(wù)中,每個(gè)生成的 token 都可視作從數(shù)萬(wàn)種可能動(dòng)作中的一次選擇,且完全規(guī)避了傳統(tǒng)強(qiáng)化學(xué)習(xí)中“仿真到現(xiàn)實(shí)”的轉(zhuǎn)換難題。更重要的是,語(yǔ)言模型強(qiáng)大的泛化能力極大拓展了強(qiáng)化學(xué)習(xí)的優(yōu)化邊界。
實(shí)踐表明,僅需設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù)并結(jié)合預(yù)訓(xùn)練語(yǔ)言模型,就能構(gòu)建出接近人類水平的代碼生成模型,整個(gè)過(guò)程完全無(wú)需人工標(biāo)注數(shù)據(jù)。這一突破性進(jìn)展標(biāo)志著強(qiáng)化學(xué)習(xí)正式進(jìn)入了“自主進(jìn)化”的新時(shí)代,為后續(xù) AI 系統(tǒng)的自我迭代能力奠定了理論基礎(chǔ)。
Pearl:首個(gè)生產(chǎn)級(jí)全棧強(qiáng)化學(xué)習(xí)框架
在 Meta 七年的實(shí)踐更讓他堅(jiān)信這一方向的可行性:廣告推薦系統(tǒng)和廣告預(yù)算控制項(xiàng)目中,朱哲清曾以少量數(shù)據(jù)甚至純離線數(shù)據(jù)實(shí)現(xiàn)用戶體驗(yàn)的顯著提升;在短視頻系統(tǒng)中,他帶領(lǐng)團(tuán)隊(duì)證明強(qiáng)化學(xué)習(xí)探索算法可以大幅度提升內(nèi)容冷啟動(dòng)能力;在社交網(wǎng)絡(luò)推薦系統(tǒng)中,他和團(tuán)隊(duì)利用強(qiáng)化學(xué)習(xí)多步推薦算法顯著提升用戶保留率和參與度。
作為 Meta 強(qiáng)化學(xué)習(xí)落地的重要架構(gòu),朱哲清作為通訊作者帶領(lǐng)團(tuán)隊(duì)在機(jī)器學(xué)習(xí)頂刊Journal of Machine Learning ResearchJMLR)發(fā)表了題為《Pearl:生產(chǎn)級(jí)強(qiáng)化學(xué)習(xí)智能體》(Pearl: A Production-Ready Reinforcement Learning Agent)的論文 [1]。
圖丨相關(guān)論文(來(lái)源:JMLR)
與傳統(tǒng)算法庫(kù)聚焦于訓(xùn)練速度和規(guī)模擴(kuò)展不同,他們創(chuàng)新性地提出了首個(gè)生產(chǎn)級(jí)全棧式強(qiáng)化學(xué)習(xí)框架 Pearl。該框架通過(guò)模塊化架構(gòu)設(shè)計(jì),賦予用戶自由組合功能的能力,這極大提升了強(qiáng)化學(xué)習(xí)解決方案的靈活性和效率。它能一站式解決智能探索、安全保障、動(dòng)態(tài)動(dòng)作空間、線上學(xué)習(xí)、線下學(xué)習(xí)和環(huán)境部分可觀測(cè)性等工業(yè)化應(yīng)用中的核心挑戰(zhàn)。
朱哲清對(duì) DeepTech 解釋說(shuō)道:“Pearl 的突破性在于將安全約束、探索策略等多個(gè)模塊無(wú)縫集成到統(tǒng)一 agent 架構(gòu)中。用戶可以通過(guò)聲明式配置靈活定義探索方式、安全閾值和環(huán)境交互機(jī)制,甚至支持運(yùn)行時(shí)動(dòng)態(tài)替換獎(jiǎng)勵(lì)函數(shù)和經(jīng)驗(yàn)回放策略。這種模塊化的算法組合能力在現(xiàn)有工具庫(kù)中獨(dú)樹(shù)一幟。”
圖丨Pearl 的界面(來(lái)源:JMLR)
另一項(xiàng)創(chuàng)新之處在于,Pearl 實(shí)現(xiàn)了 agent 與運(yùn)行環(huán)境的完全解耦。傳統(tǒng)強(qiáng)化學(xué)習(xí)模型通常與訓(xùn)練環(huán)境深度耦合,導(dǎo)致部署時(shí)需要復(fù)雜的適配工作。而 Pearl 通過(guò)標(biāo)準(zhǔn)化 API 接口與容器化封裝,使訓(xùn)練后的 agent 無(wú)縫部署到生產(chǎn)環(huán)境,顯著降低了從實(shí)驗(yàn)環(huán)境到生產(chǎn)系統(tǒng)的遷移成本。
“這種架構(gòu)優(yōu)勢(shì)使得同一套代碼能夠無(wú)縫支持在線學(xué)習(xí)、離線學(xué)習(xí)和探索任務(wù),僅需調(diào)整少量參數(shù)即可實(shí)現(xiàn)模式切換,顯著提升了工程效率?!敝煺芮逭f(shuō)。
表丨Pearl 與熱門開(kāi)源強(qiáng)化工具庫(kù)的功能特性對(duì)比(來(lái)源:JMLR)
從技術(shù)體系來(lái)看,Pearl 的創(chuàng)新價(jià)值體現(xiàn)在三個(gè)方面:首先,提供了全面的算法支持矩陣;其次,構(gòu)建了從理論到生產(chǎn)的端到端部署管道;最重要的是,填補(bǔ)了強(qiáng)化學(xué)習(xí)在模塊化架構(gòu)設(shè)計(jì)方面的長(zhǎng)期空白。
需要了解的是,當(dāng)前市場(chǎng)上的大多數(shù)模型雖然在離線訓(xùn)練或在線學(xué)習(xí)基準(zhǔn)測(cè)試中表現(xiàn)良好,但在實(shí)際生產(chǎn)部署時(shí)往往面臨顯著的性能衰減。以新用戶推薦場(chǎng)景為例,傳統(tǒng)推薦系統(tǒng)在冷啟動(dòng)等關(guān)鍵場(chǎng)景中往往效果欠佳,需要更智能的探索機(jī)制。然而,現(xiàn)實(shí)業(yè)務(wù)場(chǎng)景對(duì)探索機(jī)制提出了更高要求。
以新用戶偏好挖掘?yàn)槔到y(tǒng)需要通過(guò)主動(dòng)探索來(lái)快速消除信息不確定性,這既需要復(fù)雜的多臂老虎機(jī)(Multi-Armed Bandit)策略,又涉及深度強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的協(xié)同優(yōu)化。Pearl 的探索算法模塊、線下學(xué)習(xí)以及動(dòng)態(tài)動(dòng)作空間的模塊的集成,搭建了智能探索系統(tǒng)以大幅提升新內(nèi)容和用戶的交互概率。
(來(lái)源:JMLR)
不容忽視的是,這類算法在部署時(shí)面臨雙重挑戰(zhàn):探索行為導(dǎo)致的短期指標(biāo)波動(dòng),以及現(xiàn)有框架對(duì)實(shí)時(shí)交互支持不足。即便是 Pearl 這樣的先進(jìn)框架,在隨機(jī)采樣等基礎(chǔ)操作上仍需進(jìn)一步完善。
針對(duì)這些工業(yè)化挑戰(zhàn),朱哲清帶領(lǐng)團(tuán)隊(duì)在 Meta 內(nèi)部構(gòu)建了完整的支撐體系:從 Pearl 和生產(chǎn)環(huán)境的深度結(jié)合,到算法的優(yōu)化,以及針對(duì)性的 A/B 測(cè)試設(shè)計(jì),以完成整個(gè)生產(chǎn)環(huán)境的閉環(huán)。這套體系不僅驗(yàn)證了算法設(shè)計(jì)的可行性,更將實(shí)驗(yàn)室原型到億級(jí)用戶產(chǎn)品的轉(zhuǎn)化周期顯著縮短。
圖丨朱哲清與楊立昆(Yann LeCun)(右)(來(lái)源:朱哲清)
多元價(jià)值驗(yàn)證與應(yīng)用拓展
Pearl 的價(jià)值在生產(chǎn)方向、工業(yè)應(yīng)用,以及市場(chǎng)接受程度方面都得到了充分驗(yàn)證。據(jù)朱哲清透露,Meta 內(nèi)部已將 Pearl 應(yīng)用于廣告競(jìng)價(jià)、推薦系統(tǒng)等場(chǎng)景。據(jù)了解,目前 Pearl 的 GitHub star 已接近 2.9K,可支持競(jìng)價(jià)策略、推薦系統(tǒng)和探索策略的端到端訓(xùn)練與部署 [2-4]。
據(jù)估算,相關(guān)應(yīng)用累計(jì)創(chuàng)造了數(shù)億美元的商業(yè)價(jià)值。不同任務(wù)類型間僅需參數(shù)化調(diào)整配置文件即可切換,這種低代碼適配性在 Meta 的大規(guī)模生產(chǎn)環(huán)境中得到了驗(yàn)證。
在后續(xù)研究方向上,近期在預(yù)印本網(wǎng)站arXiv上線的論文《基于強(qiáng)化學(xué)習(xí)的 Facebook 廣告文案生成優(yōu)化》(Improving Generative Ad Text on Facebook using Reinforcement Learning)[5],是朱哲清在 Meta 工作期間的“收官之作”?;?Llama 2 模型和強(qiáng)化學(xué)習(xí)微調(diào)的廣告重寫項(xiàng)目,則顯著提高了廣告點(diǎn)擊率,平均廣告商的廣告點(diǎn)擊率上升了 6.7%。這些優(yōu)化已被集成到 Facebook Ads Manager 的自動(dòng)化廣告文案系統(tǒng)中。
圖丨相關(guān)論文(來(lái)源:arXiv)
該研究的核心創(chuàng)新在于突破了以單一人類反饋?zhàn)鳛閺?qiáng)化學(xué)習(xí)模型獎(jiǎng)勵(lì)機(jī)制的限制,用強(qiáng)泛化性的群體預(yù)測(cè)模型作為獎(jiǎng)勵(lì)機(jī)制,減輕了強(qiáng)化學(xué)習(xí)模型針對(duì)人類反饋優(yōu)化(RLHF,Reinforcement Learning from Human Feedback)時(shí)出現(xiàn)的獎(jiǎng)勵(lì)模型(Reward Model)低泛化性問(wèn)題。
研究團(tuán)隊(duì)提出了一個(gè)顛覆性的技術(shù)范式:在廣告效果優(yōu)化領(lǐng)域,應(yīng)采用基于目標(biāo)受眾群體的預(yù)期點(diǎn)擊率(CTR,click-through rates)預(yù)測(cè)作為核心優(yōu)化目標(biāo),而非基于標(biāo)注數(shù)據(jù)的獎(jiǎng)勵(lì)模型。這源于對(duì)數(shù)字營(yíng)銷本質(zhì)的深刻理解——廣告效果本質(zhì)上取決于其與特定用戶群體的匹配程度,而非單一的人為標(biāo)注數(shù)據(jù)。
(來(lái)源:arXiv)
為實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)設(shè)計(jì)了一套完整的解決方案:首先構(gòu)建高精度的 CTR 預(yù)測(cè)模型,準(zhǔn)確評(píng)估廣告內(nèi)容在目標(biāo)用戶群體中的預(yù)期表現(xiàn);隨后將該預(yù)測(cè)模型作為獎(jiǎng)勵(lì)信號(hào),通過(guò)強(qiáng)化學(xué)習(xí)框架微調(diào)語(yǔ)言模型,實(shí)現(xiàn)廣告文案的自動(dòng)優(yōu)化與重寫。這種方法在保持目標(biāo)用戶畫像不變的前提下,通過(guò)算法迭代顯著提升了廣告內(nèi)容的吸引力和轉(zhuǎn)化效果。
圖丨貢獻(xiàn)概述(來(lái)源:arXiv)
研究團(tuán)隊(duì)將該 CTR 預(yù)測(cè)模型突破了傳統(tǒng)人工評(píng)審模型的局限:傳統(tǒng)方法依賴少量專家(通常僅 1-2 個(gè)評(píng)審員)的主觀判斷,泛化能力嚴(yán)重受限;而該模型通過(guò)海量用戶真實(shí)交互數(shù)據(jù)(數(shù)萬(wàn)級(jí)樣本)驅(qū)動(dòng),構(gòu)建了客觀、可量化的內(nèi)容評(píng)估體系。這種數(shù)據(jù)驅(qū)動(dòng)的建模方法不僅大幅提升了預(yù)測(cè)準(zhǔn)確性,更重要的是為語(yǔ)言模型的優(yōu)化提供了穩(wěn)定可靠的信號(hào)來(lái)源。
正是這種數(shù)據(jù)驅(qū)動(dòng)的建模方式,能夠充分發(fā)揮語(yǔ)言模型的潛力,通過(guò)算法自動(dòng)優(yōu)化廣告文案,最終實(shí)現(xiàn)廣告效果的大幅提升。這一創(chuàng)新不僅驗(yàn)證了強(qiáng)化學(xué)習(xí)在廣告優(yōu)化中的應(yīng)用價(jià)值,也為后續(xù) AI 生成內(nèi)容的商業(yè)化應(yīng)用提供了重要參考。
希望將強(qiáng)化學(xué)習(xí)智能體工具空間的優(yōu)化做得更好
基于多年的強(qiáng)化學(xué)習(xí)積累,朱哲清敏銳地捕捉到在 AI Agent 時(shí)代將工具本身作為動(dòng)作空間的創(chuàng)新機(jī)遇,這一洞見(jiàn)直接催生了 Pokee AI 的創(chuàng)立。2024 年 10 月,這家專注于企業(yè)級(jí)智能體解決方案的初創(chuàng)公司在美國(guó)硅谷成立,截至目前 Point72 Ventures 已牽頭完成一輪 1200 萬(wàn)美元的種子輪融資,并與 Google 建立了戰(zhàn)略合作關(guān)系。
不久前上線公開(kāi)測(cè)試版的 Pokee.ai 表現(xiàn)出卓越的工程實(shí)現(xiàn)能力:30% 的日留存率驗(yàn)證了產(chǎn)品的高粘性;在不到一周內(nèi)便幫助用戶處理了 5000 多個(gè)工作流和 5 萬(wàn)余項(xiàng)任務(wù),且任務(wù)成功率高達(dá) 90%。
Pokee 的技術(shù)優(yōu)勢(shì)體現(xiàn)在多個(gè)維度:在工具擴(kuò)展性方面,系統(tǒng)支持 6000 多個(gè)工具的精準(zhǔn)調(diào)用,準(zhǔn)確率達(dá) 97%,是目前市面上工具調(diào)用模型生態(tài)中最高的模型;在生態(tài)集成層面,平臺(tái)實(shí)現(xiàn)了上千個(gè)互聯(lián)網(wǎng)和 AI 原生工具的深度對(duì)接。
據(jù)介紹,該公司當(dāng)前的研發(fā)重點(diǎn)聚焦于新型規(guī)劃模型的開(kāi)發(fā),有望在部署效率等方面實(shí)現(xiàn)突破性進(jìn)展?!半m然現(xiàn)階段我們尚未開(kāi)展大規(guī)模市場(chǎng)推廣,但持續(xù)的產(chǎn)品迭代未來(lái)有望帶來(lái)更顯著的用戶增長(zhǎng)。”朱哲清透露。
談及強(qiáng)化學(xué)習(xí)與 AI 智能體的未來(lái)發(fā)展,朱哲清認(rèn)為,將聚焦于推理擴(kuò)展、多模態(tài)能力提升和生態(tài)系統(tǒng)優(yōu)化三個(gè)核心方向。
首要突破點(diǎn)是推理擴(kuò)展。當(dāng)前通用智能體在處理復(fù)雜任務(wù)時(shí),仍需攻克數(shù)據(jù)抓取、圖表繪制、用戶反饋交互等數(shù)十個(gè)細(xì)分難題,這些都依賴強(qiáng)化學(xué)習(xí)的反事實(shí)推理能力的提升,而非簡(jiǎn)單堆疊深度學(xué)習(xí)模型或增強(qiáng)生成功能。在復(fù)雜 Agent 任務(wù)上,人類標(biāo)注數(shù)據(jù)將越來(lái)越難以獲取,模型自學(xué)習(xí)能力將變得無(wú)比重要。
多模態(tài)能力的提升同樣關(guān)鍵。現(xiàn)有系統(tǒng)的視覺(jué)理解和生成缺陷導(dǎo)致其無(wú)法完美完成“圖文轉(zhuǎn)換”等跨模態(tài)任務(wù),特別是在圖中和視頻中穩(wěn)定添加文字這類任務(wù)。實(shí)現(xiàn)文本、圖像、視頻等模態(tài)的統(tǒng)一表征與聯(lián)合推理,是突破復(fù)雜工作流自動(dòng)化障礙的重要能力之一。
生態(tài)系統(tǒng)的優(yōu)化則涉及工具調(diào)用效率與智能體協(xié)作機(jī)制。盡管 MCP(Multi-Agent Communication Protocol)等協(xié)議為多智能體交互提供了可能,但不容忽視的是,當(dāng)前存在的穩(wěn)定性低下、工程效率低、token 消耗大等問(wèn)題亟待解決。
“實(shí)現(xiàn)動(dòng)作集成的無(wú)縫化將是行業(yè)共同目標(biāo)。我希望未來(lái)與團(tuán)隊(duì)可以將強(qiáng)化學(xué)習(xí)智能體工具空間的優(yōu)化做得更好。”朱哲清說(shuō)。
參考資料:
1.https://www.jmlr.org/papers/volume25/24-0196/24-0196.pdf
2.https://arxiv.org/abs/2310.09426
3.https://arxiv.org/abs/2305.13747
4.https://arxiv.org/abs/2412.04484
5.https://arxiv.org/abs/2507.21983
6.https://www.zheqingbillzhu.com/
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.