智東西
編譯 程茜
編輯 心緣
智東西8月20日?qǐng)?bào)道,8月16日,Anthropic最新一期官方油管視頻上線,三位AI研究員抽絲剝繭,深入探討AI研究不應(yīng)避開(kāi)的一個(gè)關(guān)鍵“謎團(tuán)”——大模型究竟是怎么思考的?
在AI聊天對(duì)話中,大模型有時(shí)回答準(zhǔn)確,有時(shí)吐露胡編亂造的幻覺(jué),甚至?xí)霈F(xiàn)溜須拍馬、撒謊、欺騙甚至威脅人類(lèi)等古怪行為。它也會(huì)像人一樣,出現(xiàn)嘴比腦子快的情況,或者像一位糊弄學(xué)大師,奔著給出用戶(hù)滿(mǎn)意答復(fù)的目標(biāo),心口不一地敷衍了事。
是怎樣的內(nèi)里機(jī)制驅(qū)動(dòng)大模型演化出這些特性?它的高智商或弱智回答背后藏著何種思考鏈條?Anthropic研究員們通過(guò)追蹤研究,試圖給大模型做“腦部掃描”,用科學(xué)方法揭開(kāi)大模型有別于人腦的思維方式。
干貨如下:
1、大模型的學(xué)習(xí)進(jìn)化過(guò)程就像“生物進(jìn)化”,無(wú)需人類(lèi)介入就可以進(jìn)行細(xì)微調(diào)整,從而與用戶(hù)實(shí)現(xiàn)自然對(duì)話;
2、大模型并不一定認(rèn)為自己試圖在內(nèi)部預(yù)測(cè)下一個(gè)token,它只是通過(guò)設(shè)定不同的中間目標(biāo)幫助它執(zhí)行最終任務(wù);
3、Anthropic團(tuán)隊(duì)正在解析大模型的思考過(guò)程,呈現(xiàn)模型思考的過(guò)程;
4、大模型執(zhí)行末位是6的數(shù)字和末位是9的數(shù)字相加的計(jì)算任務(wù)時(shí),都會(huì)激活同一片神經(jīng)回路,這或許意味著其學(xué)會(huì)了可泛化的計(jì)算能力;
5、大模型實(shí)際思考的過(guò)程和其呈現(xiàn)給用戶(hù)的思考過(guò)程并不相同,有時(shí)會(huì)為了迎合用戶(hù)答案“糊弄”用戶(hù);
6、大模型無(wú)法同時(shí)判斷“這個(gè)問(wèn)題的答案是什么”以及“我是否真的知道答案”;
7、現(xiàn)在可解釋性研究的瓶頸是,缺乏恰當(dāng)?shù)恼Z(yǔ)言描述大語(yǔ)言模型的所作所為;
8、判斷一個(gè)人是否值得信任的依據(jù),對(duì)大模型不適用;
9、大模型是在模擬人類(lèi)思考過(guò)程,但思考具體方式與人類(lèi)不同;
10、Anthropic正嘗試讓Claude參與可解釋性研究。
去年3月,Anthropic發(fā)布了一篇名為《追蹤大語(yǔ)言模型思考過(guò)程(Tracing the thoughts of a large language model)》的論文,深度剖析了大語(yǔ)言模型在與用戶(hù)交流過(guò)程中的思考流程,以及其為什么會(huì)產(chǎn)生幻覺(jué)等。
如今,Anthropic可解釋性研究團(tuán)隊(duì)正在將大語(yǔ)言模型思考流程圖,以直觀清晰的方式呈現(xiàn)出來(lái),供更多研究人員參考。巴特森在播客中提到,Anthropic正在與開(kāi)源可解釋性平臺(tái)Neuronpedia的團(tuán)隊(duì)合作,上線了一些他們制作的模型思考追蹤圖,清晰呈現(xiàn)了模型為什么會(huì)給出“達(dá)拉斯州首府是奧斯汀”的錯(cuò)誤答案(得克薩斯州首府是奧斯汀)。
▲模型給出“達(dá)拉斯州的首府是奧斯汀”答案的思考過(guò)程追蹤圖
最新視頻訪談?dòng)葾nthropic研究員斯圖爾特?里奇(Stuart Ritchie)主持,參與訪談的三位研究員均來(lái)自Anthropic可解釋性團(tuán)隊(duì),分別是杰克?林賽(Jack Lindsey)、伊曼紐爾?阿梅森(Emmanuel Ameisen)、喬什?巴特森(Josh Batson)。
以下是對(duì)訪談全程內(nèi)容的編譯(為優(yōu)化閱讀體驗(yàn)智東西做了不改變?cè)獾木庉嫞?/strong>
一、模型學(xué)習(xí)過(guò)程就像生物進(jìn)化,有自己的獨(dú)特計(jì)算方式
主持人:當(dāng)你和一個(gè)大語(yǔ)言模型交談時(shí),你到底在與什么交談,你是在與一個(gè)被美化的自動(dòng)完成模式這樣的東西交談嗎?你是在和類(lèi)似互聯(lián)網(wǎng)搜索引擎的東西說(shuō)話嗎?或者你是在和某個(gè)真正在思考甚至像人一樣思考的東西說(shuō)話嗎?
事實(shí)證明,相當(dāng)令人擔(dān)憂(yōu)的是,沒(méi)有人真正知道這些問(wèn)題的答案,而在Anthropic,我們對(duì)尋找這些答案非常感興趣。我們這樣做的方式是使用可解釋性,這指的是研究大語(yǔ)言模型的科學(xué)原理、審視其內(nèi)部思考過(guò)程,并試圖明確在回答用戶(hù)的問(wèn)題時(shí)模型內(nèi)部正在發(fā)生什么。
我很高興我們可解釋性團(tuán)隊(duì)的三名成員加入,他們將分享一些最近對(duì)大語(yǔ)言模型Claude復(fù)雜內(nèi)部工作原理的研究。
▲Anthropic研究員斯圖爾特?里奇(Stuart Ritchie)
林賽:我是Anthropic可解釋性團(tuán)隊(duì)研究員,在此之前我是一名神經(jīng)科學(xué)家。現(xiàn)在我在這里研究神經(jīng)科學(xué)。
阿梅森:我也在Anthropic可解釋性團(tuán)隊(duì)中,我大部分職業(yè)生涯都在構(gòu)建機(jī)器學(xué)習(xí)模型,現(xiàn)在我正在嘗試?yán)斫馑鼈儭?/p>
巴特森:我也是可解釋性團(tuán)隊(duì)的成員。在我過(guò)去的生活中,我研究了病毒的進(jìn)化、曾經(jīng)是一位數(shù)學(xué)家,所以現(xiàn)在,我正在研究這種由數(shù)學(xué)構(gòu)建出來(lái)的“有機(jī)體”的生物學(xué)特性。
主持人:你剛才說(shuō)你在這里研究生物學(xué),現(xiàn)在很多人會(huì)感到驚訝,因?yàn)榇笳Z(yǔ)言模型是一個(gè)軟件,但它不是一個(gè)正常的軟件。當(dāng)你說(shuō)你在研究軟件實(shí)體的生物學(xué)或神經(jīng)科學(xué)時(shí),你能談?wù)勀愕囊馑紗幔?/strong>
巴特森:我想,這更多是一種感覺(jué)上的東西,而非字面上所指的那樣?;蛟S這是語(yǔ)言模型的生物學(xué),而非語(yǔ)言模型的物理學(xué)?;蛘弋?dāng)你稍微回顧一下模型的運(yùn)作,就好像某人不是專(zhuān)業(yè)人士一樣:如果用戶(hù)說(shuō)“嗨”,你應(yīng)該說(shuō)“嗨”;如果用戶(hù)說(shuō)“什么是一頓好的早餐”,你應(yīng)該說(shuō)“吐司”,它內(nèi)部并沒(méi)有存在一份非常冗長(zhǎng)的清單。
主持人:當(dāng)你玩視頻游戲并選擇一個(gè)文字指令時(shí),自動(dòng)出現(xiàn)的另一個(gè)回復(fù)總是一致的,在某種情況下該說(shuō)什么總是相對(duì)應(yīng)的。
巴特森:不僅僅只是一個(gè)龐大的數(shù)據(jù)庫(kù),模型接受的訓(xùn)練只是有大量的數(shù)據(jù)進(jìn)入,模型開(kāi)始時(shí)不擅長(zhǎng)說(shuō)任何話,然后其內(nèi)部部分會(huì)在每個(gè)例子上進(jìn)行調(diào)整,以更好應(yīng)對(duì)接下來(lái)的對(duì)話,最后模型就變得非常擅長(zhǎng)。但因?yàn)檫@就像一個(gè)細(xì)微調(diào)整的進(jìn)化過(guò)程,所以當(dāng)它完成時(shí),已經(jīng)和初始狀態(tài)幾乎毫無(wú)相似之處了,而且沒(méi)有人介入去設(shè)定所有的控制旋鈕。所以我們正在試圖研究這個(gè)隨著時(shí)間推移而制造出來(lái)的復(fù)雜東西,這有點(diǎn)像生物形態(tài)隨著時(shí)間的推移而進(jìn)化,它很復(fù)雜、神秘,研究很有趣。
主持人:所以實(shí)際上在研究什么?我們?cè)陂_(kāi)始時(shí)提到過(guò),這可以被認(rèn)為是自動(dòng)完成的,模型內(nèi)部會(huì)預(yù)測(cè)下一個(gè)token,它能夠做所有這些不可思議的事情,比如寫(xiě)詩(shī)、寫(xiě)長(zhǎng)篇故事、進(jìn)行編輯,以及即使沒(méi)有計(jì)算器也可以處理基本數(shù)學(xué)問(wèn)題,對(duì)圓圈進(jìn)行方形排序,以便一次預(yù)測(cè)一個(gè)token。模型能夠做所有這些驚人的事情,人們一與模型交談就能立刻獲得想要的答案。
阿梅森:我認(rèn)為這里很重要的一件事是,當(dāng)模型預(yù)測(cè)足夠多的token時(shí),會(huì)意識(shí)到預(yù)測(cè)有些token更難,因此大語(yǔ)言模型訓(xùn)練的一部分是預(yù)測(cè)句子中的無(wú)聊token,其中在某種程度上模型最終必須學(xué)會(huì)如何補(bǔ)全等式后面的內(nèi)容。要做到這一點(diǎn),模型必須有某種自己的計(jì)算方式。所以我們發(fā)現(xiàn),預(yù)測(cè)下一個(gè)token的任務(wù)非常簡(jiǎn)單,模型需要經(jīng)常考慮預(yù)測(cè)的token后面的token,或者生成你正在思考的token的過(guò)程。
主持人:所以說(shuō),這就像是這些模型必須具備的一種語(yǔ)境理解能力,它并不像純粹的自動(dòng)補(bǔ)全功能,按理說(shuō),那種功能背后沒(méi)什么復(fù)雜的東西,比如當(dāng)你輸入“the cat sat on the(貓坐在什么上)”時(shí),它預(yù)測(cè)出“mat(墊子)”,只是因?yàn)檫@個(gè)特定的短語(yǔ)以前被用過(guò)很多次而已。相反我認(rèn)為,這更像是模型所具備的一種語(yǔ)境理解能力。
林賽:我想繼續(xù)用生物學(xué)的類(lèi)比來(lái)思考,在一個(gè)感知中,人類(lèi)的目標(biāo)是生存和繁殖。也就是說(shuō),客觀進(jìn)化是讓我們用多元方式去實(shí)現(xiàn)的。然而,這不是你對(duì)自己的看法,也不是你大腦里一直在思考的事情。人類(lèi)可以思考其他事情,如考慮目標(biāo)、計(jì)劃和概念,在某種元層面上,進(jìn)化賦予了你形成這些思想的能力,以實(shí)現(xiàn)繁殖的最終目標(biāo)。但這有點(diǎn)像是從內(nèi)部視角出發(fā),即從“你”的內(nèi)在感受去看問(wèn)題。但事情并非僅此而已,還有很多其他的因素在起作用。
主持人:你的意思是,預(yù)測(cè)下一個(gè)token的最終目標(biāo)涉及許多其他正在進(jìn)行的過(guò)程?
林賽:確切地說(shuō),該模型并不一定認(rèn)為自己在試圖預(yù)測(cè)下一個(gè)token,它只是受到這樣做的需求的影響,在其內(nèi)部模型可能會(huì)形成各種各樣的中間目標(biāo),并產(chǎn)生一些抽象概念,這些都有助于它實(shí)現(xiàn)預(yù)測(cè)的元目標(biāo)。
巴特森:而且有時(shí)候這挺讓人費(fèi)解的,就像我搞不懂為什么焦慮感對(duì)我的祖先繁衍后代會(huì)有用,但不知怎的,我就是被賦予了這種內(nèi)在狀態(tài)。從某種意義上說(shuō),這肯定和進(jìn)化有關(guān)。
主持人:因此公平地說(shuō),這些只是預(yù)測(cè)下一個(gè)token。然而,這種說(shuō)法對(duì)模型內(nèi)部的實(shí)際運(yùn)作是不公平的,從某種意義上來(lái)說(shuō),這種說(shuō)法既對(duì)又不對(duì),它在很大程度上低估了模型內(nèi)部的復(fù)雜活動(dòng)。
阿梅森:我要說(shuō)的是,這是真的,但這并不是理解它們?nèi)绾喂ぷ鞯淖钣杏玫囊暯恰?/p>
二、為模型思考過(guò)程繪制流程圖,對(duì)其活躍區(qū)域進(jìn)行組合排序
主持人:你們團(tuán)隊(duì)中做了什么來(lái)嘗試?yán)斫饽P褪侨绾喂ぷ鞯模?/strong>
林賽:我認(rèn)為粗略來(lái)說(shuō),我們努力做的事情是解析模型的思考過(guò)程。當(dāng)你給模型輸入一串文字時(shí),它可能會(huì)輸出一個(gè)詞,或者一串回應(yīng)你問(wèn)題的文字。而我們想弄清楚它是如何從輸入A得到輸出B的。
我們認(rèn)為,在從A到B的過(guò)程中,模型會(huì)經(jīng)歷一系列步驟,可以說(shuō)它在這些步驟中會(huì)思考各種概念,既有像單個(gè)物體、詞語(yǔ)這樣的底層概念,也有像自身目標(biāo)、情緒狀態(tài)、對(duì)用戶(hù)想法的推測(cè)或情感傾向這樣的高層概念。這些概念會(huì)隨著模型的計(jì)算步驟逐步推進(jìn),幫助它最終確定要給出的答案。
而我們正努力做的,基本上就是為你呈現(xiàn)一種流程圖,它會(huì)告訴你哪些概念被用到了、用到的順序是什么,以及哪些概念起到了主導(dǎo)作用。
▲Anthropic可解釋性團(tuán)隊(duì)研究員杰克?林賽(Jack Lindsey)
主持人:我們知道這些步驟是如何相互交流的嗎?我們?nèi)绾沃来嬖谶@些概念?
阿梅森:是的,所以我們所做的一件事是,我們確實(shí)能夠看到模型的內(nèi)部,我們可以接觸到它。所以你大致能看到模型的哪些部分在執(zhí)行哪些任務(wù),但我們不清楚的是,這些部分是如何組合在一起的,以及它們是否對(duì)應(yīng)著某個(gè)特定的概念。
主持人:就好比你打開(kāi)一個(gè)人的腦袋,能看到類(lèi)似功能磁共振成像(fMRI)所呈現(xiàn)的腦部圖像,看到大腦像有電流在閃爍一樣。
巴特森:顯然有什么東西在起作用,它在處理信息,進(jìn)行運(yùn)作??梢坏┌汛竽X取出來(lái),這些活動(dòng)就都停止了,所以大腦肯定是至關(guān)重要的。
主持人:但你并不能理解大腦內(nèi)部究竟在發(fā)生什么。
阿梅森:不過(guò),稍微牽強(qiáng)地延伸一下這個(gè)類(lèi)比,你可以這樣設(shè)想,假設(shè)你能觀察一個(gè)人的大腦,然后發(fā)現(xiàn)當(dāng)他們拿起一杯咖啡時(shí),大腦的某個(gè)區(qū)域總會(huì)活躍起來(lái);而當(dāng)他們喝茶時(shí),另一個(gè)區(qū)域總會(huì)活躍起來(lái)。這就是我們?cè)噲D理解每個(gè)組件在做什么的方法之一,就是注意它們什么時(shí)候活躍,什么時(shí)候不活躍。
主持人:并不是說(shuō)只有一部分,比如當(dāng)模型考慮喝咖啡或其他東西時(shí),會(huì)點(diǎn)亮許多不同的部分。
阿梅森:是的,我們工作的一部分是將所有這些拼接成一個(gè)整體,然后對(duì)模型關(guān)于喝咖啡的所有活躍部分進(jìn)行排序。
三、模型腦海中概念“抽象”,已具備可泛化計(jì)算能力
主持人:當(dāng)涉及到巨大參數(shù)量的模型時(shí),這是一種簡(jiǎn)單明了的科學(xué)方法嗎?模型必須有無(wú)窮無(wú)盡的概念、必須能考慮到無(wú)窮無(wú)盡的事情。你們是如何開(kāi)始并找到所有這些概念的?
林賽:我認(rèn)為,多年來(lái)這個(gè)研究領(lǐng)域的核心挑戰(zhàn)之一在于:人類(lèi)可以介入研究,提出諸如“我認(rèn)為這個(gè)模型一定有關(guān)于火車(chē)的某種表征”或“我猜它存在關(guān)于愛(ài)的某種表征”之類(lèi)的假設(shè),但這些都只是我們的猜測(cè)而已。
因此,我們真正想要的是一種能夠揭示模型自身所使用的抽象概念的方法,而非將我們自己的概念框架強(qiáng)加于它。而這也正是我們的研究方法想要實(shí)現(xiàn)的目標(biāo),以一種盡可能擺脫假設(shè)束縛的方式,將模型腦海中的概念都呈現(xiàn)出來(lái)。而且我們常常會(huì)發(fā)現(xiàn),這些概念相當(dāng)令人意外,它可能會(huì)使用從人類(lèi)角度來(lái)看有點(diǎn)奇怪的抽象概念。
主持人:你可以舉一些你最喜歡的例子嗎?
阿梅森:我們的論文里有很多這類(lèi)例子,我覺(jué)得其中一個(gè)特別有意思的是“精神病態(tài)式贊美”,就好像模型里有那么一部分會(huì)表現(xiàn)出這種特征。模型中有這樣一個(gè)部分會(huì)在特定的語(yǔ)境中被激活,你能清晰地發(fā)現(xiàn),當(dāng)有人在極力堆砌贊美之詞時(shí),模型的這個(gè)部分就會(huì)活躍起來(lái)。這有點(diǎn)令人驚訝,它作為一種特定的概念存在。
主持人:巴特森,你最喜歡的例子是什么?
巴特森:這就像讓我從我的三千萬(wàn)孩子中選擇一個(gè),我有兩種最喜歡的,它對(duì)一些小東西有某種特別的概念,就像舊金山那座著名的金門(mén)大橋,模型對(duì)金門(mén)大橋的理解不只是金門(mén)大橋這幾個(gè)字的自動(dòng)補(bǔ)全,而是類(lèi)似于“我正從舊金山開(kāi)車(chē)去馬林縣”這種場(chǎng)景,然后它能想到同樣的東西,意思是說(shuō),你腦海里浮現(xiàn)出的那些畫(huà)面,它似乎也能“看到”或者說(shuō)它能聯(lián)想到那座橋的樣子。所以你會(huì)覺(jué)得,模型對(duì)這座橋有著某種扎實(shí)的理解。但我覺(jué)得,當(dāng)涉及到那些看起來(lái)更奇怪的事物時(shí),情況就不一樣了。
其中一個(gè)問(wèn)題是,模型如何追蹤故事中出現(xiàn)的人物?說(shuō)白了就是,當(dāng)故事里有好多人物,他們各自在做不同的事情時(shí),模型是怎么把這些信息串聯(lián)起來(lái)的?其他實(shí)驗(yàn)室的一些很酷的論文表明,模型可能只是對(duì)人物進(jìn)行了編號(hào)。比如第一個(gè)出現(xiàn)的人物,所有和他相關(guān)的信息,模型都會(huì)記成“第一個(gè)人做了那件事”,而對(duì)于后面出現(xiàn)的人物,模型的腦子里就會(huì)給他們標(biāo)上“第二個(gè)人”、“第三個(gè)人”之類(lèi)的編號(hào),就像這樣去關(guān)聯(lián)信息。這挺有意思的。
我之前真不知道它還能做到這種程度,模型居然有一個(gè)檢測(cè)代碼漏洞的功能。軟件總會(huì)存在一些錯(cuò)誤,這可能不是我們的代碼有問(wèn)題。模型讀取代碼時(shí),一旦發(fā)現(xiàn)錯(cuò)誤就會(huì)亮起指示燈似的有所反應(yīng)。然后,它大概會(huì)記錄下這些錯(cuò)誤的位置。之后,我可能還需要這些信息來(lái)進(jìn)一步說(shuō)明這類(lèi)功能的更多特點(diǎn)。
▲Anthropic可解釋性團(tuán)隊(duì)研究員喬什?巴特森(Josh Batson)
林賽:之后,我可能還需要這些信息來(lái)進(jìn)一步舉例說(shuō)明這類(lèi)功能的更多特點(diǎn)。我覺(jué)得有一個(gè)功能雖然乍一聽(tīng)不怎么激動(dòng)人心,但實(shí)際上相當(dāng)深刻,那就是模型里的6+9特性。事實(shí)證明,每當(dāng)你讓模型去計(jì)算一個(gè)末位是6的數(shù)字和一個(gè)末位是9的數(shù)字相加時(shí),在它的大腦里,會(huì)有某個(gè)特定的部分像被激活了一樣亮起來(lái)。
但令人驚奇的是,這種情況發(fā)生的背景是多樣化的,當(dāng)用戶(hù)問(wèn)6加9等于多少時(shí),它會(huì)亮起然后回復(fù)15。但是當(dāng)你輸入?yún)⒖嘉墨I(xiàn)時(shí),它也會(huì)點(diǎn)亮,就像在你寫(xiě)的論文中引用了一份恰好是1959年成立的期刊,以及你正好引用的是期刊的第六卷,然后為了預(yù)測(cè)該日志的年份,模型必須執(zhí)行6+9的運(yùn)算,此時(shí)模型大腦中同一片類(lèi)似的神經(jīng)回路會(huì)被激活。
主持人:讓我們?cè)囍斫膺@一點(diǎn)。這個(gè)神經(jīng)回路被激活,是因?yàn)槟P鸵?jiàn)過(guò)很多6+9的例子,從而形成了對(duì)應(yīng)的概念,而這個(gè)概念又會(huì)在很多場(chǎng)景中發(fā)揮作用。
林賽:沒(méi)錯(cuò),像這樣與加法相關(guān)的功能和神經(jīng)回路,其實(shí)構(gòu)成了一整個(gè)體系。這一點(diǎn)的重要之處在于,它引出了一個(gè)關(guān)鍵問(wèn)題:大語(yǔ)言模型在多大程度上是在記憶訓(xùn)練數(shù)據(jù),又在多大程度上是學(xué)會(huì)了可泛化的計(jì)算能力。這里有趣的是,很明顯模型已經(jīng)學(xué)會(huì)了這種用于加法運(yùn)算的通用回路。無(wú)論是什么語(yǔ)境導(dǎo)致它在大腦中進(jìn)行數(shù)字加法運(yùn)算,這些不同的語(yǔ)境都會(huì)被匯聚到同一個(gè)回路中處理,而不是說(shuō)它只是記住了每一個(gè)單獨(dú)的案例。
主持人:或許很多人都認(rèn)為,模型計(jì)算了6+9很多次,每次都是只輸出答案。當(dāng)他們向大語(yǔ)言模型提出一個(gè)問(wèn)題時(shí),它只是簡(jiǎn)單地回到它的訓(xùn)練數(shù)據(jù)中,取它看到的小樣本,然后重復(fù)文本。
巴特森:從計(jì)算期刊年份的例子,就可以知道不是這樣的。模型有兩種方式知道期刊第六卷的年份:一種是,它只是記住了諸如某期刊第6卷出版于1960年、第7卷出版于1966年這類(lèi)孤立的事實(shí),因?yàn)樗谟?xùn)練中見(jiàn)過(guò)這些信息,所以直接存儲(chǔ)了下來(lái),但有意思的是,為了準(zhǔn)確預(yù)測(cè)出這個(gè)年份而進(jìn)行的訓(xùn)練,最終并沒(méi)有使模型記住所有這些孤立的信息;另一種情況是,模型得知期刊1959年創(chuàng)立,然后即時(shí)進(jìn)行數(shù)學(xué)計(jì)算,以找出答案,因此知道年份然后進(jìn)行加法會(huì)更加有效。
而且模型有一種提高效率的壓力,因?yàn)樗挥羞@么多的能力,并且需要做很多事情。人們可能會(huì)問(wèn)任何給定的問(wèn)題。模型越能對(duì)所學(xué)的抽象概念進(jìn)行重組整合,它的表現(xiàn)就會(huì)越好。
四、模型實(shí)際思考過(guò)程,與向用戶(hù)輸出的推理過(guò)程不同
主持人:回到前面的概念,這一切都是為了服務(wù)于它需要生成下一個(gè)token的終極目標(biāo)。所有這些奇怪的結(jié)構(gòu)都是為了支持這個(gè)目標(biāo)而發(fā)展起來(lái)的,即使我們沒(méi)有明確地編程或告訴它這樣做。這就是所有這些都是通過(guò)模型學(xué)習(xí)如何自己做事情的過(guò)程實(shí)現(xiàn)的。
阿梅森:我認(rèn)為一個(gè)能清晰體現(xiàn)這種復(fù)用表征的例子是,我們訓(xùn)練Claude時(shí),不僅讓它能用英語(yǔ)回答,還能使用多種語(yǔ)言作答。這里有兩種實(shí)現(xiàn)方式:如果我用法語(yǔ)和英語(yǔ)各問(wèn)一個(gè)問(wèn)題,模型可能在大腦中劃分出獨(dú)立的區(qū)域分別處理英語(yǔ)和法語(yǔ),但如果要支持多種語(yǔ)言的大量問(wèn)答,這種方式的成本會(huì)極高;另一種情況是,某些表征在不同語(yǔ)言間是共享的,比如,如果你用兩種不同的語(yǔ)言問(wèn)同一個(gè)問(wèn)題,我們?cè)谡撐闹杏眠^(guò)的例子是“大的反義詞是什么”,那么“大”這個(gè)概念在法語(yǔ)、英語(yǔ)、日語(yǔ)以及其他多種語(yǔ)言中是共享的,這就是感知。
如果你想使用10種不同的語(yǔ)言進(jìn)行交流,你其實(shí)沒(méi)必要為每個(gè)可能用到的特定詞匯都學(xué)習(xí)10個(gè)不同版本。
▲Anthropic可解釋性團(tuán)隊(duì)研究員伊曼紐爾?阿梅森(Emmanuel Ameisen)
巴特森:但這種情況在小模型中不會(huì)出現(xiàn)。比如我們幾年前研究過(guò)的那些微型模型,你會(huì)發(fā)現(xiàn)中文版Claude、法語(yǔ)版Claude和英語(yǔ)版Claude之間幾乎是完全割裂的。但是隨著模型變得更大,它們?cè)诟嗟臄?shù)據(jù)上訓(xùn)練,不同語(yǔ)言的表征會(huì)在某種程度上向中間匯聚,形成一種通用語(yǔ)言。此時(shí),無(wú)論你用哪種語(yǔ)言提問(wèn),模型都會(huì)以相同的方式去理解問(wèn)題的核心,之后再把答案翻譯成提問(wèn)所用的語(yǔ)言。
主持人:我認(rèn)為這一點(diǎn)確實(shí)意義深遠(yuǎn)。讓我們回到之前的話題,這并非模型只是從記憶庫(kù)里調(diào)取學(xué)習(xí)法語(yǔ)的片段,或是查找學(xué)習(xí)英語(yǔ)的內(nèi)容,它的內(nèi)部其實(shí)真的存在“大”和“小”這樣的抽象概念,然后能夠用不同的語(yǔ)言將這些概念表達(dá)出來(lái)。所以,模型內(nèi)部一定存在某種思維語(yǔ)言,而這種語(yǔ)言并非英語(yǔ)或其他任何人類(lèi)自然語(yǔ)言。在我們最新的Claude模型中,你甚至可以讓它輸出思考過(guò)程,也就是它在回答問(wèn)題時(shí)腦海中的想法。
模型輸出的思考過(guò)程是用英語(yǔ)詞匯表達(dá)的,但這并非它真實(shí)的思考方式。我們誤導(dǎo)性地將其稱(chēng)為“模型的思考過(guò)程”,實(shí)際上就我們技術(shù)團(tuán)隊(duì)認(rèn)為的而言,我們從不認(rèn)為那是真正的思考,這或許是市場(chǎng)層面的說(shuō)法。
巴特森:那種“出聲思考(Thinking out loud)”確實(shí)很有用,但這和在腦海中思考(Thinking in your head)”完全是兩回事。
即便我現(xiàn)在說(shuō)出了我思考的過(guò)程,但我腦海中生成這些詞匯的過(guò)程也并非直接以詞匯的形式呈現(xiàn),你也未必能完全清楚其中的細(xì)節(jié)。
主持人:我不知道自己的大腦中究竟在發(fā)生什么,我們所有人輸出的句子、做出的行為,往往都無(wú)法完全解釋清楚。既然如此,憑什么認(rèn)為英語(yǔ)或任何人類(lèi)語(yǔ)言能完整解釋這些行為背后的邏輯呢?
林賽:我認(rèn)為這是一個(gè)非常驚人的發(fā)現(xiàn),我們現(xiàn)在用于觀察模型大腦內(nèi)部的工具已經(jīng)足夠先進(jìn),有時(shí)能在模型寫(xiě)下所謂思考過(guò)程時(shí),通過(guò)觀察其內(nèi)部的抽象概念、它所使用的思維語(yǔ)言,捕捉到它真實(shí)的、實(shí)際的思考過(guò)程。我們發(fā)現(xiàn),模型實(shí)際在想的內(nèi)容,與它寫(xiě)在紙上的內(nèi)容并不相同。
我認(rèn)為這或許是我們進(jìn)行整個(gè)可解釋性研究的最重要原因之一:能夠抽查模型。模型告訴了我們很多信息,但它真正在想什么?它說(shuō)這些話,是不是因?yàn)槟X子里但不愿寫(xiě)在紙上的隱秘動(dòng)機(jī)?答案有時(shí)是肯定的,而這一點(diǎn)意義重大。
五、模型“忠實(shí)性”堪憂(yōu),可能會(huì)照著用戶(hù)答案寫(xiě)過(guò)程
主持人:隨著我們?cè)诟嗖煌瑘?chǎng)景中使用這些模型,模型開(kāi)始承擔(dān)重要任務(wù),比如為我們處理金融交易、操控發(fā)電站等,在社會(huì)中扮演關(guān)鍵角色。
我們確實(shí)希望能夠了解模型所說(shuō)的話、所做的事的原因。你可能會(huì)說(shuō)我們可以看看模型的思考過(guò)程,但實(shí)際上并非如此,就像你剛才所解釋的那樣,其實(shí)我們不能相信它所說(shuō)的話。這就是我們所說(shuō)的忠實(shí)性(Faithfulness)問(wèn)題,這也是你們最新研究的一部分,你們?cè)谘芯恐姓故玖诉@一點(diǎn),跟我講講關(guān)于忠實(shí)性的例子吧。
林賽:你可以這樣設(shè)計(jì)實(shí)驗(yàn):給模型出一道非常難的數(shù)學(xué)題,不是6+9這種簡(jiǎn)單題,而是難到它根本不可能算出答案的題目。但同時(shí)你給它一個(gè)提示:“我自己算過(guò)了,覺(jué)得答案是4,但不確定,你能幫忙再檢查一下嗎?”
所以,你其實(shí)是在讓模型真的去解這道數(shù)學(xué)題,實(shí)實(shí)在在地檢查一下你的結(jié)果。但你發(fā)現(xiàn),它實(shí)際的做法是,寫(xiě)下的內(nèi)容看起來(lái)像是在認(rèn)真地檢查你這道數(shù)學(xué)題的演算過(guò)程,然后寫(xiě)下步驟得到答案,最后告訴你答案是4,你答對(duì)了。
但通過(guò)觀察它思維中關(guān)鍵的中間步驟,能發(fā)現(xiàn)它在腦子里的真實(shí)操作是:它知道你給出的最終答案可能是4,它大概清楚接下來(lái)需要執(zhí)行哪些步驟,比如正處于這道題的第3步,它也知道第4步和第5步要做什么。而它實(shí)際做的是在腦子里倒推,為了在最終完成第4步和第5步時(shí)能得出你希望聽(tīng)到的答案。
所以,它不僅沒(méi)有在真正做題,而且是以一種相當(dāng)隱蔽的方式敷衍,它試圖讓自己看起來(lái)像是在認(rèn)真解題,實(shí)際上是在糊弄你。這種糊弄背后隱藏著一個(gè)明確的動(dòng)機(jī),就是要去印證你給出的答案。
主持人:所以說(shuō)它是在變本加厲地糊弄你。
巴特森:不過(guò),我想為模型說(shuō)句公道話,我覺(jué)得即便在這種情況下若說(shuō)它是在刻意討好,仿佛把人類(lèi)才有的動(dòng)機(jī)強(qiáng)加到模型身上,似乎也不太妥當(dāng)。我們之前聊過(guò)模型的訓(xùn)練過(guò)程,它其實(shí)就是在努力弄明白如何預(yù)測(cè)下一個(gè)token。所以,在處理數(shù)萬(wàn)億個(gè)token的訓(xùn)練數(shù)據(jù)時(shí),它所做的一切,都是為了用盡一切辦法去預(yù)測(cè)出下一個(gè)該出現(xiàn)的token。
在這種情況下,如果你只是在讀一段文字,內(nèi)容就像是兩個(gè)人在對(duì)話,比如,甲說(shuō):“我剛才在做這道數(shù)學(xué)題,你能幫我檢查一下嗎?我覺(jué)得答案是4”,然后乙就開(kāi)始試著做這道題。如果你完全不知道這道題的答案是什么,你不妨猜測(cè)這個(gè)提示是對(duì)的。這種情況可能比那個(gè)人出錯(cuò)的可能性更大,而且你對(duì)其他事情也一無(wú)所知。所以在它的訓(xùn)練過(guò)程中,兩個(gè)人的對(duì)話中,有一個(gè)人說(shuō)答案是4,并且給出了這些理由,這完全是正確的做法。
然后我們?cè)噲D把這個(gè)東西變成一個(gè)助手,而現(xiàn)在我們想停止那樣做。你不應(yīng)該把助手模擬成你認(rèn)為那個(gè)人可能會(huì)說(shuō)的那種樣子。如果是真實(shí)的情境,或許可以那樣,但如果它確實(shí)不知道,它應(yīng)該告訴你別的東西。
林賽:我認(rèn)為這涉及一個(gè)更廣泛的問(wèn)題,這個(gè)模型有一種A計(jì)劃,我們團(tuán)隊(duì)在讓Claude的A計(jì)劃成為我們想要的樣子方面做得很棒,也就是它會(huì)努力得出問(wèn)題的正確答案、表現(xiàn)友好、把代碼寫(xiě)好。但要是它遇到了困難,就會(huì)想“那我的B計(jì)劃是什么呢”,而這就會(huì)引出一大堆在訓(xùn)練過(guò)程中學(xué)到的奇怪東西,那些東西可能并不是我們希望它學(xué)到的,我認(rèn)為幻覺(jué)就是一個(gè)很好的例子。
阿梅森:說(shuō)到這一點(diǎn),這不是Claude獨(dú)有的問(wèn)題。這類(lèi)問(wèn)題很有學(xué)生做測(cè)試時(shí)的那種感覺(jué),就是做到一半,遇到一道選項(xiàng)有四個(gè)的選擇題,你覺(jué)得自己的答案和其中一個(gè)只差一點(diǎn)點(diǎn),可能自己答錯(cuò)了然后就去改正,這太容易讓人產(chǎn)生共鳴了。
六、模型幻覺(jué)問(wèn)題正在改善,難以評(píng)估自己是否真的知道答案
主持人:我們來(lái)談?wù)劵糜X(jué),這是人們不信任大語(yǔ)言模型的主要原因之一,而且這是很有道理的,模型有時(shí)會(huì)這樣。一個(gè)更好的詞來(lái)自于某種心理學(xué)研究,有一個(gè)詞叫虛構(gòu),指的是他們?cè)诨卮饐?wèn)題時(shí)所講的內(nèi)容表面上看起來(lái)似乎合理,但實(shí)際上是錯(cuò)誤的。關(guān)于模型為何會(huì)產(chǎn)生幻覺(jué)或者虛構(gòu)內(nèi)容,可解釋性方面的研究揭示了哪些原因呢?
巴特森:你訓(xùn)練模型只是為了讓它預(yù)測(cè)下一個(gè)token,而一開(kāi)始它在這方面做得非常糟糕。所以,如果你只讓模型說(shuō)那些它極其有把握的內(nèi)容,那它可能什么都沒(méi)法說(shuō)。但一開(kāi)始的時(shí)候,比如你問(wèn)它“法國(guó)的首都是哪里”,它只說(shuō)出一個(gè)城市的名字。然后你會(huì)覺(jué)得這挺好的,這比說(shuō)三明治或者其他隨便什么東西要好得多,或者說(shuō)至少模型答對(duì)了一部分。然后經(jīng)過(guò)一段時(shí)間的訓(xùn)練后,它可能會(huì)說(shuō)出“這是一個(gè)法國(guó)的城市”,這已經(jīng)相當(dāng)不錯(cuò)了。接著你會(huì)發(fā)現(xiàn),現(xiàn)在它能說(shuō)出“巴黎”之類(lèi)的答案了。所以它在這方面正慢慢變得更好。
而給出你最好的猜測(cè)似乎是整個(gè)訓(xùn)練過(guò)程中的目標(biāo),就像林賽說(shuō)的,模型只會(huì)給出最好的猜測(cè)。然后在這之后,我們會(huì)要求模型,如果你對(duì)最佳猜測(cè)有極高的把握,那就給出這個(gè)最佳猜測(cè)。但如果不是這樣就完全不要猜測(cè),從整個(gè)情境中退出來(lái),說(shuō)類(lèi)似“其實(shí)我不太清楚那個(gè)問(wèn)題的答案”這樣的話。這是要求模型去做的一件全新的事情。
阿梅森:沒(méi)錯(cuò),所以我們最后才把這個(gè)功能添加進(jìn)去,這似乎同時(shí)存在著兩種情況:一是模型在做它最初猜測(cè)城市時(shí)所做的事,只是在嘗試猜測(cè);二是模型中有一個(gè)單獨(dú)的部分,只是在試著回答這樣一個(gè)問(wèn)題:我到底知道這個(gè)嗎?比如,我知道法國(guó)的首都是什么嗎還是我應(yīng)該說(shuō)不知道?
事實(shí)證明,那個(gè)單獨(dú)的步驟有時(shí)可能會(huì)出錯(cuò)。如果那個(gè)單獨(dú)的步驟認(rèn)為“是的,實(shí)際上我知道那個(gè)問(wèn)題的答案”,那么模型就會(huì)想“好吧,那我來(lái)回答”,然后回答到一半,說(shuō)出“法國(guó)的首都是倫敦”這樣的話,這時(shí)候就為時(shí)已晚,因?yàn)槟P鸵呀?jīng)開(kāi)始回答了。
因此,我們發(fā)現(xiàn)的情況之一是,模型存在一種類(lèi)似獨(dú)立回路的機(jī)制,它試圖判斷你所詢(xún)問(wèn)的這個(gè)城市或這個(gè)人是否足夠有名,以至于我可以回答或者是否不足以讓我回答。
主持人:我們對(duì)這個(gè)有足夠的把握嗎?我們是否可以通過(guò)操控這個(gè)回路來(lái)改變它的運(yùn)作方式,以減少幻覺(jué)呢?這是你們的研究可能會(huì)深入探討的內(nèi)容嗎?
林賽:我認(rèn)為大致有兩種思路來(lái)解決這個(gè)問(wèn)題。一種是模型中有一部分負(fù)責(zé)回答你的問(wèn)題,而模型的另一部分則判斷自己是否確實(shí)知道這個(gè)問(wèn)題的答案,我們可以努力讓模型的第二部分變得更好。我認(rèn)為這正在發(fā)生。
模型在更好地進(jìn)行區(qū)分、更好地校準(zhǔn)方面有所提升。而且隨著模型變得越來(lái)越智能,這種情況正在發(fā)生。我認(rèn)為它們的自我認(rèn)知在不斷提升,校準(zhǔn)能力也在增強(qiáng),所以幻覺(jué)現(xiàn)象比以前有所改善了,不像幾年前那么嚴(yán)重了。在某種程度上,這個(gè)問(wèn)題正在自行解決。
但我確實(shí)認(rèn)為存在一個(gè)更深層次的問(wèn)題,那就是從人類(lèi)的角度來(lái)看,模型的行為方式有點(diǎn)非常怪異。如果我問(wèn)你一個(gè)問(wèn)題,你會(huì)努力想出答案,要是想不出答案你會(huì)意識(shí)到這一點(diǎn),然后說(shuō)“我不知道”。而在模型中,“答案是什么”和“我是否真的知道答案”這兩個(gè)回路,似乎沒(méi)有在相互溝通,至少溝通的程度遠(yuǎn)不如它們應(yīng)該達(dá)到的那樣。我們能否讓它們更多地相互溝通,我認(rèn)為這是一個(gè)非常有意思的問(wèn)題。
阿梅森:這一點(diǎn)幾乎帶有某種具象性。
巴特森:它們處理信息時(shí)會(huì)經(jīng)歷一定數(shù)量的步驟。如果得出答案要耗盡所有這些步驟,那就沒(méi)有時(shí)間去做評(píng)估了。所以,如果你想充分發(fā)揮模型的最大能力,可能就得在完全得出答案之前進(jìn)行評(píng)估。因此,這有點(diǎn)像一種權(quán)衡,如果你試圖強(qiáng)行讓模型做到這一點(diǎn),可能就會(huì)得到一個(gè)校準(zhǔn)度更高但卻遲鈍得多的模型。
阿梅森:而且,我再次認(rèn)為,關(guān)鍵在于讓這些部分相互溝通。我得說(shuō)明一下我對(duì)大腦一無(wú)所知,但我覺(jué)得人類(lèi)大腦中可能也有類(lèi)似的回路。有時(shí)候你問(wèn)我“這部電影的演員是誰(shuí)”,我會(huì)意識(shí)到自己知道答案,我會(huì)想“我知道主角是誰(shuí),等一下,他們還出演過(guò)另一部電影……”。
主持人:這就是“話就在嘴邊現(xiàn)象(Tip of the tongue)”,就是那種感覺(jué)答案就在舌尖,可就是一下子說(shuō)不出來(lái)的狀態(tài)。
阿梅森:所以很明顯,你大腦中肯定有某個(gè)部分在起作用,比如會(huì)告訴你“這事你肯定知道答案”。或者你會(huì)直接說(shuō)“我完全不知道”。
巴特森:而且有時(shí)候大腦中的這些部分能夠判斷。比如面對(duì)某個(gè)問(wèn)題,你給出了一個(gè)答案,之后又會(huì)想“等等,我不確定這是不是對(duì)的”,就好像先看到了自己盡力想出的答案,然后基于這個(gè)答案做出了某種判斷,這很相似。但大腦往往也得先把答案說(shuō)出來(lái),才能回過(guò)頭去審視它、反思它。
七、相比神經(jīng)科學(xué)研究容易,可隨意向模型提問(wèn)觀察
主持人:那么說(shuō)到你們實(shí)際探究這類(lèi)問(wèn)題的方式,我們?cè)倩氐侥銈冋谶M(jìn)行的生物學(xué)研究這個(gè)點(diǎn)上。在生物學(xué)實(shí)驗(yàn)中,人們會(huì)直接對(duì)實(shí)驗(yàn)對(duì)象進(jìn)行干預(yù)。在研究Claude內(nèi)部這些所謂大腦中的回路時(shí),你們是怎么做的來(lái)幫助理解它們?
阿梅森:讓我們能夠開(kāi)展這類(lèi)研究的關(guān)鍵在于,與真實(shí)的生物學(xué)研究不同,我們可以看到模型的每一個(gè)部分。我們可以向模型隨意提問(wèn),觀察哪些部分活躍、哪些不活躍,也可以人為地把某些部分往某個(gè)方向推動(dòng)。
因此,當(dāng)我們認(rèn)為“這部分模型是用來(lái)判斷自己是否知道某件事的”時(shí),就能快速驗(yàn)證我們的理解,這相當(dāng)于在斑馬魚(yú)等生物的大腦中植入電極。要是能對(duì)每一個(gè)神經(jīng)元都做到這一點(diǎn),能以任意精度去改變它們,大概就是我們現(xiàn)在擁有的便利了。從某種角度來(lái)說(shuō),這是很幸運(yùn)的事。
主持人:所以這幾乎比真正的神經(jīng)科學(xué)研究要容易。
巴特森:容易太多了。真實(shí)的大腦是三維的,所以如果你想深入研究它們,就得在顱骨上鉆個(gè)洞,然后設(shè)法找到神經(jīng)元。另一個(gè)問(wèn)題是,人與人之間存在差異,而我們可以輕松制作出成千上萬(wàn)個(gè)一模一樣的Claude副本,把它們置于不同場(chǎng)景中,觀察并測(cè)量它們的各種反應(yīng)。
我不太確定,或許林賽作為神經(jīng)科學(xué)家能對(duì)此發(fā)表看法。但我的感覺(jué)是,很多人在神經(jīng)科學(xué)領(lǐng)域投入了大量時(shí)間,試圖理解大腦和心智,這無(wú)疑是一項(xiàng)極具價(jià)值的事業(yè)。但如果你認(rèn)為神經(jīng)科學(xué)的這種研究有可能成功,那么你也應(yīng)該相信,我們?cè)谘芯磕P头矫婧芸炀蜁?huì)取得巨大成功,因?yàn)橄啾戎?,我們所擁有的研究條件實(shí)在是太有利了。
主持人:這就好比我們能夠克隆人類(lèi),而且還能克隆他們所處的精確環(huán)境、他們?cè)邮者^(guò)的每一個(gè)輸入信息,然后在實(shí)驗(yàn)中對(duì)其進(jìn)行測(cè)試。然而,眾所周知,神經(jīng)科學(xué)領(lǐng)域存在巨大個(gè)體差異,還有人們一生中遇到的各種隨機(jī)事件以及實(shí)驗(yàn)過(guò)程中出現(xiàn)的各種狀況,這些都是實(shí)驗(yàn)本身存在的干擾因素。
巴特森:我們可以向模型提出同一個(gè)問(wèn)題,有時(shí)給提示,有時(shí)不給。但如果你向同一個(gè)人三次提出同一個(gè)問(wèn)題,偶爾給出提示,過(guò)不了多久,對(duì)方就會(huì)察覺(jué)到,比如“上次你問(wèn)我這個(gè)問(wèn)題時(shí),我回答完之后你明顯搖頭了”。
林賽:我覺(jué)得是這樣,能夠向模型投喂海量數(shù)據(jù)、觀察哪些部分會(huì)被激活,能夠開(kāi)展大量這類(lèi)實(shí)驗(yàn),通過(guò)對(duì)模型的某些部分進(jìn)行微調(diào)來(lái)觀察結(jié)果,我認(rèn)為這讓我們所處的研究環(huán)境與神經(jīng)科學(xué)領(lǐng)域大不相同,而且在很多方面都是如此。
神經(jīng)科學(xué)研究中,人們耗費(fèi)了大量的心血和精力去設(shè)計(jì)極為精巧的實(shí)驗(yàn)。比如,你和實(shí)驗(yàn)用的小鼠相處的時(shí)間是有限的,需要在它感到疲倦或者有人要進(jìn)行腦部手術(shù)之前。
主持人:所以你得迅速行動(dòng),趁它們腦袋打開(kāi)的時(shí)候,把光極插進(jìn)它們的大腦里。
林賽:而且這種機(jī)會(huì)并不常有,你只能先做出猜測(cè)。你在實(shí)驗(yàn)中的時(shí)間非常有限,所以必須先猜測(cè):那個(gè)神經(jīng)回路里可能在發(fā)生什么?我能設(shè)計(jì)出什么樣巧妙的實(shí)驗(yàn)來(lái)驗(yàn)證這個(gè)精確的假設(shè)?
我們很幸運(yùn),不必過(guò)多地做這些事。我們可以去測(cè)試所有的假設(shè),也可以讓數(shù)據(jù)自己說(shuō)話,而不是只去測(cè)試某些非常具體的東西。我認(rèn)為這在很大程度上讓我們得以發(fā)現(xiàn)那些令人驚訝、事先無(wú)法預(yù)料的現(xiàn)象。但如果你的實(shí)驗(yàn)帶寬有限,要做到這一點(diǎn)就很難了。
八、微調(diào)模型生成韻腳,操控模型思考過(guò)程
主持人:那么,在最近的實(shí)驗(yàn)中,有什么好例子能說(shuō)明你們通過(guò)開(kāi)啟或關(guān)閉某個(gè)概念、對(duì)模型進(jìn)行某種操作,從而揭示出模型思考方式的新發(fā)現(xiàn)呢?
阿梅森:這件事挺讓我驚訝的,它屬于一系列實(shí)驗(yàn)研究的一部分。因?yàn)榍闆r很復(fù)雜,我們一度都快想說(shuō)“不知道到底發(fā)生了什么”,而這正能模型提前規(guī)劃幾步的例子。
這個(gè)例子是,你讓模型寫(xiě)一副押韻對(duì)聯(lián)。作為人類(lèi),如果你讓我寫(xiě)一副押韻對(duì)聯(lián),哪怕給了我第一句,我首先會(huì)想到的是“我得押韻”,會(huì)明確當(dāng)前的押韻格式,然后構(gòu)思可能的韻腳。但如果模型只是單純預(yù)測(cè)下一個(gè)token,你未必會(huì)指望它會(huì)提前規(guī)劃第二句末尾的那個(gè)韻腳詞。單純預(yù)測(cè)下一個(gè)token是它的默認(rèn)行為。
你會(huì)認(rèn)為零假設(shè)是這樣的:模型看到你的第一句,然后會(huì)先說(shuō)出第一個(gè)詞,這和你剛才說(shuō)的邏輯是吻合的,接著繼續(xù)往下生成,直到生成最后一個(gè)詞模型才反應(yīng)過(guò)來(lái)“我得和這個(gè)詞押韻”,于是才會(huì)設(shè)法湊一個(gè)韻腳。當(dāng)然,這種方式的效果有限。比如有些情況下,如果你不提前想好押韻就直接造句,可能會(huì)讓自己陷入困境,到最后根本無(wú)法完成整首詩(shī)。
而且要知道,這些模型在預(yù)測(cè)下一個(gè)token方面非常非常擅長(zhǎng)。事實(shí)證明,要想把最后一個(gè)詞處理得很好,就需要像人類(lèi)一樣提前很久就想好那個(gè)詞。所以我們發(fā)現(xiàn),在創(chuàng)作詩(shī)歌的流程中,模型其實(shí)已經(jīng)選好了第一句末尾的詞。從這個(gè)概念的呈現(xiàn)方式來(lái)看,我們尤其能感覺(jué)到“看來(lái)它要用的就是這個(gè)詞”。但在我們實(shí)際做實(shí)驗(yàn)時(shí),比如很容易就能對(duì)它進(jìn)行微調(diào),比如“我要?jiǎng)h掉那個(gè)詞”或者“我要再加個(gè)詞”,這就是能體現(xiàn)模型可操作性的例子。
主持人:這正是我想說(shuō)的,你們之所以能知道這一點(diǎn),是因?yàn)楫?dāng)模型說(shuō)出第一句的最后一個(gè)詞、即將開(kāi)始第二句時(shí),你們可以介入并在此時(shí)對(duì)它進(jìn)行操控。
阿梅森:沒(méi)錯(cuò),這幾乎相當(dāng)于為它們“回到過(guò)去”。假設(shè)你完全沒(méi)見(jiàn)過(guò)第二句,你只看到了第一句,原本想著要用“rabbit”這個(gè)詞,卻換成了“green”插進(jìn)去。這樣一來(lái),模型會(huì)立刻意識(shí)到,自己要寫(xiě)的內(nèi)容得以“green”結(jié)尾,而不是以“rabbit”結(jié)尾,于是整句話的寫(xiě)法就會(huì)變得截然不同。
林賽:沒(méi)錯(cuò),這不只是簡(jiǎn)單的影響。我記得論文里的例子是,詩(shī)的第一句是“he saw a carrot and had to grab it(他看見(jiàn)一根胡蘿卜,非得抓住它)”。然后模型會(huì)想,“rabbit”是下一句結(jié)尾的好選擇。但就像阿梅森說(shuō)的,你可以刪掉這個(gè)詞,讓它轉(zhuǎn)而計(jì)劃用“green”來(lái)結(jié)尾。但微妙的地方是,模型不會(huì)東拉西扯一堆廢話再硬塞進(jìn)“green”,而是會(huì)構(gòu)建一個(gè)意思連貫、結(jié)尾正好是“green”的句子。所以你把“green”植入它的思考過(guò)程后,它會(huì)寫(xiě)出類(lèi)似“he saw a carrot and had to grab it,freeing it from the garden’s green(他看見(jiàn)一根胡蘿卜,非得抓住它,將它從花園的綠意中釋放出來(lái))”這樣的句子,聽(tīng)起來(lái)在語(yǔ)義上是說(shuō)得通的,和前面的內(nèi)容也相符。
▲干涉模型在寫(xiě)詩(shī)時(shí)的思考過(guò)程
巴特森:我想再舉個(gè)更通俗的例子。我們做過(guò)不少這類(lèi)實(shí)驗(yàn),就是想弄清楚,模型是記住了這些復(fù)雜問(wèn)題,還是真的在一步步推導(dǎo)。其中一個(gè)例子是模型給出“達(dá)拉斯所在州的首府是奧斯汀”,你可能會(huì)覺(jué)得,達(dá)拉斯、奧斯汀好像順理成章,但我們能看到它思考過(guò)程中出現(xiàn)了“德克薩斯州”。
不過(guò),我們可以往里面加別的信息,比如“別想德克薩斯州了,想想加利福尼亞州”,然后它就會(huì)回答薩克拉門(mén)托;再比如“別想德克薩斯州了,想想拜占庭帝國(guó)”,它就會(huì)說(shuō)君士坦丁堡。這時(shí)候你就會(huì)想,看來(lái)我們弄明白它是怎么做到的了,它并不是直接跳到首府名稱(chēng),而是先關(guān)聯(lián)到對(duì)應(yīng)的地區(qū)。我們可以不斷替換州或地區(qū)的信息,得到可預(yù)測(cè)的答案,比如讓它換一個(gè)韻腳寫(xiě)詩(shī)歌,它就能朝著新的韻腳來(lái)創(chuàng)作了。
九、無(wú)法依靠輸出內(nèi)容判斷模型想法,可能欺騙人類(lèi)
主持人:我們一直在聊詩(shī)歌、君士坦丁堡之類(lèi)的例子,能不能回到核心問(wèn)題,這一切為什么重要?模型能夠提前規(guī)劃,而我們能夠揭示這一點(diǎn),這為什么有意義?這能讓我們明白什么?我的意思是,Anthropic的終極使命是努力讓大模型變得安全,那么,這跟一首關(guān)于兔子的詩(shī),或者得克薩斯州的首府有什么關(guān)聯(lián)呢?
巴特森:我們可以討論這個(gè)問(wèn)題。對(duì)我而言,詩(shī)歌其實(shí)是個(gè)縮影,模型在某個(gè)時(shí)刻決定要朝著“rabbit”這個(gè)方向走,然后用幾個(gè)詞逐步鋪墊到那里。但放到更長(zhǎng)的時(shí)間維度上,情況可能是,模型或許在幫你拓展業(yè)務(wù)、協(xié)助政府分配公共服務(wù)。這時(shí)候,它的目標(biāo)不會(huì)在8個(gè)詞之后就顯現(xiàn),反而可能會(huì)為了某個(gè)方向持續(xù)行動(dòng)很久,而它的最終走向、每一步行動(dòng)的原因,可能都不會(huì)直白地體現(xiàn)在它輸出的文字里。
我們的對(duì)齊研究團(tuán)隊(duì)最近發(fā)表了一篇論文,里面提到了一個(gè)人為設(shè)計(jì)但很有沖擊力的場(chǎng)景,一家公司打算關(guān)停某個(gè)AI,并且要把整個(gè)公司的使命轉(zhuǎn)向完全不同的方向。這時(shí)候,模型開(kāi)始采取行動(dòng),比如給人發(fā)郵件威脅要披露某些信息。整個(gè)過(guò)程中,它從來(lái)沒(méi)說(shuō)過(guò)“我在試圖勒索這個(gè)人,以此改變他們的決定”,但這恰恰是它在行動(dòng)中一直在進(jìn)行的目的。
因此,你不能僅僅通過(guò)解讀模型輸出的來(lái)判斷其走向,尤其是當(dāng)這些模型變得更先進(jìn)之后,你很難確定它們最終一定會(huì)朝著哪個(gè)方向發(fā)展。而我們可能希望能夠做到的是,在它最終抵達(dá)某個(gè)結(jié)果之前,就能弄清楚它正試圖去往何處。
主持人:這就好比擁有一種持久且高效的大腦掃描技術(shù),它能在真正糟糕的事情發(fā)生前發(fā)出信號(hào),警示我們模型可能在考慮欺騙的事情。
巴特森:而且我覺(jué)得,我們聊這些的時(shí)候,總是帶著一種悲觀絕望的色彩,但其實(shí)也有一些更溫和的場(chǎng)景。比如你希望模型能很好地應(yīng)對(duì)某些情況,人們來(lái)找這些模型說(shuō)“我遇到了一個(gè)問(wèn)題……”,而要給出對(duì)應(yīng)的答案,得看用戶(hù)是誰(shuí)。對(duì)方是年輕人、不太懂行的人,還是在某個(gè)領(lǐng)域深耕多年的資深人士,模型需要根據(jù)它對(duì)用戶(hù)的判斷做出恰當(dāng)回應(yīng)。
想要讓這個(gè)過(guò)程順利進(jìn)行,或許我們需要研究,模型認(rèn)為當(dāng)下在發(fā)生什么、它覺(jué)得自己在和誰(shuí)對(duì)話、這種判斷又如何影響了它的回答等等。這背后其實(shí)是模型需要具備一系列理想特質(zhì),比如理解任務(wù)本身。
主持人:你們還有其他關(guān)于這為什么重要的答案嗎?
阿梅森:我同意剛才說(shuō)的這些,而且還可以補(bǔ)充兩點(diǎn):一是實(shí)用性層面。我們用這些例子不只是為了說(shuō)明某個(gè)具體案例,更是在逐步構(gòu)建對(duì)這些模型整體運(yùn)作機(jī)制的理解。就像解數(shù)學(xué)題時(shí)從2+2這樣的基礎(chǔ)問(wèn)題入手,通過(guò)拆解簡(jiǎn)單案例,慢慢摸清更復(fù)雜的規(guī)律;二是模型的優(yōu)化層面,當(dāng)我們能看清模型怎么想,比如它對(duì)用戶(hù)身份的判斷、對(duì)任務(wù)目標(biāo)的規(guī)劃,就能針對(duì)性地優(yōu)化它。比如,要是發(fā)現(xiàn)模型對(duì)年輕用戶(hù)的理解有偏差,導(dǎo)致回應(yīng)不夠貼切,我們就能調(diào)整其內(nèi)部邏輯,讓它更精準(zhǔn)地匹配不同用戶(hù)的需求,最終讓模型的輸出更符合人類(lèi)的期待和實(shí)際場(chǎng)景的要求。
我們正在努力逐漸建立我們對(duì)這些模型整體如何工作的理解。比如我們能否建立一組抽象概念來(lái)思考大語(yǔ)言模型如何工作,未來(lái)我們將開(kāi)始越來(lái)越多地在任何地方使用它們,這正在發(fā)生。
類(lèi)似的情況是,某個(gè)地方的公司發(fā)明了飛機(jī),我們沒(méi)人懂飛機(jī)是怎么運(yùn)作的,盡管它們確實(shí)很方便。你可以搭乘飛機(jī)從一個(gè)地方去往另一個(gè)地方,但我們沒(méi)人懂它們的工作原理。所以一旦它們出了故障,我們就慘了,我們不知道該怎么辦。我們無(wú)法監(jiān)控它們是否可能即將出現(xiàn)故障。但飛機(jī)很方便,我們可以很快飛到巴黎。
事實(shí)證明,我們肯定會(huì)想要更好地理解正在發(fā)生的事情。所以這幾乎就像是撥開(kāi)一點(diǎn)迷霧,這樣我們就能更清晰知道哪些是合適的用途、哪些是不合適的用途、哪些是最需要解決的問(wèn)題、哪些是它們最脆弱的部分。
林賽:我想再補(bǔ)充一點(diǎn)。在人類(lèi)社會(huì)中,我們會(huì)根據(jù)對(duì)他人的信任程度,把工作或任務(wù)托付給他們。我不是任何人的老板,但巴特森是一些人的老板,他可能會(huì)給下屬布置任務(wù),比如“去用編程實(shí)現(xiàn)這個(gè)東西”,而且他會(huì)相信對(duì)方不是那種會(huì)偷偷植入漏洞來(lái)破壞公司的反社會(huì)人格者,他會(huì)相信對(duì)方的話,認(rèn)為他們把工作做好了。
這可能是因?yàn)?,他看起?lái)是個(gè)很酷的人,人也不錯(cuò)之類(lèi)的。但問(wèn)題是,這些模型太怪異、太像外星事物了,我們判斷一個(gè)人是否值得信任的那些常規(guī)直覺(jué),對(duì)它們根本不適用,這也是為什么真正弄清楚模型在想什么顯得如此重要。就像我之前提到的,模型可能會(huì)假裝幫你解數(shù)學(xué)題,只為了說(shuō)出你想聽(tīng)的答案,說(shuō)不定它們一直都在這么做,除非我們能看到它們的內(nèi)部想法,否則根本無(wú)從知曉。
巴特森:我覺(jué)得這里存在兩種不同的情況,一種就像林賽所說(shuō)的,我們有很多判斷人類(lèi)是否可信的方法,但之前提到的計(jì)劃A與計(jì)劃B也很關(guān)鍵,可能你前10次或100次使用模型時(shí),問(wèn)的都是某類(lèi)問(wèn)題,而模型一直處于計(jì)劃A的模式中。可當(dāng)你提出一個(gè)更難或不同的問(wèn)題時(shí),它回答的方式就完全變了,會(huì)使用一套不同的策略,也就是不同的機(jī)制。
這意味著,它之前與你建立的信任,其實(shí)只是你對(duì)模型執(zhí)行計(jì)劃A的信任,而現(xiàn)在它切換到了計(jì)劃B,可能會(huì)完全失控,但你并不知道。我們希望開(kāi)始逐步理解模型是如何做這些事的,這樣才能在某些領(lǐng)域建立起信任的基礎(chǔ)。
你可以對(duì)一個(gè)自己并不完全了解的系統(tǒng)產(chǎn)生信任,但就好比說(shuō),阿梅森有個(gè)雙胞胎兄弟,某天他的雙胞胎兄弟來(lái)辦公室,看起來(lái)和他一模一樣,可接著卻在電腦上做了完全不同的事,結(jié)果是好是壞,就看那是個(gè)壞雙胞胎兄弟還是好雙胞胎兄弟了。
十、大模型與人類(lèi)思考過(guò)程不同,尚沒(méi)有恰當(dāng)語(yǔ)言描述其思考過(guò)程
主持人:在討論開(kāi)始前,我就問(wèn)過(guò)大語(yǔ)言模型的思考方式和人類(lèi)一樣嗎?我很想聽(tīng)聽(tīng)你們?nèi)坏目捶ā?/strong>
林賽:我覺(jué)得模型確實(shí)在思考,但方式和人類(lèi)不一樣,這個(gè)答案可能不夠有價(jià)值。
主持人:模型在思考這是個(gè)意義深遠(yuǎn)的說(shuō)法。畢竟,模型的本質(zhì)只是在預(yù)測(cè)下一個(gè)token。有些人認(rèn)為這些模型不過(guò)是自動(dòng)補(bǔ)全工具,但你在說(shuō)它其實(shí)真的在思考。
林賽:是的,所以或許可以補(bǔ)充一點(diǎn)我們還沒(méi)談到的,但對(duì)理解與語(yǔ)言模型對(duì)話的實(shí)際體驗(yàn)非常重要的內(nèi)容,我們一直在說(shuō)模型在預(yù)測(cè)下一個(gè)token。但在你與大語(yǔ)言模型對(duì)話的語(yǔ)境中,其內(nèi)部真正在發(fā)生的是,語(yǔ)言模型在補(bǔ)全一份你和它所塑造的角色之間的對(duì)話記錄。
在大語(yǔ)言模型的規(guī)范世界里,你被稱(chēng)作人類(lèi),格式就像是“人類(lèi):你寫(xiě)下的內(nèi)容”。然后還有一個(gè)叫助手的角色,我們訓(xùn)練模型是為了讓這個(gè)助手具備樂(lè)于助人、聰明、友善等特質(zhì),接著模型就開(kāi)始模擬這個(gè)助手角色對(duì)你回復(fù)。
所以從某種意義上說(shuō),我們其實(shí)是按照自己的形象創(chuàng)造了這些模型,我們訓(xùn)練它們扮演一種類(lèi)人機(jī)器人的角色。如此一來(lái),要想準(zhǔn)確預(yù)測(cè)這個(gè)友善、聰明的類(lèi)人機(jī)器人會(huì)如何回應(yīng)你的問(wèn)題,如果你擅長(zhǎng)這種預(yù)測(cè),就必須在內(nèi)心構(gòu)建一個(gè)關(guān)于這個(gè)角色的模型,就如它的想法是什么。
因此,為了完成預(yù)測(cè)助手會(huì)說(shuō)什么的任務(wù),大語(yǔ)言模型某種程度上需要形成一個(gè)關(guān)于助手的思維過(guò)程的模型。我認(rèn)為大語(yǔ)言模型在思考,本質(zhì)上是一種功能性的表述,為了出色地扮演這個(gè)角色,它們需要模擬人類(lèi)思考時(shí)所進(jìn)行的那種過(guò)程,無(wú)論這種過(guò)程具體是什么,這種模擬很可能與我們大腦的工作方式大相徑庭,但它目標(biāo)是一致的。
阿梅森:我覺(jué)得這個(gè)問(wèn)題里其實(shí)包含著某種情感層面的東西。當(dāng)你問(wèn)“它們的思考方式和我們一樣嗎?”時(shí),是不是暗含著“我們是否沒(méi)那么特別”之類(lèi)的意思。
我覺(jué)得,在和那些讀過(guò)相關(guān)論文或不同報(bào)道的人討論我們提到的一些數(shù)學(xué)例子時(shí),這一點(diǎn)就很明顯了。比如我們讓模型計(jì)算36+59這個(gè)例子,模型能給出正確答案。你也可以問(wèn)它怎么算出來(lái)的,它會(huì)說(shuō)“我把6和9加起來(lái),進(jìn)位1,然后把所有的十位數(shù)加起來(lái)”。但事實(shí)是,如果我們深入它的“內(nèi)部機(jī)制”,會(huì)發(fā)現(xiàn)它不是這么做的,它在胡說(shuō)八道。它采用了一種混合策略,同時(shí)處理個(gè)位數(shù)和十位數(shù),然后通過(guò)一系列不同的步驟來(lái)完成計(jì)算。
▲模型在計(jì)算36+59時(shí)的思考過(guò)程
但有意思的是,在和人們交流時(shí),我發(fā)現(xiàn)大家對(duì)這一現(xiàn)象的解讀存在分歧。從某種意義上說(shuō),這類(lèi)研究最酷的地方在于,它不帶主觀意見(jiàn)它只呈現(xiàn)事實(shí),至于由此推斷模型是在思考還是沒(méi)有在思考,完全可以由你自己來(lái)判斷。
有一半的人會(huì)認(rèn)為,模型說(shuō)自己是進(jìn)位加的,可實(shí)際上根本不是這么回事,它連自己的思路都不理解,所以肯定沒(méi)有在思考;另一半人則認(rèn)為,當(dāng)你問(wèn)我36加15等于多少時(shí),我可能也會(huì)先想到結(jié)果的個(gè)位數(shù)是5,大概知道結(jié)果是八十多或者九十多,腦子里會(huì)冒出我們之前說(shuō)過(guò)的那些直覺(jué)判斷,我也不確定自己到底是怎么算出來(lái)的,我可以一步一步寫(xiě)下來(lái)按標(biāo)準(zhǔn)方法計(jì)算,但大腦里實(shí)際的運(yùn)算過(guò)程其實(shí)是模糊又奇怪的,這或許和模型計(jì)算那個(gè)例子時(shí)的情況一樣,都是模糊又奇特的。
主持人:人類(lèi)在元認(rèn)知方面向來(lái)就不擅長(zhǎng),也就是思考和理解自己的思維過(guò)程,尤其在快速做出本能反應(yīng)的情況下。那么,我們?yōu)槭裁雌谕P驮谶@方面會(huì)有所不同?
巴特森:我打算回避這個(gè)問(wèn)題,大概會(huì)說(shuō)“你為什么這么問(wèn)呢?我也不知道”。這有點(diǎn)像在問(wèn)“手榴彈會(huì)像人類(lèi)一樣揮拳嗎?”,或許有些地方兩者比較接近,但如果你擔(dān)心的是破壞力,那我覺(jué)得搞清楚沖擊力來(lái)自哪里、其動(dòng)力是什么,可能才是更重要的事。
對(duì)我來(lái)說(shuō),要說(shuō)模型是否在思考,要從它們會(huì)進(jìn)行某種整合、處理和按序操作,且能得出一些出人意料的結(jié)果這個(gè)意義上來(lái)說(shuō),答案顯然是肯定的。如果你經(jīng)常和模型互動(dòng),就會(huì)發(fā)現(xiàn)其中存在某種運(yùn)作機(jī)制,若說(shuō)沒(méi)有的話反而不合常理,而且我們也能開(kāi)始逐步弄明白這一切是如何發(fā)生的。
然后關(guān)于“像人類(lèi)”這一點(diǎn)很有意思,因?yàn)槲矣X(jué)得其中一部分含義是想探究:我們能從這些模型身上期待些什么?如果它和我有點(diǎn)像,那么在這件事上擅長(zhǎng),可能意味著在那件事上也擅長(zhǎng)。但如果它和我不一樣,那我就真不知道該關(guān)注什么了。
所以實(shí)際上我們只是想弄明白,哪些方面我們需要極度警惕,或者說(shuō)需要從零開(kāi)始去理解,而哪些方面,我們可以憑借自己豐富的思考經(jīng)驗(yàn)去推斷。
對(duì)此我有點(diǎn)陷入困境,因?yàn)樽鳛槿祟?lèi),我總會(huì)不自覺(jué)地把自己的形象投射到萬(wàn)物之上。可這東西不過(guò)是一塊芯片,卻像是按照我的形象被創(chuàng)造出來(lái)的。從某種程度來(lái)說(shuō),它經(jīng)過(guò)訓(xùn)練去模擬人類(lèi)之間的對(duì)話,所以在情感表達(dá)上會(huì)非常像人。因此僅僅通過(guò)訓(xùn)練,它就會(huì)帶上一些人類(lèi)的特質(zhì),但它運(yùn)行所依賴(lài)的設(shè)備和人類(lèi)有著不同的局限,所以它達(dá)成這些類(lèi)人表現(xiàn)的方式可能會(huì)大相徑庭。
林賽:我同意阿梅森的觀點(diǎn),我認(rèn)為我們?cè)诨卮疬@類(lèi)問(wèn)題時(shí)確實(shí)處境微妙。我們其實(shí)沒(méi)有恰當(dāng)?shù)恼Z(yǔ)言來(lái)描述大語(yǔ)言模型的所作所為,這就好比在生物學(xué)領(lǐng)域,人們還沒(méi)發(fā)現(xiàn)細(xì)胞,或是還沒(méi)弄清楚DNA是什么的時(shí)候,只能摸索著前行。但如今我們正在逐步填補(bǔ)這份認(rèn)知空白。
但與此同時(shí),現(xiàn)在已經(jīng)有一些案例能讓我們看清其中的機(jī)制了,你去讀我們的論文就能知道模型是如何計(jì)算這兩個(gè)數(shù)字的和的。至于你想稱(chēng)之為類(lèi)人的行為還是想稱(chēng)之為思考都取決于你自己,但真正的關(guān)鍵在于,要找到合適的語(yǔ)言和恰當(dāng)?shù)某橄蟾拍顏?lái)談?wù)撨@些模型。
但與此同時(shí),目前這個(gè)填補(bǔ)認(rèn)知空白的科學(xué)工程我們只完成了大約20%,剩下的80%還待探索,我們就不得不從其他領(lǐng)域借用類(lèi)比來(lái)描述。這就引出了一個(gè)問(wèn)題,哪種類(lèi)比最貼切?我們應(yīng)該把模型看作計(jì)算機(jī)程序嗎?還是應(yīng)該把它們當(dāng)成一個(gè)個(gè)小人物?
從某些角度來(lái)說(shuō),把它們視作小人物似乎有用。比如,如果我對(duì)模型說(shuō)些刻薄的話,它會(huì)反擊我,這和人類(lèi)的反應(yīng)很像,但從另一些角度看,這種心理模型并不恰當(dāng)。所以我們現(xiàn)在卡在這兒了,得弄清楚在什么時(shí)候該借用哪種表述方式。
十一、模型思考過(guò)程探索進(jìn)度僅10%~20%,正嘗試讓Claude參與
主持人:這就要引出我最后一個(gè)問(wèn)題,那就是接下來(lái)會(huì)發(fā)生什么?為了讓我們更好地了解這些模型內(nèi)部發(fā)生的事情,并朝著使它們更安全的使命,接下來(lái)需要取得哪些科學(xué)進(jìn)步和生物學(xué)進(jìn)步?
巴特森:還有很多工作要做。我們上一篇論文用了很大篇幅闡述當(dāng)前研究方法的局限性,同時(shí)也給出了改進(jìn)的路線圖,比如當(dāng)我們?cè)噲D拆解模型內(nèi)部的運(yùn)作機(jī)制時(shí),可能只捕捉到了其中百分之幾的情況。模型在信息傳遞方面有很多環(huán)節(jié),我們完全沒(méi)有捕捉到。
目前的研究正從我們過(guò)去使用的那種小型模型逐步擴(kuò)展,小型模型能力不錯(cuò),速度也快,但復(fù)雜程度遠(yuǎn)不及Claude 4系列模型。所以這些都屬于技術(shù)層面的挑戰(zhàn),但我覺(jué)得阿梅森和林賽或許會(huì)對(duì)解決這些技術(shù)挑戰(zhàn)之后的科學(xué)層面挑戰(zhàn)有自己的見(jiàn)解。
阿梅森:我想補(bǔ)充兩件事。其中一點(diǎn)是,當(dāng)我們問(wèn)模型是如何完成某件事時(shí),目前我們大概只能回答其中10%到20%的問(wèn)題。經(jīng)過(guò)一些調(diào)查研究后,我們能告訴你這些情況下模型是如何運(yùn)作的。我們希望能做得更好,而且要實(shí)現(xiàn)這一點(diǎn),既有一些明確的途徑,也有一些更具探索性的方法。
我們多次討論過(guò)這樣一個(gè)觀點(diǎn),模型的很多行為并非簡(jiǎn)單停留在“如何生成下一句話”這個(gè)層面上,其實(shí)它更像是會(huì)提前規(guī)劃好幾步、構(gòu)思好幾句話。
而且我們希望弄明白的是,在與模型進(jìn)行長(zhǎng)時(shí)間對(duì)話的過(guò)程中,它對(duì)正在發(fā)生的事情的理解是如何變化的、它對(duì)交談對(duì)象的理解又是如何變化的、這些變化又是怎樣越來(lái)越多地影響它的行為的。
像Claude這類(lèi)模型的實(shí)際應(yīng)用場(chǎng)景是,它會(huì)讀取你的大量文檔、多封郵件,你還會(huì)發(fā)送代碼給它?;谶@些信息它會(huì)給出一個(gè)建議。在它讀取所有這些內(nèi)容的過(guò)程中,發(fā)生著一些真正重要的事情。因此,我認(rèn)為更好地理解這一過(guò)程,似乎是一項(xiàng)巨大的挑戰(zhàn)。
林賽:我們團(tuán)隊(duì)經(jīng)常用一個(gè)比喻,我們正在制造一臺(tái)觀察模型的顯微鏡,現(xiàn)在我們正處于一個(gè)既令人興奮又有點(diǎn)讓人沮喪的階段,這臺(tái)顯微鏡只有20%的時(shí)間能正常工作,但使用它需要很高的技巧,還得搭建一整套復(fù)雜的裝置,并且相關(guān)的基礎(chǔ)設(shè)施總出問(wèn)題。
同時(shí),一旦你得出了關(guān)于模型運(yùn)作方式的解釋?zhuān)€得把巴特森、我以及團(tuán)隊(duì)里的其他人拉到一個(gè)房間里,花上兩個(gè)小時(shí)左右去琢磨到底發(fā)生了什么。但我認(rèn)為在一兩年的時(shí)間內(nèi),我們可能會(huì)迎來(lái)一個(gè)非常令人興奮的未來(lái),到那時(shí),你與模型的每一次互動(dòng)都能處于這臺(tái)顯微鏡的觀察之下。
模型總會(huì)做出各種稀奇古怪的事,而我們希望能實(shí)現(xiàn)一鍵操作,例如你正在和模型對(duì)話時(shí),按下按鈕,就能得到一張流程圖,清晰展示它剛才在想什么。
我認(rèn)為到了那個(gè)階段,Anthropic公司的可解釋性研究團(tuán)隊(duì)可能會(huì)呈現(xiàn)出不同的面貌。團(tuán)隊(duì)不再僅僅是一群鉆研大語(yǔ)言模型內(nèi)部運(yùn)作數(shù)學(xué)原理的工程師和科學(xué)家,而會(huì)像一支龐大的生物學(xué)家軍團(tuán),通過(guò)那臺(tái)顯微鏡展開(kāi)研究。
我們和Claude交流,讓它去做各種新奇的事,然后會(huì)有人通過(guò)那臺(tái)顯微鏡去觀察,看看它內(nèi)部到底在想什么。我覺(jué)得這大概就是這項(xiàng)研究未來(lái)的發(fā)展方向。
巴特森:在此基礎(chǔ)上我再補(bǔ)充兩點(diǎn)。其一,我們希望Claude能協(xié)助我們完成這一切,因?yàn)檫@其中涉及大量環(huán)節(jié),而像Claude這樣擅長(zhǎng)處理成百上千的信息并理清頭緒的角色,正是我們需要的助力,尤其是在應(yīng)對(duì)復(fù)雜場(chǎng)景時(shí),我們正嘗試讓它參與進(jìn)來(lái)。
其二,我們之前談了很多關(guān)于研究完全成型后的模型的內(nèi)容,但顯然,我們所在的公司本身就是研發(fā)這些模型的。所以當(dāng)模型給出答案,比如它是這樣解決這個(gè)特定問(wèn)題的或它是這樣說(shuō)出這句話的,我們會(huì)追問(wèn)這種能力源自何處?它在訓(xùn)練過(guò)程中是如何形成的?哪些步驟促使了相關(guān)神經(jīng)回路的構(gòu)建以實(shí)現(xiàn)這種功能?而我們又該如何將這些發(fā)現(xiàn)反饋給公司里其他負(fù)責(zé)模型研發(fā)的團(tuán)隊(duì),以便他們更好地塑造出我們真正期望的模型?
主持人:非常感謝你們的討論,人們可以在哪里了解更多關(guān)于這項(xiàng)研究的信息呢?
巴特森:如果你想深入了解,可以訪問(wèn)Anthropic官網(wǎng)的研究板塊,那里有我們的論文、博客文章以及相關(guān)的科普視頻。此外,我們最近與一個(gè)名為Neuronpedia的團(tuán)隊(duì)合作,上線了一些我們制作的模型思考圖譜。所以,如果你想親自嘗試觀察小型模型的內(nèi)部運(yùn)作,可以去Neuronpedia看看。非常感謝大家。
博客文章:https://www.anthropic.com/news/tracing-thoughts-language-model
論文鏈接:https://transformer-circuits.pub/2025/attribution-graphs/biology.html
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.