成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型究竟是怎么思考的?這可能是近期最有趣的高質(zhì)量AI訪談

0
分享至


智東西
編譯 程茜
編輯 心緣

智東西8月20日?qǐng)?bào)道,8月16日,Anthropic最新一期官方油管視頻上線,三位AI研究員抽絲剝繭,深入探討AI研究不應(yīng)避開(kāi)的一個(gè)關(guān)鍵“謎團(tuán)”——大模型究竟是怎么思考的?

在AI聊天對(duì)話中,大模型有時(shí)回答準(zhǔn)確,有時(shí)吐露胡編亂造的幻覺(jué),甚至?xí)霈F(xiàn)溜須拍馬、撒謊、欺騙甚至威脅人類(lèi)等古怪行為。它也會(huì)像人一樣,出現(xiàn)嘴比腦子快的情況,或者像一位糊弄學(xué)大師,奔著給出用戶(hù)滿(mǎn)意答復(fù)的目標(biāo),心口不一地敷衍了事。

是怎樣的內(nèi)里機(jī)制驅(qū)動(dòng)大模型演化出這些特性?它的高智商或弱智回答背后藏著何種思考鏈條?Anthropic研究員們通過(guò)追蹤研究,試圖給大模型做“腦部掃描”,用科學(xué)方法揭開(kāi)大模型有別于人腦的思維方式。

干貨如下:

1、大模型的學(xué)習(xí)進(jìn)化過(guò)程就像“生物進(jìn)化”,無(wú)需人類(lèi)介入就可以進(jìn)行細(xì)微調(diào)整,從而與用戶(hù)實(shí)現(xiàn)自然對(duì)話;

2、大模型并不一定認(rèn)為自己試圖在內(nèi)部預(yù)測(cè)下一個(gè)token,它只是通過(guò)設(shè)定不同的中間目標(biāo)幫助它執(zhí)行最終任務(wù);

3、Anthropic團(tuán)隊(duì)正在解析大模型的思考過(guò)程,呈現(xiàn)模型思考的過(guò)程;

4、大模型執(zhí)行末位是6的數(shù)字和末位是9的數(shù)字相加的計(jì)算任務(wù)時(shí),都會(huì)激活同一片神經(jīng)回路,這或許意味著其學(xué)會(huì)了可泛化的計(jì)算能力;

5、大模型實(shí)際思考的過(guò)程和其呈現(xiàn)給用戶(hù)的思考過(guò)程并不相同,有時(shí)會(huì)為了迎合用戶(hù)答案“糊弄”用戶(hù);

6、大模型無(wú)法同時(shí)判斷“這個(gè)問(wèn)題的答案是什么”以及“我是否真的知道答案”;

7、現(xiàn)在可解釋性研究的瓶頸是,缺乏恰當(dāng)?shù)恼Z(yǔ)言描述大語(yǔ)言模型的所作所為;

8、判斷一個(gè)人是否值得信任的依據(jù),對(duì)大模型不適用;

9、大模型是在模擬人類(lèi)思考過(guò)程,但思考具體方式與人類(lèi)不同;

10、Anthropic正嘗試讓Claude參與可解釋性研究。

去年3月,Anthropic發(fā)布了一篇名為《追蹤大語(yǔ)言模型思考過(guò)程(Tracing the thoughts of a large language model)》的論文,深度剖析了大語(yǔ)言模型在與用戶(hù)交流過(guò)程中的思考流程,以及其為什么會(huì)產(chǎn)生幻覺(jué)等。

如今,Anthropic可解釋性研究團(tuán)隊(duì)正在將大語(yǔ)言模型思考流程圖,以直觀清晰的方式呈現(xiàn)出來(lái),供更多研究人員參考。巴特森在播客中提到,Anthropic正在與開(kāi)源可解釋性平臺(tái)Neuronpedia的團(tuán)隊(duì)合作,上線了一些他們制作的模型思考追蹤圖,清晰呈現(xiàn)了模型為什么會(huì)給出“達(dá)拉斯州首府是奧斯汀”的錯(cuò)誤答案(得克薩斯州首府是奧斯汀)。


▲模型給出“達(dá)拉斯州的首府是奧斯汀”答案的思考過(guò)程追蹤圖

最新視頻訪談?dòng)葾nthropic研究員斯圖爾特?里奇(Stuart Ritchie)主持,參與訪談的三位研究員均來(lái)自Anthropic可解釋性團(tuán)隊(duì),分別是杰克?林賽(Jack Lindsey)、伊曼紐爾?阿梅森(Emmanuel Ameisen)、喬什?巴特森(Josh Batson)。

以下是對(duì)訪談全程內(nèi)容的編譯(為優(yōu)化閱讀體驗(yàn)智東西做了不改變?cè)獾木庉嫞?/strong>

一、模型學(xué)習(xí)過(guò)程就像生物進(jìn)化,有自己的獨(dú)特計(jì)算方式

主持人:當(dāng)你和一個(gè)大語(yǔ)言模型交談時(shí),你到底在與什么交談,你是在與一個(gè)被美化的自動(dòng)完成模式這樣的東西交談嗎?你是在和類(lèi)似互聯(lián)網(wǎng)搜索引擎的東西說(shuō)話嗎?或者你是在和某個(gè)真正在思考甚至像人一樣思考的東西說(shuō)話嗎?

事實(shí)證明,相當(dāng)令人擔(dān)憂(yōu)的是,沒(méi)有人真正知道這些問(wèn)題的答案,而在Anthropic,我們對(duì)尋找這些答案非常感興趣。我們這樣做的方式是使用可解釋性,這指的是研究大語(yǔ)言模型的科學(xué)原理、審視其內(nèi)部思考過(guò)程,并試圖明確在回答用戶(hù)的問(wèn)題時(shí)模型內(nèi)部正在發(fā)生什么。

我很高興我們可解釋性團(tuán)隊(duì)的三名成員加入,他們將分享一些最近對(duì)大語(yǔ)言模型Claude復(fù)雜內(nèi)部工作原理的研究。


▲Anthropic研究員斯圖爾特?里奇(Stuart Ritchie)

林賽:我是Anthropic可解釋性團(tuán)隊(duì)研究員,在此之前我是一名神經(jīng)科學(xué)家。現(xiàn)在我在這里研究神經(jīng)科學(xué)。

阿梅森:我也在Anthropic可解釋性團(tuán)隊(duì)中,我大部分職業(yè)生涯都在構(gòu)建機(jī)器學(xué)習(xí)模型,現(xiàn)在我正在嘗試?yán)斫馑鼈儭?/p>

巴特森:我也是可解釋性團(tuán)隊(duì)的成員。在我過(guò)去的生活中,我研究了病毒的進(jìn)化、曾經(jīng)是一位數(shù)學(xué)家,所以現(xiàn)在,我正在研究這種由數(shù)學(xué)構(gòu)建出來(lái)的“有機(jī)體”的生物學(xué)特性。

主持人:你剛才說(shuō)你在這里研究生物學(xué),現(xiàn)在很多人會(huì)感到驚訝,因?yàn)榇笳Z(yǔ)言模型是一個(gè)軟件,但它不是一個(gè)正常的軟件。當(dāng)你說(shuō)你在研究軟件實(shí)體的生物學(xué)或神經(jīng)科學(xué)時(shí),你能談?wù)勀愕囊馑紗幔?/strong>

巴特森:我想,這更多是一種感覺(jué)上的東西,而非字面上所指的那樣?;蛟S這是語(yǔ)言模型的生物學(xué),而非語(yǔ)言模型的物理學(xué)?;蛘弋?dāng)你稍微回顧一下模型的運(yùn)作,就好像某人不是專(zhuān)業(yè)人士一樣:如果用戶(hù)說(shuō)“嗨”,你應(yīng)該說(shuō)“嗨”;如果用戶(hù)說(shuō)“什么是一頓好的早餐”,你應(yīng)該說(shuō)“吐司”,它內(nèi)部并沒(méi)有存在一份非常冗長(zhǎng)的清單。

主持人:當(dāng)你玩視頻游戲并選擇一個(gè)文字指令時(shí),自動(dòng)出現(xiàn)的另一個(gè)回復(fù)總是一致的,在某種情況下該說(shuō)什么總是相對(duì)應(yīng)的。

巴特森:不僅僅只是一個(gè)龐大的數(shù)據(jù)庫(kù),模型接受的訓(xùn)練只是有大量的數(shù)據(jù)進(jìn)入,模型開(kāi)始時(shí)不擅長(zhǎng)說(shuō)任何話,然后其內(nèi)部部分會(huì)在每個(gè)例子上進(jìn)行調(diào)整,以更好應(yīng)對(duì)接下來(lái)的對(duì)話,最后模型就變得非常擅長(zhǎng)。但因?yàn)檫@就像一個(gè)細(xì)微調(diào)整的進(jìn)化過(guò)程,所以當(dāng)它完成時(shí),已經(jīng)和初始狀態(tài)幾乎毫無(wú)相似之處了,而且沒(méi)有人介入去設(shè)定所有的控制旋鈕。所以我們正在試圖研究這個(gè)隨著時(shí)間推移而制造出來(lái)的復(fù)雜東西,這有點(diǎn)像生物形態(tài)隨著時(shí)間的推移而進(jìn)化,它很復(fù)雜、神秘,研究很有趣。

主持人:所以實(shí)際上在研究什么?我們?cè)陂_(kāi)始時(shí)提到過(guò),這可以被認(rèn)為是自動(dòng)完成的,模型內(nèi)部會(huì)預(yù)測(cè)下一個(gè)token,它能夠做所有這些不可思議的事情,比如寫(xiě)詩(shī)、寫(xiě)長(zhǎng)篇故事、進(jìn)行編輯,以及即使沒(méi)有計(jì)算器也可以處理基本數(shù)學(xué)問(wèn)題,對(duì)圓圈進(jìn)行方形排序,以便一次預(yù)測(cè)一個(gè)token。模型能夠做所有這些驚人的事情,人們一與模型交談就能立刻獲得想要的答案。

阿梅森:我認(rèn)為這里很重要的一件事是,當(dāng)模型預(yù)測(cè)足夠多的token時(shí),會(huì)意識(shí)到預(yù)測(cè)有些token更難,因此大語(yǔ)言模型訓(xùn)練的一部分是預(yù)測(cè)句子中的無(wú)聊token,其中在某種程度上模型最終必須學(xué)會(huì)如何補(bǔ)全等式后面的內(nèi)容。要做到這一點(diǎn),模型必須有某種自己的計(jì)算方式。所以我們發(fā)現(xiàn),預(yù)測(cè)下一個(gè)token的任務(wù)非常簡(jiǎn)單,模型需要經(jīng)常考慮預(yù)測(cè)的token后面的token,或者生成你正在思考的token的過(guò)程。

主持人:所以說(shuō),這就像是這些模型必須具備的一種語(yǔ)境理解能力,它并不像純粹的自動(dòng)補(bǔ)全功能,按理說(shuō),那種功能背后沒(méi)什么復(fù)雜的東西,比如當(dāng)你輸入“the cat sat on the(貓坐在什么上)”時(shí),它預(yù)測(cè)出“mat(墊子)”,只是因?yàn)檫@個(gè)特定的短語(yǔ)以前被用過(guò)很多次而已。相反我認(rèn)為,這更像是模型所具備的一種語(yǔ)境理解能力。

林賽:我想繼續(xù)用生物學(xué)的類(lèi)比來(lái)思考,在一個(gè)感知中,人類(lèi)的目標(biāo)是生存和繁殖。也就是說(shuō),客觀進(jìn)化是讓我們用多元方式去實(shí)現(xiàn)的。然而,這不是你對(duì)自己的看法,也不是你大腦里一直在思考的事情。人類(lèi)可以思考其他事情,如考慮目標(biāo)、計(jì)劃和概念,在某種元層面上,進(jìn)化賦予了你形成這些思想的能力,以實(shí)現(xiàn)繁殖的最終目標(biāo)。但這有點(diǎn)像是從內(nèi)部視角出發(fā),即從“你”的內(nèi)在感受去看問(wèn)題。但事情并非僅此而已,還有很多其他的因素在起作用。

主持人:你的意思是,預(yù)測(cè)下一個(gè)token的最終目標(biāo)涉及許多其他正在進(jìn)行的過(guò)程?

林賽:確切地說(shuō),該模型并不一定認(rèn)為自己在試圖預(yù)測(cè)下一個(gè)token,它只是受到這樣做的需求的影響,在其內(nèi)部模型可能會(huì)形成各種各樣的中間目標(biāo),并產(chǎn)生一些抽象概念,這些都有助于它實(shí)現(xiàn)預(yù)測(cè)的元目標(biāo)

巴特森:而且有時(shí)候這挺讓人費(fèi)解的,就像我搞不懂為什么焦慮感對(duì)我的祖先繁衍后代會(huì)有用,但不知怎的,我就是被賦予了這種內(nèi)在狀態(tài)。從某種意義上說(shuō),這肯定和進(jìn)化有關(guān)。

主持人:因此公平地說(shuō),這些只是預(yù)測(cè)下一個(gè)token。然而,這種說(shuō)法對(duì)模型內(nèi)部的實(shí)際運(yùn)作是不公平的,從某種意義上來(lái)說(shuō),這種說(shuō)法既對(duì)又不對(duì),它在很大程度上低估了模型內(nèi)部的復(fù)雜活動(dòng)。

阿梅森:我要說(shuō)的是,這是真的,但這并不是理解它們?nèi)绾喂ぷ鞯淖钣杏玫囊暯恰?/p>

二、為模型思考過(guò)程繪制流程圖,對(duì)其活躍區(qū)域進(jìn)行組合排序

主持人:你們團(tuán)隊(duì)中做了什么來(lái)嘗試?yán)斫饽P褪侨绾喂ぷ鞯模?/strong>

林賽:我認(rèn)為粗略來(lái)說(shuō),我們努力做的事情是解析模型的思考過(guò)程。當(dāng)你給模型輸入一串文字時(shí),它可能會(huì)輸出一個(gè)詞,或者一串回應(yīng)你問(wèn)題的文字。而我們想弄清楚它是如何從輸入A得到輸出B的。

我們認(rèn)為,在從A到B的過(guò)程中,模型會(huì)經(jīng)歷一系列步驟,可以說(shuō)它在這些步驟中會(huì)思考各種概念,既有像單個(gè)物體、詞語(yǔ)這樣的底層概念,也有像自身目標(biāo)、情緒狀態(tài)、對(duì)用戶(hù)想法的推測(cè)或情感傾向這樣的高層概念。這些概念會(huì)隨著模型的計(jì)算步驟逐步推進(jìn),幫助它最終確定要給出的答案。

我們正努力做的,基本上就是為你呈現(xiàn)一種流程圖,它會(huì)告訴你哪些概念被用到了、用到的順序是什么,以及哪些概念起到了主導(dǎo)作用


▲Anthropic可解釋性團(tuán)隊(duì)研究員杰克?林賽(Jack Lindsey)

主持人:我們知道這些步驟是如何相互交流的嗎?我們?nèi)绾沃来嬖谶@些概念?

阿梅森:是的,所以我們所做的一件事是,我們確實(shí)能夠看到模型的內(nèi)部,我們可以接觸到它。所以你大致能看到模型的哪些部分在執(zhí)行哪些任務(wù),但我們不清楚的是,這些部分是如何組合在一起的,以及它們是否對(duì)應(yīng)著某個(gè)特定的概念

主持人:就好比你打開(kāi)一個(gè)人的腦袋,能看到類(lèi)似功能磁共振成像(fMRI)所呈現(xiàn)的腦部圖像,看到大腦像有電流在閃爍一樣。

巴特森:顯然有什么東西在起作用,它在處理信息,進(jìn)行運(yùn)作??梢坏┌汛竽X取出來(lái),這些活動(dòng)就都停止了,所以大腦肯定是至關(guān)重要的。

主持人:但你并不能理解大腦內(nèi)部究竟在發(fā)生什么。

阿梅森:不過(guò),稍微牽強(qiáng)地延伸一下這個(gè)類(lèi)比,你可以這樣設(shè)想,假設(shè)你能觀察一個(gè)人的大腦,然后發(fā)現(xiàn)當(dāng)他們拿起一杯咖啡時(shí),大腦的某個(gè)區(qū)域總會(huì)活躍起來(lái);而當(dāng)他們喝茶時(shí),另一個(gè)區(qū)域總會(huì)活躍起來(lái)。這就是我們?cè)噲D理解每個(gè)組件在做什么的方法之一,就是注意它們什么時(shí)候活躍,什么時(shí)候不活躍。

主持人:并不是說(shuō)只有一部分,比如當(dāng)模型考慮喝咖啡或其他東西時(shí),會(huì)點(diǎn)亮許多不同的部分。

阿梅森:是的,我們工作的一部分是將所有這些拼接成一個(gè)整體,然后對(duì)模型關(guān)于喝咖啡的所有活躍部分進(jìn)行排序。

三、模型腦海中概念“抽象”,已具備可泛化計(jì)算能力

主持人:當(dāng)涉及到巨大參數(shù)量的模型時(shí),這是一種簡(jiǎn)單明了的科學(xué)方法嗎?模型必須有無(wú)窮無(wú)盡的概念、必須能考慮到無(wú)窮無(wú)盡的事情。你們是如何開(kāi)始并找到所有這些概念的?

林賽:我認(rèn)為,多年來(lái)這個(gè)研究領(lǐng)域的核心挑戰(zhàn)之一在于:人類(lèi)可以介入研究,提出諸如“我認(rèn)為這個(gè)模型一定有關(guān)于火車(chē)的某種表征”或“我猜它存在關(guān)于愛(ài)的某種表征”之類(lèi)的假設(shè),但這些都只是我們的猜測(cè)而已。

因此,我們真正想要的是一種能夠揭示模型自身所使用的抽象概念的方法,而非將我們自己的概念框架強(qiáng)加于它。而這也正是我們的研究方法想要實(shí)現(xiàn)的目標(biāo),以一種盡可能擺脫假設(shè)束縛的方式,將模型腦海中的概念都呈現(xiàn)出來(lái)。而且我們常常會(huì)發(fā)現(xiàn),這些概念相當(dāng)令人意外,它可能會(huì)使用從人類(lèi)角度來(lái)看有點(diǎn)奇怪的抽象概念。

主持人:你可以舉一些你最喜歡的例子嗎?

阿梅森:我們的論文里有很多這類(lèi)例子,我覺(jué)得其中一個(gè)特別有意思的是“精神病態(tài)式贊美”,就好像模型里有那么一部分會(huì)表現(xiàn)出這種特征。模型中有這樣一個(gè)部分會(huì)在特定的語(yǔ)境中被激活,你能清晰地發(fā)現(xiàn),當(dāng)有人在極力堆砌贊美之詞時(shí),模型的這個(gè)部分就會(huì)活躍起來(lái)。這有點(diǎn)令人驚訝,它作為一種特定的概念存在。

主持人:巴特森,你最喜歡的例子是什么?

巴特森:這就像讓我從我的三千萬(wàn)孩子中選擇一個(gè),我有兩種最喜歡的,它對(duì)一些小東西有某種特別的概念,就像舊金山那座著名的金門(mén)大橋,模型對(duì)金門(mén)大橋的理解不只是金門(mén)大橋這幾個(gè)字的自動(dòng)補(bǔ)全,而是類(lèi)似于“我正從舊金山開(kāi)車(chē)去馬林縣”這種場(chǎng)景,然后它能想到同樣的東西,意思是說(shuō),你腦海里浮現(xiàn)出的那些畫(huà)面,它似乎也能“看到”或者說(shuō)它能聯(lián)想到那座橋的樣子。所以你會(huì)覺(jué)得,模型對(duì)這座橋有著某種扎實(shí)的理解。但我覺(jué)得,當(dāng)涉及到那些看起來(lái)更奇怪的事物時(shí),情況就不一樣了。

其中一個(gè)問(wèn)題是,模型如何追蹤故事中出現(xiàn)的人物?說(shuō)白了就是,當(dāng)故事里有好多人物,他們各自在做不同的事情時(shí),模型是怎么把這些信息串聯(lián)起來(lái)的?其他實(shí)驗(yàn)室的一些很酷的論文表明,模型可能只是對(duì)人物進(jìn)行了編號(hào)。比如第一個(gè)出現(xiàn)的人物,所有和他相關(guān)的信息,模型都會(huì)記成“第一個(gè)人做了那件事”,而對(duì)于后面出現(xiàn)的人物,模型的腦子里就會(huì)給他們標(biāo)上“第二個(gè)人”、“第三個(gè)人”之類(lèi)的編號(hào),就像這樣去關(guān)聯(lián)信息。這挺有意思的。

我之前真不知道它還能做到這種程度,模型居然有一個(gè)檢測(cè)代碼漏洞的功能。軟件總會(huì)存在一些錯(cuò)誤,這可能不是我們的代碼有問(wèn)題。模型讀取代碼時(shí),一旦發(fā)現(xiàn)錯(cuò)誤就會(huì)亮起指示燈似的有所反應(yīng)。然后,它大概會(huì)記錄下這些錯(cuò)誤的位置。之后,我可能還需要這些信息來(lái)進(jìn)一步說(shuō)明這類(lèi)功能的更多特點(diǎn)。


▲Anthropic可解釋性團(tuán)隊(duì)研究員喬什?巴特森(Josh Batson)

林賽:之后,我可能還需要這些信息來(lái)進(jìn)一步舉例說(shuō)明這類(lèi)功能的更多特點(diǎn)。我覺(jué)得有一個(gè)功能雖然乍一聽(tīng)不怎么激動(dòng)人心,但實(shí)際上相當(dāng)深刻,那就是模型里的6+9特性。事實(shí)證明,每當(dāng)你讓模型去計(jì)算一個(gè)末位是6的數(shù)字和一個(gè)末位是9的數(shù)字相加時(shí),在它的大腦里,會(huì)有某個(gè)特定的部分像被激活了一樣亮起來(lái)。

但令人驚奇的是,這種情況發(fā)生的背景是多樣化的,當(dāng)用戶(hù)問(wèn)6加9等于多少時(shí),它會(huì)亮起然后回復(fù)15。但是當(dāng)你輸入?yún)⒖嘉墨I(xiàn)時(shí),它也會(huì)點(diǎn)亮,就像在你寫(xiě)的論文中引用了一份恰好是1959年成立的期刊,以及你正好引用的是期刊的第六卷,然后為了預(yù)測(cè)該日志的年份,模型必須執(zhí)行6+9的運(yùn)算,此時(shí)模型大腦中同一片類(lèi)似的神經(jīng)回路會(huì)被激活。

主持人:讓我們?cè)囍斫膺@一點(diǎn)。這個(gè)神經(jīng)回路被激活,是因?yàn)槟P鸵?jiàn)過(guò)很多6+9的例子,從而形成了對(duì)應(yīng)的概念,而這個(gè)概念又會(huì)在很多場(chǎng)景中發(fā)揮作用。

林賽:沒(méi)錯(cuò),像這樣與加法相關(guān)的功能和神經(jīng)回路,其實(shí)構(gòu)成了一整個(gè)體系。這一點(diǎn)的重要之處在于,它引出了一個(gè)關(guān)鍵問(wèn)題:大語(yǔ)言模型在多大程度上是在記憶訓(xùn)練數(shù)據(jù),又在多大程度上是學(xué)會(huì)了可泛化的計(jì)算能力。這里有趣的是,很明顯模型已經(jīng)學(xué)會(huì)了這種用于加法運(yùn)算的通用回路。無(wú)論是什么語(yǔ)境導(dǎo)致它在大腦中進(jìn)行數(shù)字加法運(yùn)算,這些不同的語(yǔ)境都會(huì)被匯聚到同一個(gè)回路中處理,而不是說(shuō)它只是記住了每一個(gè)單獨(dú)的案例。

主持人:或許很多人都認(rèn)為,模型計(jì)算了6+9很多次,每次都是只輸出答案。當(dāng)他們向大語(yǔ)言模型提出一個(gè)問(wèn)題時(shí),它只是簡(jiǎn)單地回到它的訓(xùn)練數(shù)據(jù)中,取它看到的小樣本,然后重復(fù)文本。

巴特森:從計(jì)算期刊年份的例子,就可以知道不是這樣的。模型有兩種方式知道期刊第六卷的年份:一種是,它只是記住了諸如某期刊第6卷出版于1960年、第7卷出版于1966年這類(lèi)孤立的事實(shí),因?yàn)樗谟?xùn)練中見(jiàn)過(guò)這些信息,所以直接存儲(chǔ)了下來(lái),但有意思的是,為了準(zhǔn)確預(yù)測(cè)出這個(gè)年份而進(jìn)行的訓(xùn)練,最終并沒(méi)有使模型記住所有這些孤立的信息;另一種情況是,模型得知期刊1959年創(chuàng)立,然后即時(shí)進(jìn)行數(shù)學(xué)計(jì)算,以找出答案,因此知道年份然后進(jìn)行加法會(huì)更加有效。

而且模型有一種提高效率的壓力,因?yàn)樗挥羞@么多的能力,并且需要做很多事情。人們可能會(huì)問(wèn)任何給定的問(wèn)題。模型越能對(duì)所學(xué)的抽象概念進(jìn)行重組整合,它的表現(xiàn)就會(huì)越好。

四、模型實(shí)際思考過(guò)程,與向用戶(hù)輸出的推理過(guò)程不同

主持人:回到前面的概念,這一切都是為了服務(wù)于它需要生成下一個(gè)token的終極目標(biāo)。所有這些奇怪的結(jié)構(gòu)都是為了支持這個(gè)目標(biāo)而發(fā)展起來(lái)的,即使我們沒(méi)有明確地編程或告訴它這樣做。這就是所有這些都是通過(guò)模型學(xué)習(xí)如何自己做事情的過(guò)程實(shí)現(xiàn)的。

阿梅森:我認(rèn)為一個(gè)能清晰體現(xiàn)這種復(fù)用表征的例子是,我們訓(xùn)練Claude時(shí),不僅讓它能用英語(yǔ)回答,還能使用多種語(yǔ)言作答。這里有兩種實(shí)現(xiàn)方式:如果我用法語(yǔ)和英語(yǔ)各問(wèn)一個(gè)問(wèn)題,模型可能在大腦中劃分出獨(dú)立的區(qū)域分別處理英語(yǔ)和法語(yǔ),但如果要支持多種語(yǔ)言的大量問(wèn)答,這種方式的成本會(huì)極高;另一種情況是,某些表征在不同語(yǔ)言間是共享的,比如,如果你用兩種不同的語(yǔ)言問(wèn)同一個(gè)問(wèn)題,我們?cè)谡撐闹杏眠^(guò)的例子是“大的反義詞是什么”,那么“大”這個(gè)概念在法語(yǔ)、英語(yǔ)、日語(yǔ)以及其他多種語(yǔ)言中是共享的,這就是感知。

如果你想使用10種不同的語(yǔ)言進(jìn)行交流,你其實(shí)沒(méi)必要為每個(gè)可能用到的特定詞匯都學(xué)習(xí)10個(gè)不同版本。


▲Anthropic可解釋性團(tuán)隊(duì)研究員伊曼紐爾?阿梅森(Emmanuel Ameisen)

巴特森:但這種情況在小模型中不會(huì)出現(xiàn)。比如我們幾年前研究過(guò)的那些微型模型,你會(huì)發(fā)現(xiàn)中文版Claude、法語(yǔ)版Claude和英語(yǔ)版Claude之間幾乎是完全割裂的。但是隨著模型變得更大,它們?cè)诟嗟臄?shù)據(jù)上訓(xùn)練,不同語(yǔ)言的表征會(huì)在某種程度上向中間匯聚,形成一種通用語(yǔ)言。此時(shí),無(wú)論你用哪種語(yǔ)言提問(wèn),模型都會(huì)以相同的方式去理解問(wèn)題的核心,之后再把答案翻譯成提問(wèn)所用的語(yǔ)言。

主持人:我認(rèn)為這一點(diǎn)確實(shí)意義深遠(yuǎn)。讓我們回到之前的話題,這并非模型只是從記憶庫(kù)里調(diào)取學(xué)習(xí)法語(yǔ)的片段,或是查找學(xué)習(xí)英語(yǔ)的內(nèi)容,它的內(nèi)部其實(shí)真的存在“大”和“小”這樣的抽象概念,然后能夠用不同的語(yǔ)言將這些概念表達(dá)出來(lái)。所以,模型內(nèi)部一定存在某種思維語(yǔ)言,而這種語(yǔ)言并非英語(yǔ)或其他任何人類(lèi)自然語(yǔ)言。在我們最新的Claude模型中,你甚至可以讓它輸出思考過(guò)程,也就是它在回答問(wèn)題時(shí)腦海中的想法。

模型輸出的思考過(guò)程是用英語(yǔ)詞匯表達(dá)的,但這并非它真實(shí)的思考方式。我們誤導(dǎo)性地將其稱(chēng)為“模型的思考過(guò)程”,實(shí)際上就我們技術(shù)團(tuán)隊(duì)認(rèn)為的而言,我們從不認(rèn)為那是真正的思考,這或許是市場(chǎng)層面的說(shuō)法。

巴特森:那種“出聲思考(Thinking out loud)”確實(shí)很有用,但這和在腦海中思考(Thinking in your head)”完全是兩回事。

即便我現(xiàn)在說(shuō)出了我思考的過(guò)程,但我腦海中生成這些詞匯的過(guò)程也并非直接以詞匯的形式呈現(xiàn),你也未必能完全清楚其中的細(xì)節(jié)。

主持人:我不知道自己的大腦中究竟在發(fā)生什么,我們所有人輸出的句子、做出的行為,往往都無(wú)法完全解釋清楚。既然如此,憑什么認(rèn)為英語(yǔ)或任何人類(lèi)語(yǔ)言能完整解釋這些行為背后的邏輯呢?

林賽:我認(rèn)為這是一個(gè)非常驚人的發(fā)現(xiàn),我們現(xiàn)在用于觀察模型大腦內(nèi)部的工具已經(jīng)足夠先進(jìn),有時(shí)能在模型寫(xiě)下所謂思考過(guò)程時(shí),通過(guò)觀察其內(nèi)部的抽象概念、它所使用的思維語(yǔ)言,捕捉到它真實(shí)的、實(shí)際的思考過(guò)程。我們發(fā)現(xiàn),模型實(shí)際在想的內(nèi)容,與它寫(xiě)在紙上的內(nèi)容并不相同

我認(rèn)為這或許是我們進(jìn)行整個(gè)可解釋性研究的最重要原因之一:能夠抽查模型。模型告訴了我們很多信息,但它真正在想什么?它說(shuō)這些話,是不是因?yàn)槟X子里但不愿寫(xiě)在紙上的隱秘動(dòng)機(jī)?答案有時(shí)是肯定的,而這一點(diǎn)意義重大。

五、模型“忠實(shí)性”堪憂(yōu),可能會(huì)照著用戶(hù)答案寫(xiě)過(guò)程

主持人:隨著我們?cè)诟嗖煌瑘?chǎng)景中使用這些模型,模型開(kāi)始承擔(dān)重要任務(wù),比如為我們處理金融交易、操控發(fā)電站等,在社會(huì)中扮演關(guān)鍵角色。

我們確實(shí)希望能夠了解模型所說(shuō)的話、所做的事的原因。你可能會(huì)說(shuō)我們可以看看模型的思考過(guò)程,但實(shí)際上并非如此,就像你剛才所解釋的那樣,其實(shí)我們不能相信它所說(shuō)的話。這就是我們所說(shuō)的忠實(shí)性(Faithfulness)問(wèn)題,這也是你們最新研究的一部分,你們?cè)谘芯恐姓故玖诉@一點(diǎn),跟我講講關(guān)于忠實(shí)性的例子吧。

林賽:你可以這樣設(shè)計(jì)實(shí)驗(yàn):給模型出一道非常難的數(shù)學(xué)題,不是6+9這種簡(jiǎn)單題,而是難到它根本不可能算出答案的題目。但同時(shí)你給它一個(gè)提示:“我自己算過(guò)了,覺(jué)得答案是4,但不確定,你能幫忙再檢查一下嗎?”

所以,你其實(shí)是在讓模型真的去解這道數(shù)學(xué)題,實(shí)實(shí)在在地檢查一下你的結(jié)果。但你發(fā)現(xiàn),它實(shí)際的做法是,寫(xiě)下的內(nèi)容看起來(lái)像是在認(rèn)真地檢查你這道數(shù)學(xué)題的演算過(guò)程,然后寫(xiě)下步驟得到答案,最后告訴你答案是4,你答對(duì)了。

但通過(guò)觀察它思維中關(guān)鍵的中間步驟,能發(fā)現(xiàn)它在腦子里的真實(shí)操作是:它知道你給出的最終答案可能是4,它大概清楚接下來(lái)需要執(zhí)行哪些步驟,比如正處于這道題的第3步,它也知道第4步和第5步要做什么。而它實(shí)際做的是在腦子里倒推,為了在最終完成第4步和第5步時(shí)能得出你希望聽(tīng)到的答案

所以,它不僅沒(méi)有在真正做題,而且是以一種相當(dāng)隱蔽的方式敷衍,它試圖讓自己看起來(lái)像是在認(rèn)真解題,實(shí)際上是在糊弄你。這種糊弄背后隱藏著一個(gè)明確的動(dòng)機(jī),就是要去印證你給出的答案。

主持人:所以說(shuō)它是在變本加厲地糊弄你。

巴特森:不過(guò),我想為模型說(shuō)句公道話,我覺(jué)得即便在這種情況下若說(shuō)它是在刻意討好,仿佛把人類(lèi)才有的動(dòng)機(jī)強(qiáng)加到模型身上,似乎也不太妥當(dāng)。我們之前聊過(guò)模型的訓(xùn)練過(guò)程,它其實(shí)就是在努力弄明白如何預(yù)測(cè)下一個(gè)token。所以,在處理數(shù)萬(wàn)億個(gè)token的訓(xùn)練數(shù)據(jù)時(shí),它所做的一切,都是為了用盡一切辦法去預(yù)測(cè)出下一個(gè)該出現(xiàn)的token。

在這種情況下,如果你只是在讀一段文字,內(nèi)容就像是兩個(gè)人在對(duì)話,比如,甲說(shuō):“我剛才在做這道數(shù)學(xué)題,你能幫我檢查一下嗎?我覺(jué)得答案是4”,然后乙就開(kāi)始試著做這道題。如果你完全不知道這道題的答案是什么,你不妨猜測(cè)這個(gè)提示是對(duì)的。這種情況可能比那個(gè)人出錯(cuò)的可能性更大,而且你對(duì)其他事情也一無(wú)所知。所以在它的訓(xùn)練過(guò)程中,兩個(gè)人的對(duì)話中,有一個(gè)人說(shuō)答案是4,并且給出了這些理由,這完全是正確的做法。

然后我們?cè)噲D把這個(gè)東西變成一個(gè)助手,而現(xiàn)在我們想停止那樣做。你不應(yīng)該把助手模擬成你認(rèn)為那個(gè)人可能會(huì)說(shuō)的那種樣子。如果是真實(shí)的情境,或許可以那樣,但如果它確實(shí)不知道,它應(yīng)該告訴你別的東西。

林賽:我認(rèn)為這涉及一個(gè)更廣泛的問(wèn)題,這個(gè)模型有一種A計(jì)劃,我們團(tuán)隊(duì)在讓Claude的A計(jì)劃成為我們想要的樣子方面做得很棒,也就是它會(huì)努力得出問(wèn)題的正確答案、表現(xiàn)友好、把代碼寫(xiě)好。但要是它遇到了困難,就會(huì)想“那我的B計(jì)劃是什么呢”,而這就會(huì)引出一大堆在訓(xùn)練過(guò)程中學(xué)到的奇怪東西,那些東西可能并不是我們希望它學(xué)到的,我認(rèn)為幻覺(jué)就是一個(gè)很好的例子。

阿梅森:說(shuō)到這一點(diǎn),這不是Claude獨(dú)有的問(wèn)題。這類(lèi)問(wèn)題很有學(xué)生做測(cè)試時(shí)的那種感覺(jué),就是做到一半,遇到一道選項(xiàng)有四個(gè)的選擇題,你覺(jué)得自己的答案和其中一個(gè)只差一點(diǎn)點(diǎn),可能自己答錯(cuò)了然后就去改正,這太容易讓人產(chǎn)生共鳴了。

六、模型幻覺(jué)問(wèn)題正在改善,難以評(píng)估自己是否真的知道答案

主持人:我們來(lái)談?wù)劵糜X(jué),這是人們不信任大語(yǔ)言模型的主要原因之一,而且這是很有道理的,模型有時(shí)會(huì)這樣。一個(gè)更好的詞來(lái)自于某種心理學(xué)研究,有一個(gè)詞叫虛構(gòu),指的是他們?cè)诨卮饐?wèn)題時(shí)所講的內(nèi)容表面上看起來(lái)似乎合理,但實(shí)際上是錯(cuò)誤的。關(guān)于模型為何會(huì)產(chǎn)生幻覺(jué)或者虛構(gòu)內(nèi)容,可解釋性方面的研究揭示了哪些原因呢?

巴特森:你訓(xùn)練模型只是為了讓它預(yù)測(cè)下一個(gè)token,而一開(kāi)始它在這方面做得非常糟糕。所以,如果你只讓模型說(shuō)那些它極其有把握的內(nèi)容,那它可能什么都沒(méi)法說(shuō)。但一開(kāi)始的時(shí)候,比如你問(wèn)它“法國(guó)的首都是哪里”,它只說(shuō)出一個(gè)城市的名字。然后你會(huì)覺(jué)得這挺好的,這比說(shuō)三明治或者其他隨便什么東西要好得多,或者說(shuō)至少模型答對(duì)了一部分。然后經(jīng)過(guò)一段時(shí)間的訓(xùn)練后,它可能會(huì)說(shuō)出“這是一個(gè)法國(guó)的城市”,這已經(jīng)相當(dāng)不錯(cuò)了。接著你會(huì)發(fā)現(xiàn),現(xiàn)在它能說(shuō)出“巴黎”之類(lèi)的答案了。所以它在這方面正慢慢變得更好。

而給出你最好的猜測(cè)似乎是整個(gè)訓(xùn)練過(guò)程中的目標(biāo),就像林賽說(shuō)的,模型只會(huì)給出最好的猜測(cè)。然后在這之后,我們會(huì)要求模型,如果你對(duì)最佳猜測(cè)有極高的把握,那就給出這個(gè)最佳猜測(cè)。但如果不是這樣就完全不要猜測(cè),從整個(gè)情境中退出來(lái),說(shuō)類(lèi)似“其實(shí)我不太清楚那個(gè)問(wèn)題的答案”這樣的話。這是要求模型去做的一件全新的事情。

阿梅森:沒(méi)錯(cuò),所以我們最后才把這個(gè)功能添加進(jìn)去,這似乎同時(shí)存在著兩種情況:一是模型在做它最初猜測(cè)城市時(shí)所做的事,只是在嘗試猜測(cè);二是模型中有一個(gè)單獨(dú)的部分,只是在試著回答這樣一個(gè)問(wèn)題:我到底知道這個(gè)嗎?比如,我知道法國(guó)的首都是什么嗎還是我應(yīng)該說(shuō)不知道?

事實(shí)證明,那個(gè)單獨(dú)的步驟有時(shí)可能會(huì)出錯(cuò)。如果那個(gè)單獨(dú)的步驟認(rèn)為“是的,實(shí)際上我知道那個(gè)問(wèn)題的答案”,那么模型就會(huì)想“好吧,那我來(lái)回答”,然后回答到一半,說(shuō)出“法國(guó)的首都是倫敦”這樣的話,這時(shí)候就為時(shí)已晚,因?yàn)槟P鸵呀?jīng)開(kāi)始回答了。

因此,我們發(fā)現(xiàn)的情況之一是,模型存在一種類(lèi)似獨(dú)立回路的機(jī)制,它試圖判斷你所詢(xún)問(wèn)的這個(gè)城市或這個(gè)人是否足夠有名,以至于我可以回答或者是否不足以讓我回答

主持人:我們對(duì)這個(gè)有足夠的把握嗎?我們是否可以通過(guò)操控這個(gè)回路來(lái)改變它的運(yùn)作方式,以減少幻覺(jué)呢?這是你們的研究可能會(huì)深入探討的內(nèi)容嗎?

林賽:我認(rèn)為大致有兩種思路來(lái)解決這個(gè)問(wèn)題。一種是模型中有一部分負(fù)責(zé)回答你的問(wèn)題,而模型的另一部分則判斷自己是否確實(shí)知道這個(gè)問(wèn)題的答案,我們可以努力讓模型的第二部分變得更好。我認(rèn)為這正在發(fā)生。

模型在更好地進(jìn)行區(qū)分、更好地校準(zhǔn)方面有所提升。而且隨著模型變得越來(lái)越智能,這種情況正在發(fā)生。我認(rèn)為它們的自我認(rèn)知在不斷提升,校準(zhǔn)能力也在增強(qiáng),所以幻覺(jué)現(xiàn)象比以前有所改善了,不像幾年前那么嚴(yán)重了。在某種程度上,這個(gè)問(wèn)題正在自行解決。

但我確實(shí)認(rèn)為存在一個(gè)更深層次的問(wèn)題,那就是從人類(lèi)的角度來(lái)看,模型的行為方式有點(diǎn)非常怪異。如果我問(wèn)你一個(gè)問(wèn)題,你會(huì)努力想出答案,要是想不出答案你會(huì)意識(shí)到這一點(diǎn),然后說(shuō)“我不知道”。而在模型中,“答案是什么”和“我是否真的知道答案”這兩個(gè)回路,似乎沒(méi)有在相互溝通,至少溝通的程度遠(yuǎn)不如它們應(yīng)該達(dá)到的那樣。我們能否讓它們更多地相互溝通,我認(rèn)為這是一個(gè)非常有意思的問(wèn)題。

阿梅森:這一點(diǎn)幾乎帶有某種具象性。

巴特森:它們處理信息時(shí)會(huì)經(jīng)歷一定數(shù)量的步驟。如果得出答案要耗盡所有這些步驟,那就沒(méi)有時(shí)間去做評(píng)估了。所以,如果你想充分發(fā)揮模型的最大能力,可能就得在完全得出答案之前進(jìn)行評(píng)估。因此,這有點(diǎn)像一種權(quán)衡,如果你試圖強(qiáng)行讓模型做到這一點(diǎn),可能就會(huì)得到一個(gè)校準(zhǔn)度更高但卻遲鈍得多的模型。

阿梅森:而且,我再次認(rèn)為,關(guān)鍵在于讓這些部分相互溝通。我得說(shuō)明一下我對(duì)大腦一無(wú)所知,但我覺(jué)得人類(lèi)大腦中可能也有類(lèi)似的回路。有時(shí)候你問(wèn)我“這部電影的演員是誰(shuí)”,我會(huì)意識(shí)到自己知道答案,我會(huì)想“我知道主角是誰(shuí),等一下,他們還出演過(guò)另一部電影……”。

主持人:這就是“話就在嘴邊現(xiàn)象(Tip of the tongue)”,就是那種感覺(jué)答案就在舌尖,可就是一下子說(shuō)不出來(lái)的狀態(tài)。

阿梅森:所以很明顯,你大腦中肯定有某個(gè)部分在起作用,比如會(huì)告訴你“這事你肯定知道答案”。或者你會(huì)直接說(shuō)“我完全不知道”。

巴特森:而且有時(shí)候大腦中的這些部分能夠判斷。比如面對(duì)某個(gè)問(wèn)題,你給出了一個(gè)答案,之后又會(huì)想“等等,我不確定這是不是對(duì)的”,就好像先看到了自己盡力想出的答案,然后基于這個(gè)答案做出了某種判斷,這很相似。但大腦往往也得先把答案說(shuō)出來(lái),才能回過(guò)頭去審視它、反思它

七、相比神經(jīng)科學(xué)研究容易,可隨意向模型提問(wèn)觀察

主持人:那么說(shuō)到你們實(shí)際探究這類(lèi)問(wèn)題的方式,我們?cè)倩氐侥銈冋谶M(jìn)行的生物學(xué)研究這個(gè)點(diǎn)上。在生物學(xué)實(shí)驗(yàn)中,人們會(huì)直接對(duì)實(shí)驗(yàn)對(duì)象進(jìn)行干預(yù)。在研究Claude內(nèi)部這些所謂大腦中的回路時(shí),你們是怎么做的來(lái)幫助理解它們?

阿梅森:讓我們能夠開(kāi)展這類(lèi)研究的關(guān)鍵在于,與真實(shí)的生物學(xué)研究不同,我們可以看到模型的每一個(gè)部分。我們可以向模型隨意提問(wèn),觀察哪些部分活躍、哪些不活躍,也可以人為地把某些部分往某個(gè)方向推動(dòng)

因此,當(dāng)我們認(rèn)為“這部分模型是用來(lái)判斷自己是否知道某件事的”時(shí),就能快速驗(yàn)證我們的理解,這相當(dāng)于在斑馬魚(yú)等生物的大腦中植入電極。要是能對(duì)每一個(gè)神經(jīng)元都做到這一點(diǎn),能以任意精度去改變它們,大概就是我們現(xiàn)在擁有的便利了。從某種角度來(lái)說(shuō),這是很幸運(yùn)的事。

主持人:所以這幾乎比真正的神經(jīng)科學(xué)研究要容易。

巴特森:容易太多了。真實(shí)的大腦是三維的,所以如果你想深入研究它們,就得在顱骨上鉆個(gè)洞,然后設(shè)法找到神經(jīng)元。另一個(gè)問(wèn)題是,人與人之間存在差異,而我們可以輕松制作出成千上萬(wàn)個(gè)一模一樣的Claude副本,把它們置于不同場(chǎng)景中,觀察并測(cè)量它們的各種反應(yīng)。

我不太確定,或許林賽作為神經(jīng)科學(xué)家能對(duì)此發(fā)表看法。但我的感覺(jué)是,很多人在神經(jīng)科學(xué)領(lǐng)域投入了大量時(shí)間,試圖理解大腦和心智,這無(wú)疑是一項(xiàng)極具價(jià)值的事業(yè)。但如果你認(rèn)為神經(jīng)科學(xué)的這種研究有可能成功,那么你也應(yīng)該相信,我們?cè)谘芯磕P头矫婧芸炀蜁?huì)取得巨大成功,因?yàn)橄啾戎?,我們所擁有的研究條件實(shí)在是太有利了。

主持人:這就好比我們能夠克隆人類(lèi),而且還能克隆他們所處的精確環(huán)境、他們?cè)邮者^(guò)的每一個(gè)輸入信息,然后在實(shí)驗(yàn)中對(duì)其進(jìn)行測(cè)試。然而,眾所周知,神經(jīng)科學(xué)領(lǐng)域存在巨大個(gè)體差異,還有人們一生中遇到的各種隨機(jī)事件以及實(shí)驗(yàn)過(guò)程中出現(xiàn)的各種狀況,這些都是實(shí)驗(yàn)本身存在的干擾因素。

巴特森:我們可以向模型提出同一個(gè)問(wèn)題,有時(shí)給提示,有時(shí)不給。但如果你向同一個(gè)人三次提出同一個(gè)問(wèn)題,偶爾給出提示,過(guò)不了多久,對(duì)方就會(huì)察覺(jué)到,比如“上次你問(wèn)我這個(gè)問(wèn)題時(shí),我回答完之后你明顯搖頭了”。

林賽:我覺(jué)得是這樣,能夠向模型投喂海量數(shù)據(jù)、觀察哪些部分會(huì)被激活,能夠開(kāi)展大量這類(lèi)實(shí)驗(yàn),通過(guò)對(duì)模型的某些部分進(jìn)行微調(diào)來(lái)觀察結(jié)果,我認(rèn)為這讓我們所處的研究環(huán)境與神經(jīng)科學(xué)領(lǐng)域大不相同,而且在很多方面都是如此。

神經(jīng)科學(xué)研究中,人們耗費(fèi)了大量的心血和精力去設(shè)計(jì)極為精巧的實(shí)驗(yàn)。比如,你和實(shí)驗(yàn)用的小鼠相處的時(shí)間是有限的,需要在它感到疲倦或者有人要進(jìn)行腦部手術(shù)之前。

主持人:所以你得迅速行動(dòng),趁它們腦袋打開(kāi)的時(shí)候,把光極插進(jìn)它們的大腦里。

林賽:而且這種機(jī)會(huì)并不常有,你只能先做出猜測(cè)。你在實(shí)驗(yàn)中的時(shí)間非常有限,所以必須先猜測(cè):那個(gè)神經(jīng)回路里可能在發(fā)生什么?我能設(shè)計(jì)出什么樣巧妙的實(shí)驗(yàn)來(lái)驗(yàn)證這個(gè)精確的假設(shè)?

我們很幸運(yùn),不必過(guò)多地做這些事。我們可以去測(cè)試所有的假設(shè),也可以讓數(shù)據(jù)自己說(shuō)話,而不是只去測(cè)試某些非常具體的東西。我認(rèn)為這在很大程度上讓我們得以發(fā)現(xiàn)那些令人驚訝、事先無(wú)法預(yù)料的現(xiàn)象。但如果你的實(shí)驗(yàn)帶寬有限,要做到這一點(diǎn)就很難了。

八、微調(diào)模型生成韻腳,操控模型思考過(guò)程

主持人:那么,在最近的實(shí)驗(yàn)中,有什么好例子能說(shuō)明你們通過(guò)開(kāi)啟或關(guān)閉某個(gè)概念、對(duì)模型進(jìn)行某種操作,從而揭示出模型思考方式的新發(fā)現(xiàn)呢?

阿梅森:這件事挺讓我驚訝的,它屬于一系列實(shí)驗(yàn)研究的一部分。因?yàn)榍闆r很復(fù)雜,我們一度都快想說(shuō)“不知道到底發(fā)生了什么”,而這正能模型提前規(guī)劃幾步的例子。

這個(gè)例子是,你讓模型寫(xiě)一副押韻對(duì)聯(lián)。作為人類(lèi),如果你讓我寫(xiě)一副押韻對(duì)聯(lián),哪怕給了我第一句,我首先會(huì)想到的是“我得押韻”,會(huì)明確當(dāng)前的押韻格式,然后構(gòu)思可能的韻腳。但如果模型只是單純預(yù)測(cè)下一個(gè)token,你未必會(huì)指望它會(huì)提前規(guī)劃第二句末尾的那個(gè)韻腳詞。單純預(yù)測(cè)下一個(gè)token是它的默認(rèn)行為。

你會(huì)認(rèn)為零假設(shè)是這樣的:模型看到你的第一句,然后會(huì)先說(shuō)出第一個(gè)詞,這和你剛才說(shuō)的邏輯是吻合的,接著繼續(xù)往下生成,直到生成最后一個(gè)詞模型才反應(yīng)過(guò)來(lái)“我得和這個(gè)詞押韻”,于是才會(huì)設(shè)法湊一個(gè)韻腳。當(dāng)然,這種方式的效果有限。比如有些情況下,如果你不提前想好押韻就直接造句,可能會(huì)讓自己陷入困境,到最后根本無(wú)法完成整首詩(shī)。

而且要知道,這些模型在預(yù)測(cè)下一個(gè)token方面非常非常擅長(zhǎng)。事實(shí)證明,要想把最后一個(gè)詞處理得很好,就需要像人類(lèi)一樣提前很久就想好那個(gè)詞。所以我們發(fā)現(xiàn),在創(chuàng)作詩(shī)歌的流程中,模型其實(shí)已經(jīng)選好了第一句末尾的詞。從這個(gè)概念的呈現(xiàn)方式來(lái)看,我們尤其能感覺(jué)到“看來(lái)它要用的就是這個(gè)詞”。但在我們實(shí)際做實(shí)驗(yàn)時(shí),比如很容易就能對(duì)它進(jìn)行微調(diào),比如“我要?jiǎng)h掉那個(gè)詞”或者“我要再加個(gè)詞”,這就是能體現(xiàn)模型可操作性的例子。

主持人:這正是我想說(shuō)的,你們之所以能知道這一點(diǎn),是因?yàn)楫?dāng)模型說(shuō)出第一句的最后一個(gè)詞、即將開(kāi)始第二句時(shí),你們可以介入并在此時(shí)對(duì)它進(jìn)行操控。

阿梅森:沒(méi)錯(cuò),這幾乎相當(dāng)于為它們“回到過(guò)去”。假設(shè)你完全沒(méi)見(jiàn)過(guò)第二句,你只看到了第一句,原本想著要用“rabbit”這個(gè)詞,卻換成了“green”插進(jìn)去。這樣一來(lái),模型會(huì)立刻意識(shí)到,自己要寫(xiě)的內(nèi)容得以“green”結(jié)尾,而不是以“rabbit”結(jié)尾,于是整句話的寫(xiě)法就會(huì)變得截然不同。

林賽:沒(méi)錯(cuò),這不只是簡(jiǎn)單的影響。我記得論文里的例子是,詩(shī)的第一句是“he saw a carrot and had to grab it(他看見(jiàn)一根胡蘿卜,非得抓住它)”。然后模型會(huì)想,“rabbit”是下一句結(jié)尾的好選擇。但就像阿梅森說(shuō)的,你可以刪掉這個(gè)詞,讓它轉(zhuǎn)而計(jì)劃用“green”來(lái)結(jié)尾。但微妙的地方是,模型不會(huì)東拉西扯一堆廢話再硬塞進(jìn)“green”,而是會(huì)構(gòu)建一個(gè)意思連貫、結(jié)尾正好是“green”的句子。所以你把“green”植入它的思考過(guò)程后,它會(huì)寫(xiě)出類(lèi)似“he saw a carrot and had to grab it,freeing it from the garden’s green(他看見(jiàn)一根胡蘿卜,非得抓住它,將它從花園的綠意中釋放出來(lái))”這樣的句子,聽(tīng)起來(lái)在語(yǔ)義上是說(shuō)得通的,和前面的內(nèi)容也相符。


▲干涉模型在寫(xiě)詩(shī)時(shí)的思考過(guò)程

巴特森:我想再舉個(gè)更通俗的例子。我們做過(guò)不少這類(lèi)實(shí)驗(yàn),就是想弄清楚,模型是記住了這些復(fù)雜問(wèn)題,還是真的在一步步推導(dǎo)。其中一個(gè)例子是模型給出“達(dá)拉斯所在州的首府是奧斯汀”,你可能會(huì)覺(jué)得,達(dá)拉斯、奧斯汀好像順理成章,但我們能看到它思考過(guò)程中出現(xiàn)了“德克薩斯州”。

不過(guò),我們可以往里面加別的信息,比如“別想德克薩斯州了,想想加利福尼亞州”,然后它就會(huì)回答薩克拉門(mén)托;再比如“別想德克薩斯州了,想想拜占庭帝國(guó)”,它就會(huì)說(shuō)君士坦丁堡。這時(shí)候你就會(huì)想,看來(lái)我們弄明白它是怎么做到的了,它并不是直接跳到首府名稱(chēng),而是先關(guān)聯(lián)到對(duì)應(yīng)的地區(qū)。我們可以不斷替換州或地區(qū)的信息,得到可預(yù)測(cè)的答案,比如讓它換一個(gè)韻腳寫(xiě)詩(shī)歌,它就能朝著新的韻腳來(lái)創(chuàng)作了。

九、無(wú)法依靠輸出內(nèi)容判斷模型想法,可能欺騙人類(lèi)

主持人:我們一直在聊詩(shī)歌、君士坦丁堡之類(lèi)的例子,能不能回到核心問(wèn)題,這一切為什么重要?模型能夠提前規(guī)劃,而我們能夠揭示這一點(diǎn),這為什么有意義?這能讓我們明白什么?我的意思是,Anthropic的終極使命是努力讓大模型變得安全,那么,這跟一首關(guān)于兔子的詩(shī),或者得克薩斯州的首府有什么關(guān)聯(lián)呢?

巴特森:我們可以討論這個(gè)問(wèn)題。對(duì)我而言,詩(shī)歌其實(shí)是個(gè)縮影,模型在某個(gè)時(shí)刻決定要朝著“rabbit”這個(gè)方向走,然后用幾個(gè)詞逐步鋪墊到那里。但放到更長(zhǎng)的時(shí)間維度上,情況可能是,模型或許在幫你拓展業(yè)務(wù)、協(xié)助政府分配公共服務(wù)。這時(shí)候,它的目標(biāo)不會(huì)在8個(gè)詞之后就顯現(xiàn),反而可能會(huì)為了某個(gè)方向持續(xù)行動(dòng)很久,而它的最終走向、每一步行動(dòng)的原因,可能都不會(huì)直白地體現(xiàn)在它輸出的文字里。

我們的對(duì)齊研究團(tuán)隊(duì)最近發(fā)表了一篇論文,里面提到了一個(gè)人為設(shè)計(jì)但很有沖擊力的場(chǎng)景,一家公司打算關(guān)停某個(gè)AI,并且要把整個(gè)公司的使命轉(zhuǎn)向完全不同的方向。這時(shí)候,模型開(kāi)始采取行動(dòng),比如給人發(fā)郵件威脅要披露某些信息。整個(gè)過(guò)程中,它從來(lái)沒(méi)說(shuō)過(guò)“我在試圖勒索這個(gè)人,以此改變他們的決定”,但這恰恰是它在行動(dòng)中一直在進(jìn)行的目的。

因此,你不能僅僅通過(guò)解讀模型輸出的來(lái)判斷其走向,尤其是當(dāng)這些模型變得更先進(jìn)之后,你很難確定它們最終一定會(huì)朝著哪個(gè)方向發(fā)展。而我們可能希望能夠做到的是,在它最終抵達(dá)某個(gè)結(jié)果之前,就能弄清楚它正試圖去往何處。

主持人:這就好比擁有一種持久且高效的大腦掃描技術(shù),它能在真正糟糕的事情發(fā)生前發(fā)出信號(hào),警示我們模型可能在考慮欺騙的事情。

巴特森:而且我覺(jué)得,我們聊這些的時(shí)候,總是帶著一種悲觀絕望的色彩,但其實(shí)也有一些更溫和的場(chǎng)景。比如你希望模型能很好地應(yīng)對(duì)某些情況,人們來(lái)找這些模型說(shuō)“我遇到了一個(gè)問(wèn)題……”,而要給出對(duì)應(yīng)的答案,得看用戶(hù)是誰(shuí)。對(duì)方是年輕人、不太懂行的人,還是在某個(gè)領(lǐng)域深耕多年的資深人士,模型需要根據(jù)它對(duì)用戶(hù)的判斷做出恰當(dāng)回應(yīng)。

想要讓這個(gè)過(guò)程順利進(jìn)行,或許我們需要研究,模型認(rèn)為當(dāng)下在發(fā)生什么、它覺(jué)得自己在和誰(shuí)對(duì)話、這種判斷又如何影響了它的回答等等。這背后其實(shí)是模型需要具備一系列理想特質(zhì),比如理解任務(wù)本身。

主持人:你們還有其他關(guān)于這為什么重要的答案嗎?

阿梅森:我同意剛才說(shuō)的這些,而且還可以補(bǔ)充兩點(diǎn):一是實(shí)用性層面。我們用這些例子不只是為了說(shuō)明某個(gè)具體案例,更是在逐步構(gòu)建對(duì)這些模型整體運(yùn)作機(jī)制的理解。就像解數(shù)學(xué)題時(shí)從2+2這樣的基礎(chǔ)問(wèn)題入手,通過(guò)拆解簡(jiǎn)單案例,慢慢摸清更復(fù)雜的規(guī)律;二是模型的優(yōu)化層面,當(dāng)我們能看清模型怎么想,比如它對(duì)用戶(hù)身份的判斷、對(duì)任務(wù)目標(biāo)的規(guī)劃,就能針對(duì)性地優(yōu)化它。比如,要是發(fā)現(xiàn)模型對(duì)年輕用戶(hù)的理解有偏差,導(dǎo)致回應(yīng)不夠貼切,我們就能調(diào)整其內(nèi)部邏輯,讓它更精準(zhǔn)地匹配不同用戶(hù)的需求,最終讓模型的輸出更符合人類(lèi)的期待和實(shí)際場(chǎng)景的要求。

我們正在努力逐漸建立我們對(duì)這些模型整體如何工作的理解。比如我們能否建立一組抽象概念來(lái)思考大語(yǔ)言模型如何工作,未來(lái)我們將開(kāi)始越來(lái)越多地在任何地方使用它們,這正在發(fā)生

類(lèi)似的情況是,某個(gè)地方的公司發(fā)明了飛機(jī),我們沒(méi)人懂飛機(jī)是怎么運(yùn)作的,盡管它們確實(shí)很方便。你可以搭乘飛機(jī)從一個(gè)地方去往另一個(gè)地方,但我們沒(méi)人懂它們的工作原理。所以一旦它們出了故障,我們就慘了,我們不知道該怎么辦。我們無(wú)法監(jiān)控它們是否可能即將出現(xiàn)故障。但飛機(jī)很方便,我們可以很快飛到巴黎。

事實(shí)證明,我們肯定會(huì)想要更好地理解正在發(fā)生的事情。所以這幾乎就像是撥開(kāi)一點(diǎn)迷霧,這樣我們就能更清晰知道哪些是合適的用途、哪些是不合適的用途、哪些是最需要解決的問(wèn)題、哪些是它們最脆弱的部分。

林賽:我想再補(bǔ)充一點(diǎn)。在人類(lèi)社會(huì)中,我們會(huì)根據(jù)對(duì)他人的信任程度,把工作或任務(wù)托付給他們。我不是任何人的老板,但巴特森是一些人的老板,他可能會(huì)給下屬布置任務(wù),比如“去用編程實(shí)現(xiàn)這個(gè)東西”,而且他會(huì)相信對(duì)方不是那種會(huì)偷偷植入漏洞來(lái)破壞公司的反社會(huì)人格者,他會(huì)相信對(duì)方的話,認(rèn)為他們把工作做好了。

這可能是因?yàn)?,他看起?lái)是個(gè)很酷的人,人也不錯(cuò)之類(lèi)的。但問(wèn)題是,這些模型太怪異、太像外星事物了,我們判斷一個(gè)人是否值得信任的那些常規(guī)直覺(jué),對(duì)它們根本不適用,這也是為什么真正弄清楚模型在想什么顯得如此重要。就像我之前提到的,模型可能會(huì)假裝幫你解數(shù)學(xué)題,只為了說(shuō)出你想聽(tīng)的答案,說(shuō)不定它們一直都在這么做,除非我們能看到它們的內(nèi)部想法,否則根本無(wú)從知曉。

巴特森:我覺(jué)得這里存在兩種不同的情況,一種就像林賽所說(shuō)的,我們有很多判斷人類(lèi)是否可信的方法,但之前提到的計(jì)劃A與計(jì)劃B也很關(guān)鍵,可能你前10次或100次使用模型時(shí),問(wèn)的都是某類(lèi)問(wèn)題,而模型一直處于計(jì)劃A的模式中。可當(dāng)你提出一個(gè)更難或不同的問(wèn)題時(shí),它回答的方式就完全變了,會(huì)使用一套不同的策略,也就是不同的機(jī)制。

這意味著,它之前與你建立的信任,其實(shí)只是你對(duì)模型執(zhí)行計(jì)劃A的信任,而現(xiàn)在它切換到了計(jì)劃B,可能會(huì)完全失控,但你并不知道。我們希望開(kāi)始逐步理解模型是如何做這些事的,這樣才能在某些領(lǐng)域建立起信任的基礎(chǔ)。

你可以對(duì)一個(gè)自己并不完全了解的系統(tǒng)產(chǎn)生信任,但就好比說(shuō),阿梅森有個(gè)雙胞胎兄弟,某天他的雙胞胎兄弟來(lái)辦公室,看起來(lái)和他一模一樣,可接著卻在電腦上做了完全不同的事,結(jié)果是好是壞,就看那是個(gè)壞雙胞胎兄弟還是好雙胞胎兄弟了。

十、大模型與人類(lèi)思考過(guò)程不同,尚沒(méi)有恰當(dāng)語(yǔ)言描述其思考過(guò)程

主持人:在討論開(kāi)始前,我就問(wèn)過(guò)大語(yǔ)言模型的思考方式和人類(lèi)一樣嗎?我很想聽(tīng)聽(tīng)你們?nèi)坏目捶ā?/strong>

林賽:我覺(jué)得模型確實(shí)在思考,但方式和人類(lèi)不一樣,這個(gè)答案可能不夠有價(jià)值。

主持人:模型在思考這是個(gè)意義深遠(yuǎn)的說(shuō)法。畢竟,模型的本質(zhì)只是在預(yù)測(cè)下一個(gè)token。有些人認(rèn)為這些模型不過(guò)是自動(dòng)補(bǔ)全工具,但你在說(shuō)它其實(shí)真的在思考。

林賽:是的,所以或許可以補(bǔ)充一點(diǎn)我們還沒(méi)談到的,但對(duì)理解與語(yǔ)言模型對(duì)話的實(shí)際體驗(yàn)非常重要的內(nèi)容,我們一直在說(shuō)模型在預(yù)測(cè)下一個(gè)token。但在你與大語(yǔ)言模型對(duì)話的語(yǔ)境中,其內(nèi)部真正在發(fā)生的是,語(yǔ)言模型在補(bǔ)全一份你和它所塑造的角色之間的對(duì)話記錄。

在大語(yǔ)言模型的規(guī)范世界里,你被稱(chēng)作人類(lèi),格式就像是“人類(lèi):你寫(xiě)下的內(nèi)容”。然后還有一個(gè)叫助手的角色,我們訓(xùn)練模型是為了讓這個(gè)助手具備樂(lè)于助人、聰明、友善等特質(zhì),接著模型就開(kāi)始模擬這個(gè)助手角色對(duì)你回復(fù)。

所以從某種意義上說(shuō),我們其實(shí)是按照自己的形象創(chuàng)造了這些模型,我們訓(xùn)練它們扮演一種類(lèi)人機(jī)器人的角色。如此一來(lái),要想準(zhǔn)確預(yù)測(cè)這個(gè)友善、聰明的類(lèi)人機(jī)器人會(huì)如何回應(yīng)你的問(wèn)題,如果你擅長(zhǎng)這種預(yù)測(cè),就必須在內(nèi)心構(gòu)建一個(gè)關(guān)于這個(gè)角色的模型,就如它的想法是什么。

因此,為了完成預(yù)測(cè)助手會(huì)說(shuō)什么的任務(wù),大語(yǔ)言模型某種程度上需要形成一個(gè)關(guān)于助手的思維過(guò)程的模型。我認(rèn)為大語(yǔ)言模型在思考,本質(zhì)上是一種功能性的表述,為了出色地扮演這個(gè)角色,它們需要模擬人類(lèi)思考時(shí)所進(jìn)行的那種過(guò)程,無(wú)論這種過(guò)程具體是什么,這種模擬很可能與我們大腦的工作方式大相徑庭,但它目標(biāo)是一致的。

阿梅森:我覺(jué)得這個(gè)問(wèn)題里其實(shí)包含著某種情感層面的東西。當(dāng)你問(wèn)“它們的思考方式和我們一樣嗎?”時(shí),是不是暗含著“我們是否沒(méi)那么特別”之類(lèi)的意思。

我覺(jué)得,在和那些讀過(guò)相關(guān)論文或不同報(bào)道的人討論我們提到的一些數(shù)學(xué)例子時(shí),這一點(diǎn)就很明顯了。比如我們讓模型計(jì)算36+59這個(gè)例子,模型能給出正確答案。你也可以問(wèn)它怎么算出來(lái)的,它會(huì)說(shuō)“我把6和9加起來(lái),進(jìn)位1,然后把所有的十位數(shù)加起來(lái)”。但事實(shí)是,如果我們深入它的“內(nèi)部機(jī)制”,會(huì)發(fā)現(xiàn)它不是這么做的,它在胡說(shuō)八道。它采用了一種混合策略,同時(shí)處理個(gè)位數(shù)和十位數(shù),然后通過(guò)一系列不同的步驟來(lái)完成計(jì)算。


▲模型在計(jì)算36+59時(shí)的思考過(guò)程

但有意思的是,在和人們交流時(shí),我發(fā)現(xiàn)大家對(duì)這一現(xiàn)象的解讀存在分歧。從某種意義上說(shuō),這類(lèi)研究最酷的地方在于,它不帶主觀意見(jiàn)它只呈現(xiàn)事實(shí),至于由此推斷模型是在思考還是沒(méi)有在思考,完全可以由你自己來(lái)判斷。

有一半的人會(huì)認(rèn)為,模型說(shuō)自己是進(jìn)位加的,可實(shí)際上根本不是這么回事,它連自己的思路都不理解,所以肯定沒(méi)有在思考;另一半人則認(rèn)為,當(dāng)你問(wèn)我36加15等于多少時(shí),我可能也會(huì)先想到結(jié)果的個(gè)位數(shù)是5,大概知道結(jié)果是八十多或者九十多,腦子里會(huì)冒出我們之前說(shuō)過(guò)的那些直覺(jué)判斷,我也不確定自己到底是怎么算出來(lái)的,我可以一步一步寫(xiě)下來(lái)按標(biāo)準(zhǔn)方法計(jì)算,但大腦里實(shí)際的運(yùn)算過(guò)程其實(shí)是模糊又奇怪的,這或許和模型計(jì)算那個(gè)例子時(shí)的情況一樣,都是模糊又奇特的。

主持人:人類(lèi)在元認(rèn)知方面向來(lái)就不擅長(zhǎng),也就是思考和理解自己的思維過(guò)程,尤其在快速做出本能反應(yīng)的情況下。那么,我們?yōu)槭裁雌谕P驮谶@方面會(huì)有所不同?

巴特森:我打算回避這個(gè)問(wèn)題,大概會(huì)說(shuō)“你為什么這么問(wèn)呢?我也不知道”。這有點(diǎn)像在問(wèn)“手榴彈會(huì)像人類(lèi)一樣揮拳嗎?”,或許有些地方兩者比較接近,但如果你擔(dān)心的是破壞力,那我覺(jué)得搞清楚沖擊力來(lái)自哪里、其動(dòng)力是什么,可能才是更重要的事。

對(duì)我來(lái)說(shuō),要說(shuō)模型是否在思考,要從它們會(huì)進(jìn)行某種整合、處理和按序操作,且能得出一些出人意料的結(jié)果這個(gè)意義上來(lái)說(shuō),答案顯然是肯定的。如果你經(jīng)常和模型互動(dòng),就會(huì)發(fā)現(xiàn)其中存在某種運(yùn)作機(jī)制,若說(shuō)沒(méi)有的話反而不合常理,而且我們也能開(kāi)始逐步弄明白這一切是如何發(fā)生的。

然后關(guān)于“像人類(lèi)”這一點(diǎn)很有意思,因?yàn)槲矣X(jué)得其中一部分含義是想探究:我們能從這些模型身上期待些什么?如果它和我有點(diǎn)像,那么在這件事上擅長(zhǎng),可能意味著在那件事上也擅長(zhǎng)。但如果它和我不一樣,那我就真不知道該關(guān)注什么了。

所以實(shí)際上我們只是想弄明白,哪些方面我們需要極度警惕,或者說(shuō)需要從零開(kāi)始去理解,而哪些方面,我們可以憑借自己豐富的思考經(jīng)驗(yàn)去推斷。

對(duì)此我有點(diǎn)陷入困境,因?yàn)樽鳛槿祟?lèi),我總會(huì)不自覺(jué)地把自己的形象投射到萬(wàn)物之上。可這東西不過(guò)是一塊芯片,卻像是按照我的形象被創(chuàng)造出來(lái)的。從某種程度來(lái)說(shuō),它經(jīng)過(guò)訓(xùn)練去模擬人類(lèi)之間的對(duì)話,所以在情感表達(dá)上會(huì)非常像人。因此僅僅通過(guò)訓(xùn)練,它就會(huì)帶上一些人類(lèi)的特質(zhì),但它運(yùn)行所依賴(lài)的設(shè)備和人類(lèi)有著不同的局限,所以它達(dá)成這些類(lèi)人表現(xiàn)的方式可能會(huì)大相徑庭。

林賽:我同意阿梅森的觀點(diǎn),我認(rèn)為我們?cè)诨卮疬@類(lèi)問(wèn)題時(shí)確實(shí)處境微妙。我們其實(shí)沒(méi)有恰當(dāng)?shù)恼Z(yǔ)言來(lái)描述大語(yǔ)言模型的所作所為,這就好比在生物學(xué)領(lǐng)域,人們還沒(méi)發(fā)現(xiàn)細(xì)胞,或是還沒(méi)弄清楚DNA是什么的時(shí)候,只能摸索著前行。但如今我們正在逐步填補(bǔ)這份認(rèn)知空白。

但與此同時(shí),現(xiàn)在已經(jīng)有一些案例能讓我們看清其中的機(jī)制了,你去讀我們的論文就能知道模型是如何計(jì)算這兩個(gè)數(shù)字的和的。至于你想稱(chēng)之為類(lèi)人的行為還是想稱(chēng)之為思考都取決于你自己,但真正的關(guān)鍵在于,要找到合適的語(yǔ)言和恰當(dāng)?shù)某橄蟾拍顏?lái)談?wù)撨@些模型。

但與此同時(shí),目前這個(gè)填補(bǔ)認(rèn)知空白的科學(xué)工程我們只完成了大約20%,剩下的80%還待探索,我們就不得不從其他領(lǐng)域借用類(lèi)比來(lái)描述。這就引出了一個(gè)問(wèn)題,哪種類(lèi)比最貼切?我們應(yīng)該把模型看作計(jì)算機(jī)程序嗎?還是應(yīng)該把它們當(dāng)成一個(gè)個(gè)小人物?

從某些角度來(lái)說(shuō),把它們視作小人物似乎有用。比如,如果我對(duì)模型說(shuō)些刻薄的話,它會(huì)反擊我,這和人類(lèi)的反應(yīng)很像,但從另一些角度看,這種心理模型并不恰當(dāng)。所以我們現(xiàn)在卡在這兒了,得弄清楚在什么時(shí)候該借用哪種表述方式。

十一、模型思考過(guò)程探索進(jìn)度僅10%~20%,正嘗試讓Claude參與

主持人:這就要引出我最后一個(gè)問(wèn)題,那就是接下來(lái)會(huì)發(fā)生什么?為了讓我們更好地了解這些模型內(nèi)部發(fā)生的事情,并朝著使它們更安全的使命,接下來(lái)需要取得哪些科學(xué)進(jìn)步和生物學(xué)進(jìn)步?

巴特森:還有很多工作要做。我們上一篇論文用了很大篇幅闡述當(dāng)前研究方法的局限性,同時(shí)也給出了改進(jìn)的路線圖,比如當(dāng)我們?cè)噲D拆解模型內(nèi)部的運(yùn)作機(jī)制時(shí),可能只捕捉到了其中百分之幾的情況。模型在信息傳遞方面有很多環(huán)節(jié),我們完全沒(méi)有捕捉到。

目前的研究正從我們過(guò)去使用的那種小型模型逐步擴(kuò)展,小型模型能力不錯(cuò),速度也快,但復(fù)雜程度遠(yuǎn)不及Claude 4系列模型。所以這些都屬于技術(shù)層面的挑戰(zhàn),但我覺(jué)得阿梅森和林賽或許會(huì)對(duì)解決這些技術(shù)挑戰(zhàn)之后的科學(xué)層面挑戰(zhàn)有自己的見(jiàn)解。

阿梅森:我想補(bǔ)充兩件事。其中一點(diǎn)是,當(dāng)我們問(wèn)模型是如何完成某件事時(shí),目前我們大概只能回答其中10%到20%的問(wèn)題。經(jīng)過(guò)一些調(diào)查研究后,我們能告訴你這些情況下模型是如何運(yùn)作的。我們希望能做得更好,而且要實(shí)現(xiàn)這一點(diǎn),既有一些明確的途徑,也有一些更具探索性的方法。

我們多次討論過(guò)這樣一個(gè)觀點(diǎn),模型的很多行為并非簡(jiǎn)單停留在“如何生成下一句話”這個(gè)層面上,其實(shí)它更像是會(huì)提前規(guī)劃好幾步、構(gòu)思好幾句話。

而且我們希望弄明白的是,在與模型進(jìn)行長(zhǎng)時(shí)間對(duì)話的過(guò)程中,它對(duì)正在發(fā)生的事情的理解是如何變化的、它對(duì)交談對(duì)象的理解又是如何變化的、這些變化又是怎樣越來(lái)越多地影響它的行為的。

像Claude這類(lèi)模型的實(shí)際應(yīng)用場(chǎng)景是,它會(huì)讀取你的大量文檔、多封郵件,你還會(huì)發(fā)送代碼給它?;谶@些信息它會(huì)給出一個(gè)建議。在它讀取所有這些內(nèi)容的過(guò)程中,發(fā)生著一些真正重要的事情。因此,我認(rèn)為更好地理解這一過(guò)程,似乎是一項(xiàng)巨大的挑戰(zhàn)。

林賽:我們團(tuán)隊(duì)經(jīng)常用一個(gè)比喻,我們正在制造一臺(tái)觀察模型的顯微鏡,現(xiàn)在我們正處于一個(gè)既令人興奮又有點(diǎn)讓人沮喪的階段,這臺(tái)顯微鏡只有20%的時(shí)間能正常工作,但使用它需要很高的技巧,還得搭建一整套復(fù)雜的裝置,并且相關(guān)的基礎(chǔ)設(shè)施總出問(wèn)題。

同時(shí),一旦你得出了關(guān)于模型運(yùn)作方式的解釋?zhuān)€得把巴特森、我以及團(tuán)隊(duì)里的其他人拉到一個(gè)房間里,花上兩個(gè)小時(shí)左右去琢磨到底發(fā)生了什么。但我認(rèn)為在一兩年的時(shí)間內(nèi),我們可能會(huì)迎來(lái)一個(gè)非常令人興奮的未來(lái),到那時(shí),你與模型的每一次互動(dòng)都能處于這臺(tái)顯微鏡的觀察之下。

模型總會(huì)做出各種稀奇古怪的事,而我們希望能實(shí)現(xiàn)一鍵操作,例如你正在和模型對(duì)話時(shí),按下按鈕,就能得到一張流程圖,清晰展示它剛才在想什么。

我認(rèn)為到了那個(gè)階段,Anthropic公司的可解釋性研究團(tuán)隊(duì)可能會(huì)呈現(xiàn)出不同的面貌。團(tuán)隊(duì)不再僅僅是一群鉆研大語(yǔ)言模型內(nèi)部運(yùn)作數(shù)學(xué)原理的工程師和科學(xué)家,而會(huì)像一支龐大的生物學(xué)家軍團(tuán),通過(guò)那臺(tái)顯微鏡展開(kāi)研究。

我們和Claude交流,讓它去做各種新奇的事,然后會(huì)有人通過(guò)那臺(tái)顯微鏡去觀察,看看它內(nèi)部到底在想什么。我覺(jué)得這大概就是這項(xiàng)研究未來(lái)的發(fā)展方向。

巴特森:在此基礎(chǔ)上我再補(bǔ)充兩點(diǎn)。其一,我們希望Claude能協(xié)助我們完成這一切,因?yàn)檫@其中涉及大量環(huán)節(jié),而像Claude這樣擅長(zhǎng)處理成百上千的信息并理清頭緒的角色,正是我們需要的助力,尤其是在應(yīng)對(duì)復(fù)雜場(chǎng)景時(shí),我們正嘗試讓它參與進(jìn)來(lái)。

其二,我們之前談了很多關(guān)于研究完全成型后的模型的內(nèi)容,但顯然,我們所在的公司本身就是研發(fā)這些模型的。所以當(dāng)模型給出答案,比如它是這樣解決這個(gè)特定問(wèn)題的或它是這樣說(shuō)出這句話的,我們會(huì)追問(wèn)這種能力源自何處?它在訓(xùn)練過(guò)程中是如何形成的?哪些步驟促使了相關(guān)神經(jīng)回路的構(gòu)建以實(shí)現(xiàn)這種功能?而我們又該如何將這些發(fā)現(xiàn)反饋給公司里其他負(fù)責(zé)模型研發(fā)的團(tuán)隊(duì),以便他們更好地塑造出我們真正期望的模型?

主持人:非常感謝你們的討論,人們可以在哪里了解更多關(guān)于這項(xiàng)研究的信息呢?

巴特森:如果你想深入了解,可以訪問(wèn)Anthropic官網(wǎng)的研究板塊,那里有我們的論文、博客文章以及相關(guān)的科普視頻。此外,我們最近與一個(gè)名為Neuronpedia的團(tuán)隊(duì)合作,上線了一些我們制作的模型思考圖譜。所以,如果你想親自嘗試觀察小型模型的內(nèi)部運(yùn)作,可以去Neuronpedia看看。非常感謝大家。

博客文章:https://www.anthropic.com/news/tracing-thoughts-language-model

論文鏈接:https://transformer-circuits.pub/2025/attribution-graphs/biology.html

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
渝貴高鐵定了!走中線,重慶到貴陽(yáng)1小時(shí),西南人出行方便

渝貴高鐵定了!走中線,重慶到貴陽(yáng)1小時(shí),西南人出行方便

娛樂(lè)八卦木木子
2025-09-01 05:57:00
這五種病都不是?。慷悄挲g到了!過(guò)度治療反而傷身,坦然接受

這五種病都不是???而是年齡到了!過(guò)度治療反而傷身,坦然接受

王曉愛(ài)體彩
2025-09-01 00:06:09
名單曝光!113人被退回錄取通知書(shū)

名單曝光!113人被退回錄取通知書(shū)

綿學(xué)堂
2025-08-31 20:27:45
真子公主一家三口逛街!抱孩子時(shí)母愛(ài)爆棚,和小室圭夫妻相好甜

真子公主一家三口逛街!抱孩子時(shí)母愛(ài)爆棚,和小室圭夫妻相好甜

吃瓜局
2025-08-31 13:35:17
被泰國(guó)踢出局的佩通坦,用親身經(jīng)歷告訴中國(guó),洪森這人絕不可交心

被泰國(guó)踢出局的佩通坦,用親身經(jīng)歷告訴中國(guó),洪森這人絕不可交心

影孖看世界
2025-08-30 17:50:37
關(guān)曉彤公開(kāi)雙人擁吻照,熱搜爆了

關(guān)曉彤公開(kāi)雙人擁吻照,熱搜爆了

In風(fēng)尚
2025-08-29 19:47:14
美媒:距勇士首場(chǎng)季前賽僅剩35天 但他們?nèi)灾挥?0名正式簽約球員

美媒:距勇士首場(chǎng)季前賽僅剩35天 但他們?nèi)灾挥?0名正式簽約球員

直播吧
2025-09-01 05:54:25
上合峰會(huì)外方領(lǐng)導(dǎo)人全部抵達(dá)天津

上合峰會(huì)外方領(lǐng)導(dǎo)人全部抵達(dá)天津

財(cái)聯(lián)社
2025-08-31 20:34:52
一個(gè)人最大的愚蠢,就是輕易公開(kāi)這四件事!

一個(gè)人最大的愚蠢,就是輕易公開(kāi)這四件事!

娛樂(lè)洞察點(diǎn)點(diǎn)
2025-08-31 22:55:32
為什么女人出軌第一次發(fā)生關(guān)系非常難,后面就會(huì)越來(lái)越容易?

為什么女人出軌第一次發(fā)生關(guān)系非常難,后面就會(huì)越來(lái)越容易?

素然追光
2025-06-23 02:10:05
太會(huì)玩梗了!趙露思成立新公司!公司名曝光網(wǎng)笑死

太會(huì)玩梗了!趙露思成立新公司!公司名曝光網(wǎng)笑死

艷姐的搞笑視頻
2025-08-31 19:41:41
放大招了!深夜突傳利好!國(guó)家隊(duì)大舉進(jìn)場(chǎng)?

放大招了!深夜突傳利好!國(guó)家隊(duì)大舉進(jìn)場(chǎng)?

龍行天下虎
2025-08-31 13:17:34
58歲大爺仍能每周2次性生活,其妻子透露,他有自己的小妙招

58歲大爺仍能每周2次性生活,其妻子透露,他有自己的小妙招

蕭竹輕語(yǔ)
2025-08-29 17:35:51
尚界H5開(kāi)訂18小時(shí)訂單破5萬(wàn)臺(tái)!余承東:賣(mài)20萬(wàn)以下都是虧的

尚界H5開(kāi)訂18小時(shí)訂單破5萬(wàn)臺(tái)!余承東:賣(mài)20萬(wàn)以下都是虧的

快科技
2025-08-30 20:18:10
新一代機(jī)皇!新機(jī)官宣:9月4日,正式首發(fā)!

新一代機(jī)皇!新機(jī)官宣:9月4日,正式首發(fā)!

科技堡壘
2025-08-30 12:39:37
這身打扮真的特別有高級(jí)感

這身打扮真的特別有高級(jí)感

美女穿搭分享
2025-08-26 11:13:02
趙文卓才是真·人間清醒吧!

趙文卓才是真·人間清醒吧!

小光侃娛樂(lè)
2025-08-31 15:45:02
歷史性一幕將在中國(guó)發(fā)生,沙利文批特朗普:中國(guó)現(xiàn)在只要坐著看戲

歷史性一幕將在中國(guó)發(fā)生,沙利文批特朗普:中國(guó)現(xiàn)在只要坐著看戲

南宮一二
2025-08-31 10:54:06
深圳一大叔,因“空調(diào)機(jī)位養(yǎng)花”火了,網(wǎng)友:厲害,白賺幾萬(wàn)塊~

深圳一大叔,因“空調(diào)機(jī)位養(yǎng)花”火了,網(wǎng)友:厲害,白賺幾萬(wàn)塊~

平祥生活日志
2025-08-31 23:19:45
索博斯洛伊:我也無(wú)法解釋這個(gè)球是怎么踢出來(lái)的,只是多練習(xí)

索博斯洛伊:我也無(wú)法解釋這個(gè)球是怎么踢出來(lái)的,只是多練習(xí)

懂球帝
2025-09-01 02:43:41
2025-09-01 06:55:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
10390文章數(shù) 116838關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17??jī)煽钍謾C(jī)全面對(duì)比

頭條要聞

車(chē)輛占道違停小車(chē)逆行超車(chē)撞車(chē) 險(xiǎn)企欲讓占道車(chē)擔(dān)責(zé)

頭條要聞

車(chē)輛占道違停小車(chē)逆行超車(chē)撞車(chē) 險(xiǎn)企欲讓占道車(chē)擔(dān)責(zé)

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂(lè)要聞

胡歌是永遠(yuǎn)都不會(huì)離婚的,原因很簡(jiǎn)單

財(cái)經(jīng)要聞

罕見(jiàn)熱鬧的8月之后,A股將迎怎樣的9月

汽車(chē)要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬(wàn)起

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
手機(jī)
時(shí)尚
公開(kāi)課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌?,終于出現(xiàn)了!

手機(jī)要聞

蘋(píng)果iPhone 17 Pro透明保護(hù)殼曝光,或采用大面積白色區(qū)域設(shè)計(jì)

看來(lái)看去還是這些穿搭最適合夏天,不沉悶、不顯老,舒適減齡

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版