編譯 | Tina
你能想象如今去找工作,人家已經(jīng)不滿足于考你一道算法題了,而是要你在面試現(xiàn)場,8 小時從零肝出他們自家的產(chǎn)品——類似 Devin、Windsurf、Cursor 這樣的 AI 工具。還得順手把數(shù)據(jù)庫接上、依賴修完、測試跑通。
更夸張的是,這樣的公司真的存在——正是那個號稱要重塑軟件工程未來的 Cognition。它的 CEO Scott Wu 在播客里親口說,這就是 Cognition 的面試流程:給你 6 到 8 個小時,看你能不能做出一個端到端的代理,一個屬于你自己的“Devin”。
此前,Scott Wu 在收購 Windsurf 時曾直言:Cognition 的文化就是高強度、超長工時、毫不掩飾的 996?!拔覀儾恍攀裁垂ぷ魃钇胶狻蛟燔浖こ痰奈磥硎俏覀兯腥硕忌钌钤谝獾氖姑?。在這里我們每周要在辦公室干 6 天,工時超過 80 小時?!?/p>
相比之下,真正的地獄也許不是入職后的 996,而是還沒進門就要先完成“8 小時寫一個 Devin”的創(chuàng)業(yè)模擬。996 是長期透支,而這個面試更像是瞬間壓榨,把“造一家公司”硬生生當成了入職考題。
更諷刺的是,Cognition 的團隊本身也不是普通打工人。在最初的 35 名成員里,有 21 位曾經(jīng)是創(chuàng)業(yè)者。Scott Wu 認為,死記硬背知識點、熟悉語法細節(jié)這些都不再重要,真正重要的能力是高層次決策、對技術的深入理解、對產(chǎn)品的直覺判斷,以及極強的自我驅(qū)動和責任心。換句話說,他們干脆把“創(chuàng)業(yè)者標準”寫進了招聘流程。
我們翻譯了這期播客的完整內(nèi)容,帶你看看這家 AI 企業(yè)的瘋狂邏輯。
一些亮點如下:
我最高的學歷嚴格來說是初中畢業(yè)證,沒有真正完成高中,也沒有讀完大學。
在早期,直覺敏銳、敢于自我推理就非常有優(yōu)勢。但一旦領域成熟,最后的答案往往就是數(shù)學。
我們之所以要設立各種流程,本來就是因為人類也會犯錯。這就是為什么我們 CI 流程和各種檢查。
即使把今天的模型能力完全凍結,不再有新的模型或研究突破,產(chǎn)品層面依然有十年的進步空間。
我們的原則是:必須讓大家“自愿選擇”加入這種(加班)文化。
1 硅谷“數(shù)學幫”中的初中文憑 AI 創(chuàng)業(yè)者
John Collison:能講講你的成長經(jīng)歷,以及你在數(shù)學上的故事嗎?我覺得大家現(xiàn)在都知道你是“數(shù)學競賽大神”。
Scott Wu:是的,我在巴吞魯日長大。我父母都是化工工程師,他們?yōu)榱俗x研究生從中國移民過來。后來他們找工作時,就做空氣排放許可相關的工作。路易斯安那州有很多石油和天然氣產(chǎn)業(yè),所以他們最后留在那里。
我從小就喜歡數(shù)學。我有一個哥哥 Neal,我們一直非常親近,他比我大五歲。Neal 在中學時就開始參加數(shù)學競賽,大概是六年級的時候,而我那時才上一年級。作為弟弟,我就會去看他在做什么,試著學一些同樣的數(shù)學。這就是我最初接觸數(shù)學的方式。
后來我發(fā)現(xiàn)自己真的很喜歡數(shù)學競賽。我二年級時就開始參加了。我記得有一次在當?shù)氐拇髮W參加比賽,那個比賽是為中學生和高中生開的。我作為二年級小學生參加了七年級組別的競賽,這是針對初中生和高中生的競賽,也是我第一次參賽。當時只是單純喜歡數(shù)學,結果頒獎時,三等獎、二等獎、一等獎都沒叫到我。我記得自己非常難過。
John Collison:這就是你的“超級反派起源故事”啊。
Scott Wu:沒錯,基本就是這樣開始的。后來我很努力訓練,到了三年級時參加代數(shù)一的組別,結果那一年得了冠軍。之后我就一直參加各種數(shù)學競賽。到了高中最后一年,我參加了 IOI 國際信息學奧林匹克競賽。我參加了三次 IOI,并且都拿了金牌。
John Collison:那你后來上了哪所學校?
Scott Wu:其實我中間休學了一年。我提前一年就離開了高中。我學習不太好。
John Collison:這聽起來很驚訝,你不是很擅長上學?
Scott Wu:嗯,我并不是不擅長學習,而是“不擅長把學業(yè)完成”。我最高的學歷嚴格來說是初中畢業(yè)證,沒有真正完成高中,也沒有讀完大學。
所以我提前一年離開高中,去灣區(qū)待了一年,在一家叫 Addepar 的公司做軟件工程師。那是 2014 年,已經(jīng)很久以前了。當時的經(jīng)歷對我來說很特別。
之后我決定還是去試試大學,于是去了哈佛,讀了兩年后就退學了。
John Collison:你是怎么加入 Addepar 的?他們招收一個高中輟學生,顯然很有遠見。
Scott Wu:當時其實挺有意思的,我們有四個高中生同一天入職。我、Alexandr Wang(Scale 的創(chuàng)始人,現(xiàn)在 Meta),我們是同一天開始的。還有 Eugene Chen(現(xiàn)在在做 Phoenix DEX),以及 Sreenath Are(最近是 Sandbar 的 CEO)。
John Collison:這也太“團體小圈子”了吧,你和 Alex 同時在那里?
Scott Wu:對啊。我和 Alex 早就認識了,最早在中學時認識的。他來自新墨西哥,我來自路易斯安那,我們在一次叫 MATHCOUNTS 的全國數(shù)學競賽上遇見的。后來我們一直保持聯(lián)系,那時還是用 Google Hangouts 聊天。
事實證明,我們這一代很多人最后都走上了相似的道路。我覺得有一種創(chuàng)業(yè)傳染效應。Alex 應該算是我們這群人里最早一個,他讓我第一次認真考慮創(chuàng)業(yè)。但也不僅僅是他。像 Johnny Ho(Perplexity 聯(lián)合創(chuàng)始人)、Demi Guo(創(chuàng)辦了 Pika)、Jesse Zhang(創(chuàng)辦了 Decagon),我們這一群人很多都是在同一年參加這些數(shù)學和編程競賽的,大家彼此都認識。
John Collison:之前有人討論過一個問題:年輕創(chuàng)業(yè)者都去哪兒了?過去總有人二十出頭就做出突破性公司。比如 Michael Dell 19 歲創(chuàng)辦戴爾,23 歲上市;Mark Zuckerberg 在 Facebook 崛起時也還很年輕。后來似乎有一段時間沒有那么多年輕創(chuàng)始人。但現(xiàn)在又涌現(xiàn)出很多,你才 28 歲就做 Cognition。那么,年輕人擔任行業(yè)領先公司的創(chuàng)始人,本身是否就是產(chǎn)業(yè)活力的一個指標? 就像 PC 時代的起飛對應著年輕的 Michael Dell,社交網(wǎng)絡起飛對應著年輕的 Mark Zuckerberg,如今 AI 編碼工具的爆發(fā),也伴隨著一批年輕創(chuàng)始人。
Scott Wu:首先謝謝你還把我算“年輕”。但我覺得相比 18、19 歲已經(jīng)算晚了。
我對這個問題也有一些想法。我的看法是:如今做創(chuàng)始人總體上變得更難了。這大概是最核心的原因。過去那些年輕創(chuàng)始人之所以能做得很好,是因為歸根到底,“第一性原理思考”往往比經(jīng)驗更有優(yōu)勢。很多創(chuàng)業(yè)本質(zhì)上就是去做一些前所未有的事,然后自己得出結論。
但現(xiàn)在不一樣了。現(xiàn)在有很多人,既具備第一性原理思考的能力,又有豐富的經(jīng)驗。整個創(chuàng)業(yè)空間變得更加“成熟”。所以做創(chuàng)始人確實更難了,能真正從大學一畢業(yè)就直接成功創(chuàng)業(yè)的人更少了。
John Collison:當然,說“以前創(chuàng)業(yè)容易”也不準確。Facebook 當時面臨大量競爭,戴爾也不是唯一的 PC 廠商,他們都絕對談不上輕松。不過你說得沒錯,現(xiàn)在的大公司對生態(tài)的感知和連接都很敏銳。比如 Satya(納德拉)或 Mark Zuckerberg,他們對 AI 的一切發(fā)展都非常關注,不斷投入精力。因此,可能不會再有那種“巨大的機會就靜靜躺在地上、等著被人撿走”的情況。
Scott Wu:所以,更準確的說法也許是:不是更難,而是整個行業(yè)更加成熟,積累了更多經(jīng)驗和“玩法手冊”。比如“股權該怎么設計”“融資該怎么談”“初始團隊怎么招”——這些問題,現(xiàn)在很多經(jīng)驗都能借鑒。
而在過去,這些幾乎沒有現(xiàn)成答案,全靠創(chuàng)始人自己敏銳和果敢的判斷。如今則可以從前人經(jīng)驗里汲取更多。所以,這或許是為什么年輕創(chuàng)始人相對減少的原因之一。
我還有一個理論,可以叫做“Moneyball 化”。我平時有個愛好是打撲克。很多人以為撲克只是運氣和直覺,但實際上比人們想象的更數(shù)學化。
你能從頂尖玩家的演變中看到這一點。八九十年代的職業(yè)高手,并不是競爭較小,而是他們成功的關鍵技能是極強的直覺。他們當然理解一些數(shù)學概念,但更多是在“系統(tǒng)一”(直覺思維)的層面快速感知,并且對游戲有很好的感覺,知道該如何調(diào)整自己的打法。
而現(xiàn)在,全是數(shù)學怪才。當一個領域逐漸成熟時,就會發(fā)生這種轉(zhuǎn)變。
在早期、不成熟的階段,人們甚至不知道該問哪些問題,也不知道該用什么參照系思考。在這種情況下,直覺敏銳、敢于自我推理就非常有優(yōu)勢。但一旦領域成熟,最后的答案往往就是數(shù)學。
就像國際象棋一樣。19 世紀的時候還有所謂“浪漫派”風格,憑直覺下棋。但今天棋力引擎已經(jīng)能算出“41 步必勝”。棋局也就演化成“找到最優(yōu)解,并看你離它多近”。
另一個例子是任天堂的《任天堂明星大亂斗:近戰(zhàn)》,我以前也打過比賽。最初 6-8 年,選手都是靈活、有創(chuàng)造力的玩家。后來全變成了數(shù)學化的打法,靠精確計算而不是靈感。即時戰(zhàn)略(RTS)游戲也有類似趨勢。
這種轉(zhuǎn)變當然也有美感,只是說隨著領域成熟,最終都會走向數(shù)學化。而創(chuàng)業(yè)可能也在經(jīng)歷這樣的過程。
2 Cognition 的 AI 軟件工程師 Devin
John Collison:什么是 Cognition?它做什么?
Scott Wu:我們正在構建 AI 軟件工程師。過去一年半我們一直在開發(fā) Devin,最近還收購了 Windsurf。Devin 是 Windsurf 中的智能代理,也是 IDE 中的一部分。但從更高層面來說,我們的目標是構建軟件工程的未來。
John Collison:會不會讓人困惑?公司叫 Cognition,產(chǎn)品叫 Devin,又有點擬人化,現(xiàn)在還加上 Windsurf,好像有第三個名字。
Scott Wu:我們也在討論這個問題??赡茏鲆恍┱蠒谩?/p>
John Collison:好的。很多人對 GitHub Copilot 或 IDE 輔助編程的范式很熟悉,比如在 IDE 里寫代碼時,它幫你自動補全,或者你輸入一些指令,它幫你寫。這和 Cognition-Devin 的范式不同。
Scott Wu:沒錯。用 Devin,你是在 Slack 頻道里和它對話,比如“幫我做個 X 或 Y”,就像和同事說話一樣。
John Collison:所以你既可以從 Slack、Linear、Jira 調(diào)用它,也可以從 IDE 里用它,但并不一定要在 IDE 里。
Scott Wu:對,完全正確。之前的范式,比如 GitHub Copilot,算是 IDE 模式里最早、最知名的代表。我會把它描述為:當你在鍵盤前寫代碼時,它讓你寫得更快,提供一些工具和快捷方式。
而 Devin 完全是另一種范式,我稱之為異步體驗:你把任務交給一個智能代理,它去執(zhí)行。所以 Devin 更像是在任務單或項目層面工作。你在 GitHub 里有個 issue,然后你 @Devin,它就開始干活。
John Collison:Devin 目前在哪些任務上表現(xiàn)最好?
Scott Wu:我們喜歡稱 Devin 現(xiàn)在是一名“初級工程師”。它在某些方面比所有人都強,比如百科知識、查找事實。但它在某些事情上也會做出很糟糕的決定??傮w平均來看,用“初級工程師”來形容是比較準確的。
我們看到大家最常用 Devin 的場景是:
修 bug;
做一些簡單的功能請求和小修小補;
或者執(zhí)行團隊里大家已經(jīng)決定要做的某個任務,你只需要“@Devin,幫我搞定這個”。
另外一類很常見的,是那些重復且枯燥的任務,比如遷移、現(xiàn)代化改造、重構、版本升級。全球軟件工程師花在這些事情上的時間,往往比真正“創(chuàng)造性構建”要多得多。比如修復 Kubernetes 部署、做依賴管理、寫測試和文檔等等。
John Collison:你能分享一些業(yè)務指標嗎?
Scott Wu:Devin 已經(jīng)部署在全球成千上萬家公司里,從高盛、花旗這樣的大銀行,到兩三個人的小型創(chuàng)業(yè)公司。
我們衡量的主要指標是合并的 pull request 占比。在成功的團隊里,Devin 通常會完成 30% 到 40% 的合并請求。
John Collison:不過現(xiàn)在 IDE 工具(比如 GitHub Copilot、Cursor、Claude Code)也不是完全同步,你輸入提示后,它們也會去執(zhí)行。你說的同步與異步的區(qū)分,是暫時的嗎?未來會融合嗎?
Scott Wu:我認為這兩種體驗在接下來一段時間會共存。真正有意思的是如何找到它們之間的共享體驗。我們最近收購 Windsurf 也是在考慮這點,很快會發(fā)布一些相關的新功能。
John Collison:你知道“本質(zhì)復雜性(essential complexity)”和“偶然復雜性(accidental complexity)”的概念嗎?
Scott Wu:是的。作為軟件工程師的本質(zhì),其實就是在代碼的語境下解決問題。工程師要告訴計算機該做什么,同時不斷做各種決策:大到整體架構的選擇; 小到某個余額小于零時,是報錯還是請求補充。 這些邏輯性的決策就是所謂的“本質(zhì)復雜性”。
而“偶然復雜性”是所有其他事情:規(guī)?;瘯r的支撐性工作,或者每個類都必須有的一些標準化特性。這些東西大家都知道必須有,但不涉及真正的決策。
在 AI 編碼出現(xiàn)之前,軟件工程的主要部分就是做決策,但人們 80%-90% 的時間卻花在了重復實現(xiàn)、例行工作上。未來的混合體驗是:需要人類決策的部分保持同步; 純粹執(zhí)行的部分交給 AI 異步完成。
一個項目通常會在同步和異步之間交替。同步體驗更像 IDE,直接看代碼、逐行修改;異步體驗更像智能代理,接收任務后獨立完成。關鍵是讓工程師在高影響力的決策點上互動,而不是被繁瑣的執(zhí)行細節(jié)拖住。
John Collison:那在企業(yè)里呢?比如數(shù)據(jù)庫遷移,最后一步刪除舊表是很嚇人的,大家擔心 AI 幻覺。怎么讓企業(yè)放心地給 Devin 足夠的權限?
Scott Wu:我們非常明確地建議用戶,不要給 Devin 開放過于寬泛的數(shù)據(jù)庫訪問權限。這就是一種做法。到目前為止,我沒聽說過出現(xiàn)過嚴重問題,但顯然,最好還是不要冒這個風險。
坦白說,我的看法是:我們之所以要設立各種流程,本來就是因為人類也會犯錯。這就是為什么我們有 pull request、代碼審查,有 CI 流程和各種檢查。Devin 其實能很自然地融入這些流程。
通常大家和 Devin 的工作方式是:比如做大規(guī)模代碼遷移,會把任務拆分開。可能有 5 萬個文件要從某個 Angular 版本升級到另一個版本。Devin 就會逐個去改,并且為每個改動提交 PR。接著你只需要去審查代碼,確認修改正確。
這樣做背后還是有人類把關。這就呼應了你之前說的“偶然復雜度”問題:遷移真正耗時的并不是那一步“刪除舊表”,而是所有周邊瑣碎的環(huán)節(jié)。
在實踐中,我們發(fā)現(xiàn),尤其是在企業(yè)級的遷移場景里,當用戶內(nèi)部去測量時,通常能看到8 到 15 倍的效率提升。因為正如你說的,工程師只需要審查代碼,而不是親自寫下每一行,或逐個檢查每個引用。
John Collison:很多組織都想知道 AI 編碼工具的生產(chǎn)力影響。現(xiàn)在工程師都想用,但從 PR 數(shù)量這些指標看,不是很明顯。你可能會說,如果代碼質(zhì)量下降了,那后續(xù)維護成本會增加;或者別的什么情況。所以現(xiàn)在幾乎所有人都在尋找一種“鐵證般的生產(chǎn)力數(shù)據(jù)”,能一錘定音地說明 AI 的影響力。估計很多 CTO 也在找這種數(shù)據(jù),好向 CFO 證明開銷是合理的。那你怎么看?AI 工具的生產(chǎn)力提升究竟大嗎?能真正量化嗎?
Scott Wu:當然能。我認為,隨著行業(yè)逐步從 IDE 輔助過渡到智能代理,這個問題的答案會越來越清晰。
老實說,我覺得IDE 帶來的生產(chǎn)力提升其實常常被低估。原因就在于,它很難被準確量化。比如我們看自己團隊的數(shù)據(jù),平均下來,每個工程師在一周里會使用 Tab 自動補全238 次。直覺上,這肯定是有價值的,也確實會讓人更快。但要說它到底讓你快了多少,就很難精確衡量。
相比之下,智能代理(Agent)要清晰得多。因為代理是直接幫你把整個任務完成。比如一個 Jira 任務,或者一次大規(guī)模遷移。通常情況下,你對這些任務需要多少工程師工時是有數(shù)的。而當代理能端到端完成這些事情時,提升是顯而易見的:比如過去需要人力做的遷移,現(xiàn)在只需要你花五分鐘審查 PR,一切就完成了。
所以,隨著時間推移,這種生產(chǎn)力的提升會變得越來越明顯。
John Collison:有人認為,編碼工具只是一個過渡階段,很快就會被 GPT-6 或 GPT-7 這樣的更強模型取代。你顯然不是這么認為的吧?怎么避免被大模型實驗室“碾壓”?
Scott Wu:當然。我覺得那些實驗室本身就是非常了不起的企業(yè)。但在我理解里,這種觀點其實是一種“虛無主義的計算機使用論”。意思是:我們在現(xiàn)實世界里從事的各種知識工作,本質(zhì)上都要借助計算機。AI 會越來越擅長使用計算機,直到某一天,什么都不剩下,只剩下 AI 自己操作你的電腦,把你的工作全都做掉。這,大概就是這種論調(diào)的核心。
我能理解其中的道理,這種觀點很難被徹底反駁。但在實踐中我們看到的情況是,現(xiàn)實世界中存在大量的上下文知識和行業(yè)細節(jié)。比如前面說的 Angular 遷移。并不是說這些事做不好,事實上模型會越來越擅長。但要讓模型真的變得更好,關鍵還是得有合適的數(shù)據(jù)。
如果它從沒見過 Angular,從沒做過 Angular 遷移,那么它的能力就是有上限的。再比如調(diào)試 Datadog 錯誤?,F(xiàn)實中的軟件工程非?;靵y,充滿了各種意外情況。其實大多數(shù)學科都如此,無論是法律還是醫(yī)學。
所以雖然通用智能會越來越強,但要讓它真正適用于某個特定場景,還需要很多工作。既要在能力層面針對具體用例表現(xiàn)得足夠好,也要在產(chǎn)品體驗層面真正把它交付給客戶,落地到現(xiàn)實中。
John Collison:換句話說,這不是一個“通用智能”任務,而是一個“特定智能”任務。比如在 Stripe 的代碼庫里工作,當然需要一些通用智能,但更需要上下文和與現(xiàn)有工作流的結合。所以你認為這是一個需要持續(xù)專精的領域?
Scott Wu:也許可以這樣理解:這個虛無主義的觀點其實指向“超級智能”。某種程度上,我們的確正在向“短程超級智能”邁進。通過 RL(強化學習)不斷優(yōu)化,模型逐步逼近一種“柏拉圖式理想”——能夠在任何基準測試(benchmark)上達到滿分。
無論基準是什么,哪怕是未解的數(shù)學難題,我們最終希望能把它輸入數(shù)據(jù)集,讓模型達到 100%。而且說實話,這個進展比很多人預期的快得多。比如 IMO 金牌、某些頂級基準分數(shù)已經(jīng)出現(xiàn)了令人驚訝的突破。
但即便如此,我不認為我們最后會得到一個純粹的 ASI(人工超級智能),然后終結人類知識工作。更可能的情況是:問題變成“接下來基準測試是什么?”
定義 benchmark 本身就是世界的混亂現(xiàn)實。比如在軟件工程里,你每天接觸哪些工具?怎么使用?如何建立長期的代碼庫表征?怎么判斷一個功能是否成功上線?這些都需要環(huán)境和標準的設計。
John Collison:那 Devin 有沒有合適的 benchmark?還是說它的營收本身就是基準?
Scott Wu:我們內(nèi)部其實有很多 benchmark。最主要的一個叫“初級開發(fā) benchmark”,可能很快就得升級為“高級開發(fā) benchmark”了。它涵蓋了各種真實的初級開發(fā)任務。
舉例來說,任務可能是“修復一個 Grafana dashboard 并拉取結果”。難點不在算法,而在于現(xiàn)實復雜性:比如服務器運行的包版本不對,需要讀懂報錯信息,換成正確依賴,再重新跑,最后驗證結果是否正確。這類任務盡可能接近真實工程師日常的工作。
至于最新模型,Claude 4.1 和 GPT-5 在這個基準上的表現(xiàn),已經(jīng)超過此前所有模型。
3 找差異化,活下去
John Collison:那從產(chǎn)業(yè)角度看,未來 5 到 10 年 AI 產(chǎn)業(yè)鏈的各層(數(shù)據(jù)中心、實驗室、應用層)會是什么格局?哪些環(huán)節(jié)更競爭?哪些更穩(wěn)定?會不會變成寡頭格局?
Scott Wu:每次我說這個,大家總是笑,但我真的認為:所有層都會發(fā)展得很好。
首先,會有大量的 AI。各層的價格現(xiàn)在都相對便宜。我過去 6 到 12 個月一直在說這點,現(xiàn)在我們確實看到各層的價格都有明顯上漲。但從宏觀來看,第一點就是:AI 會極大規(guī)模存在。
過去 10 年,B2B SaaS 主要做的是很多增量改進。往前看 30 年,大的浪潮其實只有幾個:
90 年代到 2000 年初的互聯(lián)網(wǎng);
2000 年代末到 2010 年代初的智能手機和云計算; 這些都是過去幾十年最重要的變化。
但這 10 年里,很多新產(chǎn)品更多是在特定垂直領域或某個工作流環(huán)節(jié)做小幅優(yōu)化。而 AI 的不同在于,它直接作用于所有知識工作,甚至可能擴展到物理勞動(取決于機器人進展)。
所以第一點:未來會有大量的 AI。第二點是價值的積累。我的觀點是,價值會沉淀在每一個存在顯著差異化的層里。舉個例子:NVIDIA 和臺積電(TSMC)。只要雙方互相依賴,就算有摩擦,它們依然會持續(xù)做得很好。這種邏輯同樣存在于技術堆棧的各層。不同層面要解決的問題完全不同,差異化非常明顯。
John Collison:所以你認為這會避免過度縱向整合?
Scott Wu:對。硬件層是一個邏輯,大模型訓練又是另一套邏輯:需要頂尖研究員、盡可能多的 GPU 和對應的文化氛圍。而應用層的 DNA 則完全不同。我們當然也涉及研究,但我們專注的只是一個問題:如何把“未來的軟件工程”真正做出來。
很多公司談“AI 寫代碼”,是抽象地談。但我們考慮的是軟件工程整體——包括其中的混亂、產(chǎn)品接口、交付方式、使用模式,以及一堆細節(jié)能力。
每一層都有各自的 DNA,各自最擅長的事。
John Collison:在 Stripe,我們一直在思考如何構建 AI 的經(jīng)濟基礎設施,以及它需要具備什么條件。你可以讓一個代理(agent)代表某個人行動,而你只需要在應用里下達指令或進行操作。而代理的工具使用能力之一,就是可以代表你去現(xiàn)實世界里進行商業(yè)交易。所以我們正在為此搭建基礎設施。
我們注意到,AI 的經(jīng)濟模式幾乎都是基于使用量計費的,不管是按 token 還是其他單位。因此我們正在構建基于使用量的計費系統(tǒng)。而我們在 Stripe 上看到的 AI 計費系統(tǒng),和傳統(tǒng) SaaS 非常不同。經(jīng)典 SaaS 的模式是按席位(seat)計費,而 AI 幾乎全部是按使用量消耗。甚至你可以想象代理之間會彼此進行商業(yè)交易,完全沒有人類參與。這些情況也在影響我們的產(chǎn)品路線圖。那么,你覺得 AI 的經(jīng)濟基礎設施應該長什么樣?我們需要特別注意什么?
Scott Wu:是的,按席位到按用量的轉(zhuǎn)變絕對是核心。而且在兩個層面都說得通:
從一個角度看,按席位不再合理,因為 AI 本身就相當于“席位”,它們也在做大量勞動。
從另一個角度看,按使用量收費也更自然,因為最終都是GPU 花銷,即模型推理消耗了多少算力。
這很有道理。另一個顯而易見的大變化是:會形成一個完整的代理經(jīng)濟(agent economy)。
今天來看,它還更像是一個談論中的概念,而非現(xiàn)實。但變化非??欤芸煳覀兙湍芸吹酱碓谡鎸嵀h(huán)境中執(zhí)行任務。
4 Cognition 的團隊與招聘:當場寫代理!
John Collison:那 Devin 的存在,會怎么影響你們自己招聘工程師?
Scott Wu:從我們的角度來看,我們一直喜歡保持核心工程團隊精干而且精英化。
John Collison:大概多少人?
Scott Wu:直到幾周前,我們整個團隊大約 35 人,覆蓋所有崗位。幾乎每個人其實都有工程師背景。有趣的是,我們所謂的“核心工程”團隊當時只有 19 人。
在收購 Windsurf 之后,團隊規(guī)模確實大了不少,但核心工程團隊本身并沒有顯著擴張,從 19 人增加到了 30 到 35 人的范圍。
John Collison:所以你們有意保持工程團隊的小規(guī)模。那這些工程師和 20 年前創(chuàng)業(yè)公司里的工程師有何不同?
Scott Wu:其實差別很大。今天很多執(zhí)行和實現(xiàn)類的工作 Devin 都能完成,所以人類工程師不需要再去做這些。我們更關注的是,他們能否在高層次上做出決策,理解技術概念,并具備很強的產(chǎn)品直覺。
舉個例子,我們的整個面試過程,其中很多都是讓候選人構建自己的 Devin,八個小時后,看看他們能做到什么程度。
John Collison:是要構建他們自己的 Devin 版本,還是利用 Devin 來做一些東西?
Scott Wu:是要他們構建自己的版本,屬于他們自己的代理,完整的端到端代理,不論是 6 小時還是 8 小時。
我們發(fā)現(xiàn)——而且我認為這也是軟件工程未來的普遍趨勢——死記硬背各種知識點、熟悉各種細節(jié)、或者特別精通某種語言的語法,這些能力的重要性會逐漸降低。
真正更重要的是:
能在高層次上做決策;
對技術概念有深入理解;
對產(chǎn)品有敏銳的直覺,知道該構建什么、該如何推進;
具備很強的自我驅(qū)動和責任心。
有趣的是,我們團隊里很多人以前是創(chuàng)業(yè)者。在最初的 35 人中,有 21 人創(chuàng)過業(yè)。
John Collison:哇,這比例很高。
Scott Wu:是的,這算是我們團隊的一個特點。
John Collison:你們什么時候會雇傭最后一個工程師?
Scott Wu:這是個好問題。我想先做個區(qū)分:在未來兩三四年左右,會出現(xiàn)一個臨界點——我們將不再把“代碼”作為主要界面。
那時,軟件工程師的工作不再關注代碼,而是指導電腦該做什么。你看著自己的產(chǎn)品,對電腦說:“我們需要新建一個頁面;這部分數(shù)據(jù)要這樣保存;索引要按照 X、Y、Z 來做,因為查詢需求是這樣的?!焙芏喽际羌軜媽用娴臎Q策,而不是直接看代碼。至少在大多數(shù)情況下是這樣。
到那時,工作的性質(zhì)會發(fā)生巨大變化。但有趣的是,軟件工程師的數(shù)量可能會更多,而不是更少。因為即便界面不再是代碼,核心的軟件技能依然重要。
很多人問我:“我的孩子正在上高中 / 剛上大學,還應該學計算機科學嗎?”我的回答一直是“絕對應該”。實際上,我一直覺得大學計算機科學的缺點恰恰是過于偏理論:它教你計算機科學的概念,卻很少教你實際語法,比如怎么搭一個 React 應用。未來我們可能會走向這樣的狀態(tài):編程的本質(zhì)就是理解計算機模型,學會如何用它來做決策和解決問題。這反而讓軟件工程師更多。
大家經(jīng)常提到杰文斯悖論(Jevons Paradox)和 AI 的關系。我認為它在軟件領域體現(xiàn)得最明顯。因為我們永遠都寫不完新的軟件。
盡管全世界已經(jīng)有這么多軟件工程師,但我們都知道,還有無數(shù)糟糕的產(chǎn)品。比如登錄銀行系統(tǒng)、零售收銀臺的結賬流程,或醫(yī)療平臺,界面依舊老舊、漏洞百出、體驗糟糕。換句話說,我們還沒把該寫的軟件都寫完。
John Collison:令人震驚的是 UI 這么多年幾乎沒變。我們今天依然在瀏覽器里、Slack 里給 Devin 發(fā)提示,就像在 1980 年代玩 Zork 那樣輸入命令。什么時候我們才能看到真正的 AI UI?
Scott Wu:我總體的看法是,每一波新技術都會經(jīng)歷這樣的階段。移動互聯(lián)網(wǎng)就是例子:最初的手機應用看起來就像是網(wǎng)頁搬到小屏幕上,但隨著時間推移,才發(fā)展出豐富的觸摸交互和良好的 UX 科學。
我覺得我們現(xiàn)在正處在類似的階段。過去幾年主要是用 AI 替代現(xiàn)有流程;而現(xiàn)在開始出現(xiàn)一些生成式的交互流。最簡單的例子就是,很多產(chǎn)品底部加了一個聊天框,用戶不用點菜單,直接在里面問就能找到功能。這只是最基礎的一種形式,未來會有更多創(chuàng)新。
John Collison:我想到的另一個類比是:晶體管和芯片發(fā)明后,大家很快意識到“一切都需要嵌入計算機”。汽車、洗碗機都裝上了小電腦。類似地,未來所有信息在被消費前,都會經(jīng)過一次 transformer 模型的處理。
Scott Wu:AI 和過去幾波技術浪潮有一個獨特的不同。無論是個人電腦、互聯(lián)網(wǎng)還是手機,它們都有兩個共同特征:
硬件門檻:必須先把調(diào)制解調(diào)器、電腦、手機分發(fā)出去,讓大家先能上網(wǎng)、能用設備。
網(wǎng)絡效應:互聯(lián)網(wǎng)要等到你的朋友、餐館、信息都在網(wǎng)上時,才真正好用。
但 AI 沒有這兩個問題。它是純軟件,只要技術對某個人有效,它就能在“單人模式”下立即提供巨大的價值。于是你會看到,只要 AI 產(chǎn)品能跑起來,就能立刻對所有人有效。
這也是為什么幾乎每隔幾周,就會有人宣布他們是“從 100 萬到 1 億用戶增長最快的公司”。因為 AI 的擴展性太快了——一旦成功,就能立刻惠及所有人。
不過,也因此現(xiàn)在產(chǎn)品端出現(xiàn)了滯后。我認為,即使把今天的模型能力完全凍結,不再有新的模型或研究突破,產(chǎn)品層面依然有十年的進步空間。
過去,產(chǎn)品進展和技術分發(fā)是同步推進的;但 AI 則不同。它的能力突然一下子就擺在那里,大家才在短短兩年(甚至如果算上最近的 agent 能力,其實不到一年)的時間里集體思考:我們應該怎樣設計正確的用戶體驗?
所以說,產(chǎn)品創(chuàng)新會花更多時間,大家還在消化。
John Collison:你的 AGI 時間表是怎樣的?
Scott Wu:我認為我們已經(jīng)有 AGI 了。
這聽起來像開玩笑。2017 年如果你問“我們有 AGI 嗎?”,答案肯定是沒有。現(xiàn)在如果你問這個問題,大家的第一反應是:“先定義一下什么是 AGI?!?于是開始各種模棱兩可的回答。
但從某種意義上說,這也沒錯。畢竟 Devin 能幫你點 DoorDash,這聽起來也像 AGI。雖然這帶點調(diào)侃,但我的真實想法是:人們常說的那種“快速奇點”和“超級智能”,我猜在近期不會發(fā)生。因為正如我們之前討論的,還有大量現(xiàn)實世界的問題需要解決:到底要解決什么問題?怎樣定義“成功”?
換句話說,這不是一個二進制問題。我們會不斷推出更多改進,這些系統(tǒng)會越來越強,但至少在未來幾年,不會出現(xiàn)某種突然的斷點式躍遷。
5 收購 Windsurf:只用了三天,包括不休息的周末
John Collison:我們必須聊聊 Windsurf,這個收購看起來發(fā)生得太快了。說說全過程吧。
Scott Wu:我們在同一時間看到新聞,說 Google 要收購 Windsurf(雖然嚴格意義上并不是直接收購)。那是周五,我們跟大家一樣,當天才聽到消息,前一晚只聽到了一些傳言。
當天下午我們就在討論:“我們要不要做點什么?” 在 AI 行業(yè),突然冒出一些瘋狂的新聞并不罕見,但這次尤其和我們的領域直接相關,所以我們認真考慮了這個想法。
我們當晚就主動聯(lián)系了 Windsurf 的新管理團隊——Jeff、Graham 和 Kevin,并在晚上見了面。聊下來我們很快得出一個結論:如果要做這件事,那最遲必須在周一早上完成。因為客戶們已經(jīng)在慌了,團隊成員也在想,“我到底還有沒有工作?” 整個局面就像一塊正在融化的冰塊。
如果等到周四而不是周一,客戶可能就會取消合同,員工也會去別的公司面試。所以我們決定,既然要做,那就整個周末不眠不休地推進。
那周六我們基本上達成了初步的握手協(xié)議,接下來就是法律和合同的細節(jié)要處理。周日晚上我們幾乎是徹夜未眠。
John Collison:周六晚上你們也熬夜了嗎?
Scott Wu:周六只睡了幾個小時。其實 Jeff、Graham 和 Kevin 前幾天已經(jīng)經(jīng)歷了很艱難的時刻,他們來談判時本來就已經(jīng)嚴重缺覺。我們原本樂觀地以為周日晚就能簽好文件,然后可以把精力放在錄制視頻、安撫團隊、對外宣布這些事情上。但最終還是到周一上午 9 點才簽下,因為我們和律師們一晚上都在處理各種細節(jié)。
最后,我們是在 Windsurf 的工作室錄的視頻。我們當時說,不管怎樣,先把視頻錄了。
John Collison:你知道收購其實不一定要配視頻吧?
Scott Wu:哈哈,當然,但有個視頻總歸是好事。簽完文件之后,我們馬上就在全體團隊面前宣布了消息,并很快公開了這件事。那真是讓人興奮的時刻,我其實很享受這種瞬間。
John Collison:所以,你們是周五看到新聞,周一就簽署并宣布交易。這意味著你們幾乎是立刻就決定要買下 Windsurf 的剩余部分?
Scott Wu:對,周五晚上我們就聊透了。站在我們的角度,這里面有幾個特別好的點:
首先,我們非常熟悉這個領域,所以對產(chǎn)品和客戶沒必要再做過多盡調(diào)。其次,經(jīng)過了解我們發(fā)現(xiàn),Windsurf 的核心研究和產(chǎn)品工程團隊確實去了谷歌,但其他職能團隊幾乎完好無損地保留下來,包括企業(yè)工程、基礎設施、交付工程、市場拓展、營銷、財務、運營等等。
而對 Cognition 來說,我們的核心研究和產(chǎn)品工程團隊算是做得不錯,但在其他職能上的建設有些滯后。所以這剛好形成了一種天然的互補。比如他們服務的客戶里有摩根大通,而我們有高盛……很多地方都能天然對接。
從一開始我們就覺得這里面有很有意思的協(xié)同價值,剩下的就是把細節(jié)敲定。
John Collison:所以你們收購的不僅是有領域經(jīng)驗的人才,還有一套和 Devin 相鄰但不完全重合的產(chǎn)品。這意味著你們能加快市場拓展,也能擴充產(chǎn)品線,對嗎?
Scott Wu:沒錯。而且產(chǎn)品層面上其實也有一些很自然的互補。我們一直在思考:異步產(chǎn)品(比如 Devin)和同步產(chǎn)品應該如何結合? 我們曾想過要不要自己去做一些同步場景,但沒打算單獨做一個 IDE,因為市場里已有幾家玩家。但通過這次收購,我們發(fā)現(xiàn)其實有很多天然的契合點。
比如,我們在收購完成后的幾天就發(fā)布了 Wave 11,里面就包含了一些增強功能:
能在 IDE 里直接訪問 DeepWiki;
能在 IDE 中調(diào)用 Devin 的代碼表示進行搜索;
能在 IDE 中直接拉起代理。
這些都讓人感覺非常自然。
John Collison:那么六個月后,用戶會是買 Devin 時順帶獲得 Windsurf,還是分別購買?
Scott Wu:目前還有待確定。我們肯定會保持兩個產(chǎn)品的哲學各自獨立:我認為同步和異步工具都會長期存在。但我們會讓它們之間的整合更順暢、體驗更好。這樣一來,從客戶的角度看會簡單很多。
當然,如果有人只想用其中一個,我們也會保持選擇的靈活性。
John Collison:在 AI 領域,有一個頗有趣的現(xiàn)象,就是出現(xiàn)了不少“49% 授權”式的交易,來規(guī)避收購可能被監(jiān)管阻止的風險。公司會購買某項知識產(chǎn)權的使用許可,同時確保他們需要的人才也能隨公司一起留下。 你覺得這種模式會在 AI 行業(yè)持續(xù)下去嗎?
Scott Wu:這是一個挺特殊的時間節(jié)點現(xiàn)象。我當然不敢說自己是這方面的專家,但我覺得挺有意思的是,每次都會冒出一些新的“花招”。不管是法律結構、債務安排還是合同條款,總會多一層新玩法。你會看到,之前是這樣,現(xiàn)在又變成那樣……這套元游戲本身還在不斷演化。
我認為在 AI 產(chǎn)業(yè)的頂層,確實存在一定程度的兩極分化。因為這些事情的確是隨著資源規(guī)模而擴展的,越到后面“游戲”就越大。對大多數(shù)公司來說,問題就是:你是覺得自己能單打獨斗做到那里,還是要與其他公司合作,共同走下去?
John Collison:所以你的意思是,不管是傳統(tǒng)的并購,還是這種新型的“授權式并購”,都可能越來越多?
Scott Wu:對。我甚至有一個“小熱看法”:當然,AI 領域也會有不少中等規(guī)模的成功案例,但相比之前的產(chǎn)業(yè)浪潮,這一波更傾向于“要么成為超大規(guī)模玩家,要么就出局”。所以有些公司會選擇孤注一擲沖擊超大規(guī)模,另一些則會選擇和別人合作。
John Collison:Windsurf 團隊加入之后,Cognition 的文化本來就很強烈。比如你們周末也工作,就像這次收購要約。
Scott Wu:是的。我們很清楚,這種文化并不適合所有人。大部分人加入后都很興奮,但也有一小部分選擇接受補償離開。我們的原則是:必須讓大家“自愿選擇”加入這種文化,因為說實話,這并不是適合所有人的。
John Collison:你希望他們選擇加入的到底是什么?
Scott Wu:是選擇加入這種高強度的文化,以及我們正在追求的雄心勃勃的目標。
從營收體量來看,可能有人會稱我們是中期甚至后期公司,但從我們的角度看,我們依然處于早期階段。因為未來還有太多要去構建、要去實現(xiàn)的東西。既然是早期階段,團隊成員就必須愿意面對不確定性,愿意每周接受全新的挑戰(zhàn),并愿意付出更多時間和努力來維持這種文化。這是我們堅持的一個核心點。
當然,無論怎樣,我們都會確保每個人都得到妥善的照顧。
John Collison:你每天都在經(jīng)營你有史以來最大的公司,就像我在 Stripe 一樣。你是怎么快速學習如何當 CEO 的?
Scott Wu:我還有很多要學的。過去我們對某些職能投入不足,現(xiàn)在正在補課。我不太相信所謂的職業(yè)教練,但我從同輩和朋友那里學到很多。他們在做類似的事情,可以非常坦誠地交流困難。
比如 RAMP 的 Eric 和 Karim,還有我以前的合伙人 Vlad(Lunchclub 創(chuàng)始人),以及很多數(shù)學競賽圈的朋友們。我可以直接跟他們說:“這件事完全搞砸了,我不知道怎么辦,你們有類似經(jīng)驗嗎?” 這種對話幫了我很多。
John Collison:最后一個問題:你的信息獲取方式是怎樣的?
Scott Wu:我覺得 Twitter 依然是科技新聞的最佳來源。雖然現(xiàn)在算法里視頻很多,越來越像 TikTok,但我基本不看視頻,最多看幾秒。所以如果做視頻內(nèi)容,要能在前三秒、無聲的情況下傳達核心信息。
AI 對我的信息獲取的影響,其實也主要就是 Twitter 算法。
John Collison:那你有沒有用 Devin 來幫你做信息整理?
Scott Wu:還沒有,但這是個好主意。比如讓 Devin 每天跑一個 GitHub Action,生成晨報,就像總統(tǒng)的每日簡報一樣。這塊還有很多優(yōu)化空間。
https://www.youtube.com/watch?v=MmKkNmnoEvw
聲明:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。
會議推薦
10 月 23 - 25 日,QCon 上海站即將召開,現(xiàn)在 8 折優(yōu)惠最后 3 天,單張門票立省 1360 元,詳情可聯(lián)系票務經(jīng)理 18514549229 咨詢。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.