比 996 還狠！讓面試者8小時復刻出自家Devin，創(chuàng)始人直言：受不了高強度就別來

2025-08-31 10:27:21　來源: InfoQ

北京舉報

分享至

編譯 | Tina

你能想象如今去找工作，人家已經(jīng)不滿足于考你一道算法題了，而是要你在面試現(xiàn)場，8 小時從零肝出他們自家的產(chǎn)品——類似 Devin、Windsurf、Cursor 這樣的 AI 工具。還得順手把數(shù)據(jù)庫接上、依賴修完、測試跑通。

更夸張的是，這樣的公司真的存在——正是那個號稱要重塑軟件工程未來的 Cognition。它的 CEO Scott Wu 在播客里親口說，這就是 Cognition 的面試流程：給你 6 到 8 個小時，看你能不能做出一個端到端的代理，一個屬于你自己的“Devin”。

此前，Scott Wu 在收購 Windsurf 時曾直言：Cognition 的文化就是高強度、超長工時、毫不掩飾的 996?！拔覀儾恍攀裁垂ぷ魃钇胶狻蛟燔浖こ痰奈磥硎俏覀兯腥硕忌钌钤谝獾氖姑?。在這里我們每周要在辦公室干 6 天，工時超過 80 小時?！?/p>

相比之下，真正的地獄也許不是入職后的 996，而是還沒進門就要先完成“8 小時寫一個 Devin”的創(chuàng)業(yè)模擬。996 是長期透支，而這個面試更像是瞬間壓榨，把“造一家公司”硬生生當成了入職考題。

更諷刺的是，Cognition 的團隊本身也不是普通打工人。在最初的 35 名成員里，有 21 位曾經(jīng)是創(chuàng)業(yè)者。Scott Wu 認為，死記硬背知識點、熟悉語法細節(jié)這些都不再重要，真正重要的能力是高層次決策、對技術的深入理解、對產(chǎn)品的直覺判斷，以及極強的自我驅(qū)動和責任心。換句話說，他們干脆把“創(chuàng)業(yè)者標準”寫進了招聘流程。

我們翻譯了這期播客的完整內(nèi)容，帶你看看這家 AI 企業(yè)的瘋狂邏輯。

一些亮點如下：

我最高的學歷嚴格來說是初中畢業(yè)證，沒有真正完成高中，也沒有讀完大學。
在早期，直覺敏銳、敢于自我推理就非常有優(yōu)勢。但一旦領域成熟，最后的答案往往就是數(shù)學。
我們之所以要設立各種流程，本來就是因為人類也會犯錯。這就是為什么我們 CI 流程和各種檢查。
即使把今天的模型能力完全凍結，不再有新的模型或研究突破，產(chǎn)品層面依然有十年的進步空間。
我們的原則是：必須讓大家“自愿選擇”加入這種（加班）文化。

1 硅谷“數(shù)學幫”中的初中文憑 AI 創(chuàng)業(yè)者

John Collison：能講講你的成長經(jīng)歷，以及你在數(shù)學上的故事嗎？我覺得大家現(xiàn)在都知道你是“數(shù)學競賽大神”。

Scott Wu：是的，我在巴吞魯日長大。我父母都是化工工程師，他們?yōu)榱俗x研究生從中國移民過來。后來他們找工作時，就做空氣排放許可相關的工作。路易斯安那州有很多石油和天然氣產(chǎn)業(yè)，所以他們最后留在那里。

我從小就喜歡數(shù)學。我有一個哥哥 Neal，我們一直非常親近，他比我大五歲。Neal 在中學時就開始參加數(shù)學競賽，大概是六年級的時候，而我那時才上一年級。作為弟弟，我就會去看他在做什么，試著學一些同樣的數(shù)學。這就是我最初接觸數(shù)學的方式。

后來我發(fā)現(xiàn)自己真的很喜歡數(shù)學競賽。我二年級時就開始參加了。我記得有一次在當?shù)氐拇髮W參加比賽，那個比賽是為中學生和高中生開的。我作為二年級小學生參加了七年級組別的競賽，這是針對初中生和高中生的競賽，也是我第一次參賽。當時只是單純喜歡數(shù)學，結果頒獎時，三等獎、二等獎、一等獎都沒叫到我。我記得自己非常難過。

John Collison：這就是你的“超級反派起源故事”啊。

Scott Wu：沒錯，基本就是這樣開始的。后來我很努力訓練，到了三年級時參加代數(shù)一的組別，結果那一年得了冠軍。之后我就一直參加各種數(shù)學競賽。到了高中最后一年，我參加了 IOI 國際信息學奧林匹克競賽。我參加了三次 IOI，并且都拿了金牌。

John Collison：那你后來上了哪所學校？

Scott Wu：其實我中間休學了一年。我提前一年就離開了高中。我學習不太好。

John Collison：這聽起來很驚訝，你不是很擅長上學？

Scott Wu：嗯，我并不是不擅長學習，而是“不擅長把學業(yè)完成”。我最高的學歷嚴格來說是初中畢業(yè)證，沒有真正完成高中，也沒有讀完大學。

所以我提前一年離開高中，去灣區(qū)待了一年，在一家叫 Addepar 的公司做軟件工程師。那是 2014 年，已經(jīng)很久以前了。當時的經(jīng)歷對我來說很特別。

之后我決定還是去試試大學，于是去了哈佛，讀了兩年后就退學了。

John Collison：你是怎么加入 Addepar 的？他們招收一個高中輟學生，顯然很有遠見。

Scott Wu：當時其實挺有意思的，我們有四個高中生同一天入職。我、Alexandr Wang（Scale 的創(chuàng)始人，現(xiàn)在 Meta），我們是同一天開始的。還有 Eugene Chen（現(xiàn)在在做 Phoenix DEX），以及 Sreenath Are（最近是 Sandbar 的 CEO）。

John Collison：這也太“團體小圈子”了吧，你和 Alex 同時在那里？

Scott Wu：對啊。我和 Alex 早就認識了，最早在中學時認識的。他來自新墨西哥，我來自路易斯安那，我們在一次叫 MATHCOUNTS 的全國數(shù)學競賽上遇見的。后來我們一直保持聯(lián)系，那時還是用 Google Hangouts 聊天。

事實證明，我們這一代很多人最后都走上了相似的道路。我覺得有一種創(chuàng)業(yè)傳染效應。Alex 應該算是我們這群人里最早一個，他讓我第一次認真考慮創(chuàng)業(yè)。但也不僅僅是他。像 Johnny Ho（Perplexity 聯(lián)合創(chuàng)始人）、Demi Guo（創(chuàng)辦了 Pika）、Jesse Zhang（創(chuàng)辦了 Decagon），我們這一群人很多都是在同一年參加這些數(shù)學和編程競賽的，大家彼此都認識。

John Collison：之前有人討論過一個問題：年輕創(chuàng)業(yè)者都去哪兒了？過去總有人二十出頭就做出突破性公司。比如 Michael Dell 19 歲創(chuàng)辦戴爾，23 歲上市；Mark Zuckerberg 在 Facebook 崛起時也還很年輕。后來似乎有一段時間沒有那么多年輕創(chuàng)始人。但現(xiàn)在又涌現(xiàn)出很多，你才 28 歲就做 Cognition。那么，年輕人擔任行業(yè)領先公司的創(chuàng)始人，本身是否就是產(chǎn)業(yè)活力的一個指標？就像 PC 時代的起飛對應著年輕的 Michael Dell，社交網(wǎng)絡起飛對應著年輕的 Mark Zuckerberg，如今 AI 編碼工具的爆發(fā)，也伴隨著一批年輕創(chuàng)始人。

Scott Wu：首先謝謝你還把我算“年輕”。但我覺得相比 18、19 歲已經(jīng)算晚了。

我對這個問題也有一些想法。我的看法是：如今做創(chuàng)始人總體上變得更難了。這大概是最核心的原因。過去那些年輕創(chuàng)始人之所以能做得很好，是因為歸根到底，“第一性原理思考”往往比經(jīng)驗更有優(yōu)勢。很多創(chuàng)業(yè)本質(zhì)上就是去做一些前所未有的事，然后自己得出結論。

但現(xiàn)在不一樣了。現(xiàn)在有很多人，既具備第一性原理思考的能力，又有豐富的經(jīng)驗。整個創(chuàng)業(yè)空間變得更加“成熟”。所以做創(chuàng)始人確實更難了，能真正從大學一畢業(yè)就直接成功創(chuàng)業(yè)的人更少了。

John Collison：當然，說“以前創(chuàng)業(yè)容易”也不準確。Facebook 當時面臨大量競爭，戴爾也不是唯一的 PC 廠商，他們都絕對談不上輕松。不過你說得沒錯，現(xiàn)在的大公司對生態(tài)的感知和連接都很敏銳。比如 Satya（納德拉）或 Mark Zuckerberg，他們對 AI 的一切發(fā)展都非常關注，不斷投入精力。因此，可能不會再有那種“巨大的機會就靜靜躺在地上、等著被人撿走”的情況。

Scott Wu：所以，更準確的說法也許是：不是更難，而是整個行業(yè)更加成熟，積累了更多經(jīng)驗和“玩法手冊”。比如“股權該怎么設計”“融資該怎么談”“初始團隊怎么招”——這些問題，現(xiàn)在很多經(jīng)驗都能借鑒。

而在過去，這些幾乎沒有現(xiàn)成答案，全靠創(chuàng)始人自己敏銳和果敢的判斷。如今則可以從前人經(jīng)驗里汲取更多。所以，這或許是為什么年輕創(chuàng)始人相對減少的原因之一。

我還有一個理論，可以叫做“Moneyball 化”。我平時有個愛好是打撲克。很多人以為撲克只是運氣和直覺，但實際上比人們想象的更數(shù)學化。

你能從頂尖玩家的演變中看到這一點。八九十年代的職業(yè)高手，并不是競爭較小，而是他們成功的關鍵技能是極強的直覺。他們當然理解一些數(shù)學概念，但更多是在“系統(tǒng)一”（直覺思維）的層面快速感知，并且對游戲有很好的感覺，知道該如何調(diào)整自己的打法。

而現(xiàn)在，全是數(shù)學怪才。當一個領域逐漸成熟時，就會發(fā)生這種轉(zhuǎn)變。

在早期、不成熟的階段，人們甚至不知道該問哪些問題，也不知道該用什么參照系思考。在這種情況下，直覺敏銳、敢于自我推理就非常有優(yōu)勢。但一旦領域成熟，最后的答案往往就是數(shù)學。

就像國際象棋一樣。19 世紀的時候還有所謂“浪漫派”風格，憑直覺下棋。但今天棋力引擎已經(jīng)能算出“41 步必勝”。棋局也就演化成“找到最優(yōu)解，并看你離它多近”。

另一個例子是任天堂的《任天堂明星大亂斗：近戰(zhàn)》，我以前也打過比賽。最初 6-8 年，選手都是靈活、有創(chuàng)造力的玩家。后來全變成了數(shù)學化的打法，靠精確計算而不是靈感。即時戰(zhàn)略（RTS）游戲也有類似趨勢。

這種轉(zhuǎn)變當然也有美感，只是說隨著領域成熟，最終都會走向數(shù)學化。而創(chuàng)業(yè)可能也在經(jīng)歷這樣的過程。

2 Cognition 的 AI 軟件工程師 Devin

John Collison：什么是 Cognition？它做什么？

Scott Wu：我們正在構建 AI 軟件工程師。過去一年半我們一直在開發(fā) Devin，最近還收購了 Windsurf。Devin 是 Windsurf 中的智能代理，也是 IDE 中的一部分。但從更高層面來說，我們的目標是構建軟件工程的未來。

John Collison：會不會讓人困惑？公司叫 Cognition，產(chǎn)品叫 Devin，又有點擬人化，現(xiàn)在還加上 Windsurf，好像有第三個名字。

Scott Wu：我們也在討論這個問題?？赡茏鲆恍┱蠒谩?/p>

John Collison：好的。很多人對 GitHub Copilot 或 IDE 輔助編程的范式很熟悉，比如在 IDE 里寫代碼時，它幫你自動補全，或者你輸入一些指令，它幫你寫。這和 Cognition-Devin 的范式不同。

Scott Wu：沒錯。用 Devin，你是在 Slack 頻道里和它對話，比如“幫我做個 X 或 Y”，就像和同事說話一樣。

John Collison：所以你既可以從 Slack、Linear、Jira 調(diào)用它，也可以從 IDE 里用它，但并不一定要在 IDE 里。

Scott Wu：對，完全正確。之前的范式，比如 GitHub Copilot，算是 IDE 模式里最早、最知名的代表。我會把它描述為：當你在鍵盤前寫代碼時，它讓你寫得更快，提供一些工具和快捷方式。

而 Devin 完全是另一種范式，我稱之為異步體驗：你把任務交給一個智能代理，它去執(zhí)行。所以 Devin 更像是在任務單或項目層面工作。你在 GitHub 里有個 issue，然后你 @Devin，它就開始干活。

John Collison：Devin 目前在哪些任務上表現(xiàn)最好？

Scott Wu：我們喜歡稱 Devin 現(xiàn)在是一名“初級工程師”。它在某些方面比所有人都強，比如百科知識、查找事實。但它在某些事情上也會做出很糟糕的決定?？傮w平均來看，用“初級工程師”來形容是比較準確的。

我們看到大家最常用 Devin 的場景是：

修 bug；
做一些簡單的功能請求和小修小補；
或者執(zhí)行團隊里大家已經(jīng)決定要做的某個任務，你只需要“@Devin，幫我搞定這個”。

另外一類很常見的，是那些重復且枯燥的任務，比如遷移、現(xiàn)代化改造、重構、版本升級。全球軟件工程師花在這些事情上的時間，往往比真正“創(chuàng)造性構建”要多得多。比如修復 Kubernetes 部署、做依賴管理、寫測試和文檔等等。

John Collison：你能分享一些業(yè)務指標嗎？

Scott Wu：Devin 已經(jīng)部署在全球成千上萬家公司里，從高盛、花旗這樣的大銀行，到兩三個人的小型創(chuàng)業(yè)公司。

我們衡量的主要指標是合并的 pull request 占比。在成功的團隊里，Devin 通常會完成 30% 到 40% 的合并請求。

John Collison：不過現(xiàn)在 IDE 工具（比如 GitHub Copilot、Cursor、Claude Code）也不是完全同步，你輸入提示后，它們也會去執(zhí)行。你說的同步與異步的區(qū)分，是暫時的嗎？未來會融合嗎？

Scott Wu：我認為這兩種體驗在接下來一段時間會共存。真正有意思的是如何找到它們之間的共享體驗。我們最近收購 Windsurf 也是在考慮這點，很快會發(fā)布一些相關的新功能。

John Collison：你知道“本質(zhì)復雜性（essential complexity）”和“偶然復雜性（accidental complexity）”的概念嗎？

Scott Wu：是的。作為軟件工程師的本質(zhì)，其實就是在代碼的語境下解決問題。工程師要告訴計算機該做什么，同時不斷做各種決策：大到整體架構的選擇；小到某個余額小于零時，是報錯還是請求補充。這些邏輯性的決策就是所謂的“本質(zhì)復雜性”。

而“偶然復雜性”是所有其他事情：規(guī)?；瘯r的支撐性工作，或者每個類都必須有的一些標準化特性。這些東西大家都知道必須有，但不涉及真正的決策。

在 AI 編碼出現(xiàn)之前，軟件工程的主要部分就是做決策，但人們 80%-90% 的時間卻花在了重復實現(xiàn)、例行工作上。未來的混合體驗是：需要人類決策的部分保持同步；純粹執(zhí)行的部分交給 AI 異步完成。

一個項目通常會在同步和異步之間交替。同步體驗更像 IDE，直接看代碼、逐行修改；異步體驗更像智能代理，接收任務后獨立完成。關鍵是讓工程師在高影響力的決策點上互動，而不是被繁瑣的執(zhí)行細節(jié)拖住。

John Collison：那在企業(yè)里呢？比如數(shù)據(jù)庫遷移，最后一步刪除舊表是很嚇人的，大家擔心 AI 幻覺。怎么讓企業(yè)放心地給 Devin 足夠的權限？

Scott Wu：我們非常明確地建議用戶，不要給 Devin 開放過于寬泛的數(shù)據(jù)庫訪問權限。這就是一種做法。到目前為止，我沒聽說過出現(xiàn)過嚴重問題，但顯然，最好還是不要冒這個風險。

坦白說，我的看法是：我們之所以要設立各種流程，本來就是因為人類也會犯錯。這就是為什么我們有 pull request、代碼審查，有 CI 流程和各種檢查。Devin 其實能很自然地融入這些流程。

通常大家和 Devin 的工作方式是：比如做大規(guī)模代碼遷移，會把任務拆分開。可能有 5 萬個文件要從某個 Angular 版本升級到另一個版本。Devin 就會逐個去改，并且為每個改動提交 PR。接著你只需要去審查代碼，確認修改正確。

這樣做背后還是有人類把關。這就呼應了你之前說的“偶然復雜度”問題：遷移真正耗時的并不是那一步“刪除舊表”，而是所有周邊瑣碎的環(huán)節(jié)。

在實踐中，我們發(fā)現(xiàn)，尤其是在企業(yè)級的遷移場景里，當用戶內(nèi)部去測量時，通常能看到8 到 15 倍的效率提升。因為正如你說的，工程師只需要審查代碼，而不是親自寫下每一行，或逐個檢查每個引用。

John Collison：很多組織都想知道 AI 編碼工具的生產(chǎn)力影響。現(xiàn)在工程師都想用，但從 PR 數(shù)量這些指標看，不是很明顯。你可能會說，如果代碼質(zhì)量下降了，那后續(xù)維護成本會增加；或者別的什么情況。所以現(xiàn)在幾乎所有人都在尋找一種“鐵證般的生產(chǎn)力數(shù)據(jù)”，能一錘定音地說明 AI 的影響力。估計很多 CTO 也在找這種數(shù)據(jù)，好向 CFO 證明開銷是合理的。那你怎么看？AI 工具的生產(chǎn)力提升究竟大嗎？能真正量化嗎？

Scott Wu：當然能。我認為，隨著行業(yè)逐步從 IDE 輔助過渡到智能代理，這個問題的答案會越來越清晰。

老實說，我覺得IDE 帶來的生產(chǎn)力提升其實常常被低估。原因就在于，它很難被準確量化。比如我們看自己團隊的數(shù)據(jù)，平均下來，每個工程師在一周里會使用 Tab 自動補全238 次。直覺上，這肯定是有價值的，也確實會讓人更快。但要說它到底讓你快了多少，就很難精確衡量。

相比之下，智能代理（Agent）要清晰得多。因為代理是直接幫你把整個任務完成。比如一個 Jira 任務，或者一次大規(guī)模遷移。通常情況下，你對這些任務需要多少工程師工時是有數(shù)的。而當代理能端到端完成這些事情時，提升是顯而易見的：比如過去需要人力做的遷移，現(xiàn)在只需要你花五分鐘審查 PR，一切就完成了。

所以，隨著時間推移，這種生產(chǎn)力的提升會變得越來越明顯。

John Collison：有人認為，編碼工具只是一個過渡階段，很快就會被 GPT-6 或 GPT-7 這樣的更強模型取代。你顯然不是這么認為的吧？怎么避免被大模型實驗室“碾壓”？

Scott Wu：當然。我覺得那些實驗室本身就是非常了不起的企業(yè)。但在我理解里，這種觀點其實是一種“虛無主義的計算機使用論”。意思是：我們在現(xiàn)實世界里從事的各種知識工作，本質(zhì)上都要借助計算機。AI 會越來越擅長使用計算機，直到某一天，什么都不剩下，只剩下 AI 自己操作你的電腦，把你的工作全都做掉。這，大概就是這種論調(diào)的核心。

我能理解其中的道理，這種觀點很難被徹底反駁。但在實踐中我們看到的情況是，現(xiàn)實世界中存在大量的上下文知識和行業(yè)細節(jié)。比如前面說的 Angular 遷移。并不是說這些事做不好，事實上模型會越來越擅長。但要讓模型真的變得更好，關鍵還是得有合適的數(shù)據(jù)。

如果它從沒見過 Angular，從沒做過 Angular 遷移，那么它的能力就是有上限的。再比如調(diào)試 Datadog 錯誤?，F(xiàn)實中的軟件工程非?；靵y，充滿了各種意外情況。其實大多數(shù)學科都如此，無論是法律還是醫(yī)學。

所以雖然通用智能會越來越強，但要讓它真正適用于某個特定場景，還需要很多工作。既要在能力層面針對具體用例表現(xiàn)得足夠好，也要在產(chǎn)品體驗層面真正把它交付給客戶，落地到現(xiàn)實中。

John Collison：換句話說，這不是一個“通用智能”任務，而是一個“特定智能”任務。比如在 Stripe 的代碼庫里工作，當然需要一些通用智能，但更需要上下文和與現(xiàn)有工作流的結合。所以你認為這是一個需要持續(xù)專精的領域？

Scott Wu：也許可以這樣理解：這個虛無主義的觀點其實指向“超級智能”。某種程度上，我們的確正在向“短程超級智能”邁進。通過 RL（強化學習）不斷優(yōu)化，模型逐步逼近一種“柏拉圖式理想”——能夠在任何基準測試（benchmark）上達到滿分。

無論基準是什么，哪怕是未解的數(shù)學難題，我們最終希望能把它輸入數(shù)據(jù)集，讓模型達到 100%。而且說實話，這個進展比很多人預期的快得多。比如 IMO 金牌、某些頂級基準分數(shù)已經(jīng)出現(xiàn)了令人驚訝的突破。

但即便如此，我不認為我們最后會得到一個純粹的 ASI（人工超級智能），然后終結人類知識工作。更可能的情況是：問題變成“接下來基準測試是什么？”

定義 benchmark 本身就是世界的混亂現(xiàn)實。比如在軟件工程里，你每天接觸哪些工具？怎么使用？如何建立長期的代碼庫表征？怎么判斷一個功能是否成功上線？這些都需要環(huán)境和標準的設計。

John Collison：那 Devin 有沒有合適的 benchmark？還是說它的營收本身就是基準？

Scott Wu：我們內(nèi)部其實有很多 benchmark。最主要的一個叫“初級開發(fā) benchmark”，可能很快就得升級為“高級開發(fā) benchmark”了。它涵蓋了各種真實的初級開發(fā)任務。

舉例來說，任務可能是“修復一個 Grafana dashboard 并拉取結果”。難點不在算法，而在于現(xiàn)實復雜性：比如服務器運行的包版本不對，需要讀懂報錯信息，換成正確依賴，再重新跑，最后驗證結果是否正確。這類任務盡可能接近真實工程師日常的工作。

至于最新模型，Claude 4.1 和 GPT-5 在這個基準上的表現(xiàn)，已經(jīng)超過此前所有模型。

3 找差異化，活下去

John Collison：那從產(chǎn)業(yè)角度看，未來 5 到 10 年 AI 產(chǎn)業(yè)鏈的各層（數(shù)據(jù)中心、實驗室、應用層）會是什么格局？哪些環(huán)節(jié)更競爭？哪些更穩(wěn)定？會不會變成寡頭格局？

Scott Wu：每次我說這個，大家總是笑，但我真的認為：所有層都會發(fā)展得很好。

首先，會有大量的 AI。各層的價格現(xiàn)在都相對便宜。我過去 6 到 12 個月一直在說這點，現(xiàn)在我們確實看到各層的價格都有明顯上漲。但從宏觀來看，第一點就是：AI 會極大規(guī)模存在。

過去 10 年，B2B SaaS 主要做的是很多增量改進。往前看 30 年，大的浪潮其實只有幾個：

90 年代到 2000 年初的互聯(lián)網(wǎng)；
2000 年代末到 2010 年代初的智能手機和云計算；這些都是過去幾十年最重要的變化。

但這 10 年里，很多新產(chǎn)品更多是在特定垂直領域或某個工作流環(huán)節(jié)做小幅優(yōu)化。而 AI 的不同在于，它直接作用于所有知識工作，甚至可能擴展到物理勞動（取決于機器人進展）。

所以第一點：未來會有大量的 AI。第二點是價值的積累。我的觀點是，價值會沉淀在每一個存在顯著差異化的層里。舉個例子：NVIDIA 和臺積電（TSMC）。只要雙方互相依賴，就算有摩擦，它們依然會持續(xù)做得很好。這種邏輯同樣存在于技術堆棧的各層。不同層面要解決的問題完全不同，差異化非常明顯。

John Collison：所以你認為這會避免過度縱向整合？

Scott Wu：對。硬件層是一個邏輯，大模型訓練又是另一套邏輯：需要頂尖研究員、盡可能多的 GPU 和對應的文化氛圍。而應用層的 DNA 則完全不同。我們當然也涉及研究，但我們專注的只是一個問題：如何把“未來的軟件工程”真正做出來。

很多公司談“AI 寫代碼”，是抽象地談。但我們考慮的是軟件工程整體——包括其中的混亂、產(chǎn)品接口、交付方式、使用模式，以及一堆細節(jié)能力。

每一層都有各自的 DNA，各自最擅長的事。

John Collison：在 Stripe，我們一直在思考如何構建 AI 的經(jīng)濟基礎設施，以及它需要具備什么條件。你可以讓一個代理（agent）代表某個人行動，而你只需要在應用里下達指令或進行操作。而代理的工具使用能力之一，就是可以代表你去現(xiàn)實世界里進行商業(yè)交易。所以我們正在為此搭建基礎設施。

我們注意到，AI 的經(jīng)濟模式幾乎都是基于使用量計費的，不管是按 token 還是其他單位。因此我們正在構建基于使用量的計費系統(tǒng)。而我們在 Stripe 上看到的 AI 計費系統(tǒng)，和傳統(tǒng) SaaS 非常不同。經(jīng)典 SaaS 的模式是按席位（seat）計費，而 AI 幾乎全部是按使用量消耗。甚至你可以想象代理之間會彼此進行商業(yè)交易，完全沒有人類參與。這些情況也在影響我們的產(chǎn)品路線圖。那么，你覺得 AI 的經(jīng)濟基礎設施應該長什么樣？我們需要特別注意什么？

Scott Wu：是的，按席位到按用量的轉(zhuǎn)變絕對是核心。而且在兩個層面都說得通：

從一個角度看，按席位不再合理，因為 AI 本身就相當于“席位”，它們也在做大量勞動。
從另一個角度看，按使用量收費也更自然，因為最終都是GPU 花銷，即模型推理消耗了多少算力。

這很有道理。另一個顯而易見的大變化是：會形成一個完整的代理經(jīng)濟（agent economy）。

今天來看，它還更像是一個談論中的概念，而非現(xiàn)實。但變化非?？欤芸煳覀兙湍芸吹酱碓谡鎸嵀h(huán)境中執(zhí)行任務。

4 Cognition 的團隊與招聘：當場寫代理！

John Collison：那 Devin 的存在，會怎么影響你們自己招聘工程師？

Scott Wu：從我們的角度來看，我們一直喜歡保持核心工程團隊精干而且精英化。

John Collison：大概多少人？

Scott Wu：直到幾周前，我們整個團隊大約 35 人，覆蓋所有崗位。幾乎每個人其實都有工程師背景。有趣的是，我們所謂的“核心工程”團隊當時只有 19 人。

在收購 Windsurf 之后，團隊規(guī)模確實大了不少，但核心工程團隊本身并沒有顯著擴張，從 19 人增加到了 30 到 35 人的范圍。

John Collison：所以你們有意保持工程團隊的小規(guī)模。那這些工程師和 20 年前創(chuàng)業(yè)公司里的工程師有何不同？

Scott Wu：其實差別很大。今天很多執(zhí)行和實現(xiàn)類的工作 Devin 都能完成，所以人類工程師不需要再去做這些。我們更關注的是，他們能否在高層次上做出決策，理解技術概念，并具備很強的產(chǎn)品直覺。

舉個例子，我們的整個面試過程，其中很多都是讓候選人構建自己的 Devin，八個小時后，看看他們能做到什么程度。

John Collison：是要構建他們自己的 Devin 版本，還是利用 Devin 來做一些東西？

Scott Wu：是要他們構建自己的版本，屬于他們自己的代理，完整的端到端代理，不論是 6 小時還是 8 小時。

我們發(fā)現(xiàn)——而且我認為這也是軟件工程未來的普遍趨勢——死記硬背各種知識點、熟悉各種細節(jié)、或者特別精通某種語言的語法，這些能力的重要性會逐漸降低。

真正更重要的是：

能在高層次上做決策；
對技術概念有深入理解；
對產(chǎn)品有敏銳的直覺，知道該構建什么、該如何推進；
具備很強的自我驅(qū)動和責任心。

有趣的是，我們團隊里很多人以前是創(chuàng)業(yè)者。在最初的 35 人中，有 21 人創(chuàng)過業(yè)。

John Collison：哇，這比例很高。

Scott Wu：是的，這算是我們團隊的一個特點。

John Collison：你們什么時候會雇傭最后一個工程師？

Scott Wu：這是個好問題。我想先做個區(qū)分：在未來兩三四年左右，會出現(xiàn)一個臨界點——我們將不再把“代碼”作為主要界面。

那時，軟件工程師的工作不再關注代碼，而是指導電腦該做什么。你看著自己的產(chǎn)品，對電腦說：“我們需要新建一個頁面；這部分數(shù)據(jù)要這樣保存；索引要按照 X、Y、Z 來做，因為查詢需求是這樣的?！焙芏喽际羌軜媽用娴臎Q策，而不是直接看代碼。至少在大多數(shù)情況下是這樣。

到那時，工作的性質(zhì)會發(fā)生巨大變化。但有趣的是，軟件工程師的數(shù)量可能會更多，而不是更少。因為即便界面不再是代碼，核心的軟件技能依然重要。

很多人問我：“我的孩子正在上高中 / 剛上大學，還應該學計算機科學嗎？”我的回答一直是“絕對應該”。實際上，我一直覺得大學計算機科學的缺點恰恰是過于偏理論：它教你計算機科學的概念，卻很少教你實際語法，比如怎么搭一個 React 應用。未來我們可能會走向這樣的狀態(tài)：編程的本質(zhì)就是理解計算機模型，學會如何用它來做決策和解決問題。這反而讓軟件工程師更多。

大家經(jīng)常提到杰文斯悖論（Jevons Paradox）和 AI 的關系。我認為它在軟件領域體現(xiàn)得最明顯。因為我們永遠都寫不完新的軟件。

盡管全世界已經(jīng)有這么多軟件工程師，但我們都知道，還有無數(shù)糟糕的產(chǎn)品。比如登錄銀行系統(tǒng)、零售收銀臺的結賬流程，或醫(yī)療平臺，界面依舊老舊、漏洞百出、體驗糟糕。換句話說，我們還沒把該寫的軟件都寫完。

John Collison：令人震驚的是 UI 這么多年幾乎沒變。我們今天依然在瀏覽器里、Slack 里給 Devin 發(fā)提示，就像在 1980 年代玩 Zork 那樣輸入命令。什么時候我們才能看到真正的 AI UI？

Scott Wu：我總體的看法是，每一波新技術都會經(jīng)歷這樣的階段。移動互聯(lián)網(wǎng)就是例子：最初的手機應用看起來就像是網(wǎng)頁搬到小屏幕上，但隨著時間推移，才發(fā)展出豐富的觸摸交互和良好的 UX 科學。

我覺得我們現(xiàn)在正處在類似的階段。過去幾年主要是用 AI 替代現(xiàn)有流程；而現(xiàn)在開始出現(xiàn)一些生成式的交互流。最簡單的例子就是，很多產(chǎn)品底部加了一個聊天框，用戶不用點菜單，直接在里面問就能找到功能。這只是最基礎的一種形式，未來會有更多創(chuàng)新。

John Collison：我想到的另一個類比是：晶體管和芯片發(fā)明后，大家很快意識到“一切都需要嵌入計算機”。汽車、洗碗機都裝上了小電腦。類似地，未來所有信息在被消費前，都會經(jīng)過一次 transformer 模型的處理。

Scott Wu：AI 和過去幾波技術浪潮有一個獨特的不同。無論是個人電腦、互聯(lián)網(wǎng)還是手機，它們都有兩個共同特征：

硬件門檻：必須先把調(diào)制解調(diào)器、電腦、手機分發(fā)出去，讓大家先能上網(wǎng)、能用設備。
網(wǎng)絡效應：互聯(lián)網(wǎng)要等到你的朋友、餐館、信息都在網(wǎng)上時，才真正好用。

但 AI 沒有這兩個問題。它是純軟件，只要技術對某個人有效，它就能在“單人模式”下立即提供巨大的價值。于是你會看到，只要 AI 產(chǎn)品能跑起來，就能立刻對所有人有效。

這也是為什么幾乎每隔幾周，就會有人宣布他們是“從 100 萬到 1 億用戶增長最快的公司”。因為 AI 的擴展性太快了——一旦成功，就能立刻惠及所有人。

不過，也因此現(xiàn)在產(chǎn)品端出現(xiàn)了滯后。我認為，即使把今天的模型能力完全凍結，不再有新的模型或研究突破，產(chǎn)品層面依然有十年的進步空間。

過去，產(chǎn)品進展和技術分發(fā)是同步推進的；但 AI 則不同。它的能力突然一下子就擺在那里，大家才在短短兩年（甚至如果算上最近的 agent 能力，其實不到一年）的時間里集體思考：我們應該怎樣設計正確的用戶體驗？

所以說，產(chǎn)品創(chuàng)新會花更多時間，大家還在消化。

John Collison：你的 AGI 時間表是怎樣的？

Scott Wu：我認為我們已經(jīng)有 AGI 了。

這聽起來像開玩笑。2017 年如果你問“我們有 AGI 嗎？”，答案肯定是沒有。現(xiàn)在如果你問這個問題，大家的第一反應是：“先定義一下什么是 AGI?！?于是開始各種模棱兩可的回答。

但從某種意義上說，這也沒錯。畢竟 Devin 能幫你點 DoorDash，這聽起來也像 AGI。雖然這帶點調(diào)侃，但我的真實想法是：人們常說的那種“快速奇點”和“超級智能”，我猜在近期不會發(fā)生。因為正如我們之前討論的，還有大量現(xiàn)實世界的問題需要解決：到底要解決什么問題？怎樣定義“成功”？

換句話說，這不是一個二進制問題。我們會不斷推出更多改進，這些系統(tǒng)會越來越強，但至少在未來幾年，不會出現(xiàn)某種突然的斷點式躍遷。

5 收購 Windsurf：只用了三天，包括不休息的周末

John Collison：我們必須聊聊 Windsurf，這個收購看起來發(fā)生得太快了。說說全過程吧。

Scott Wu：我們在同一時間看到新聞，說 Google 要收購 Windsurf（雖然嚴格意義上并不是直接收購）。那是周五，我們跟大家一樣，當天才聽到消息，前一晚只聽到了一些傳言。

當天下午我們就在討論：“我們要不要做點什么？” 在 AI 行業(yè)，突然冒出一些瘋狂的新聞并不罕見，但這次尤其和我們的領域直接相關，所以我們認真考慮了這個想法。

我們當晚就主動聯(lián)系了 Windsurf 的新管理團隊——Jeff、Graham 和 Kevin，并在晚上見了面。聊下來我們很快得出一個結論：如果要做這件事，那最遲必須在周一早上完成。因為客戶們已經(jīng)在慌了，團隊成員也在想，“我到底還有沒有工作？” 整個局面就像一塊正在融化的冰塊。

如果等到周四而不是周一，客戶可能就會取消合同，員工也會去別的公司面試。所以我們決定，既然要做，那就整個周末不眠不休地推進。

那周六我們基本上達成了初步的握手協(xié)議，接下來就是法律和合同的細節(jié)要處理。周日晚上我們幾乎是徹夜未眠。

John Collison：周六晚上你們也熬夜了嗎？

Scott Wu：周六只睡了幾個小時。其實 Jeff、Graham 和 Kevin 前幾天已經(jīng)經(jīng)歷了很艱難的時刻，他們來談判時本來就已經(jīng)嚴重缺覺。我們原本樂觀地以為周日晚就能簽好文件，然后可以把精力放在錄制視頻、安撫團隊、對外宣布這些事情上。但最終還是到周一上午 9 點才簽下，因為我們和律師們一晚上都在處理各種細節(jié)。

最后，我們是在 Windsurf 的工作室錄的視頻。我們當時說，不管怎樣，先把視頻錄了。

John Collison：你知道收購其實不一定要配視頻吧？

Scott Wu：哈哈，當然，但有個視頻總歸是好事。簽完文件之后，我們馬上就在全體團隊面前宣布了消息，并很快公開了這件事。那真是讓人興奮的時刻，我其實很享受這種瞬間。

John Collison：所以，你們是周五看到新聞，周一就簽署并宣布交易。這意味著你們幾乎是立刻就決定要買下 Windsurf 的剩余部分？

Scott Wu：對，周五晚上我們就聊透了。站在我們的角度，這里面有幾個特別好的點：

首先，我們非常熟悉這個領域，所以對產(chǎn)品和客戶沒必要再做過多盡調(diào)。其次，經(jīng)過了解我們發(fā)現(xiàn)，Windsurf 的核心研究和產(chǎn)品工程團隊確實去了谷歌，但其他職能團隊幾乎完好無損地保留下來，包括企業(yè)工程、基礎設施、交付工程、市場拓展、營銷、財務、運營等等。

而對 Cognition 來說，我們的核心研究和產(chǎn)品工程團隊算是做得不錯，但在其他職能上的建設有些滯后。所以這剛好形成了一種天然的互補。比如他們服務的客戶里有摩根大通，而我們有高盛……很多地方都能天然對接。

從一開始我們就覺得這里面有很有意思的協(xié)同價值，剩下的就是把細節(jié)敲定。

John Collison：所以你們收購的不僅是有領域經(jīng)驗的人才，還有一套和 Devin 相鄰但不完全重合的產(chǎn)品。這意味著你們能加快市場拓展，也能擴充產(chǎn)品線，對嗎？

Scott Wu：沒錯。而且產(chǎn)品層面上其實也有一些很自然的互補。我們一直在思考：異步產(chǎn)品（比如 Devin）和同步產(chǎn)品應該如何結合？我們曾想過要不要自己去做一些同步場景，但沒打算單獨做一個 IDE，因為市場里已有幾家玩家。但通過這次收購，我們發(fā)現(xiàn)其實有很多天然的契合點。

比如，我們在收購完成后的幾天就發(fā)布了 Wave 11，里面就包含了一些增強功能：

能在 IDE 里直接訪問 DeepWiki；
能在 IDE 中調(diào)用 Devin 的代碼表示進行搜索；
能在 IDE 中直接拉起代理。

這些都讓人感覺非常自然。

John Collison：那么六個月后，用戶會是買 Devin 時順帶獲得 Windsurf，還是分別購買？

Scott Wu：目前還有待確定。我們肯定會保持兩個產(chǎn)品的哲學各自獨立：我認為同步和異步工具都會長期存在。但我們會讓它們之間的整合更順暢、體驗更好。這樣一來，從客戶的角度看會簡單很多。

當然，如果有人只想用其中一個，我們也會保持選擇的靈活性。

John Collison：在 AI 領域，有一個頗有趣的現(xiàn)象，就是出現(xiàn)了不少“49% 授權”式的交易，來規(guī)避收購可能被監(jiān)管阻止的風險。公司會購買某項知識產(chǎn)權的使用許可，同時確保他們需要的人才也能隨公司一起留下。你覺得這種模式會在 AI 行業(yè)持續(xù)下去嗎？

Scott Wu：這是一個挺特殊的時間節(jié)點現(xiàn)象。我當然不敢說自己是這方面的專家，但我覺得挺有意思的是，每次都會冒出一些新的“花招”。不管是法律結構、債務安排還是合同條款，總會多一層新玩法。你會看到，之前是這樣，現(xiàn)在又變成那樣……這套元游戲本身還在不斷演化。

我認為在 AI 產(chǎn)業(yè)的頂層，確實存在一定程度的兩極分化。因為這些事情的確是隨著資源規(guī)模而擴展的，越到后面“游戲”就越大。對大多數(shù)公司來說，問題就是：你是覺得自己能單打獨斗做到那里，還是要與其他公司合作，共同走下去？

John Collison：所以你的意思是，不管是傳統(tǒng)的并購，還是這種新型的“授權式并購”，都可能越來越多？

Scott Wu：對。我甚至有一個“小熱看法”：當然，AI 領域也會有不少中等規(guī)模的成功案例，但相比之前的產(chǎn)業(yè)浪潮，這一波更傾向于“要么成為超大規(guī)模玩家，要么就出局”。所以有些公司會選擇孤注一擲沖擊超大規(guī)模，另一些則會選擇和別人合作。

John Collison：Windsurf 團隊加入之后，Cognition 的文化本來就很強烈。比如你們周末也工作，就像這次收購要約。

Scott Wu：是的。我們很清楚，這種文化并不適合所有人。大部分人加入后都很興奮，但也有一小部分選擇接受補償離開。我們的原則是：必須讓大家“自愿選擇”加入這種文化，因為說實話，這并不是適合所有人的。

John Collison：你希望他們選擇加入的到底是什么？

Scott Wu：是選擇加入這種高強度的文化，以及我們正在追求的雄心勃勃的目標。

從營收體量來看，可能有人會稱我們是中期甚至后期公司，但從我們的角度看，我們依然處于早期階段。因為未來還有太多要去構建、要去實現(xiàn)的東西。既然是早期階段，團隊成員就必須愿意面對不確定性，愿意每周接受全新的挑戰(zhàn)，并愿意付出更多時間和努力來維持這種文化。這是我們堅持的一個核心點。

當然，無論怎樣，我們都會確保每個人都得到妥善的照顧。

John Collison：你每天都在經(jīng)營你有史以來最大的公司，就像我在 Stripe 一樣。你是怎么快速學習如何當 CEO 的？

Scott Wu：我還有很多要學的。過去我們對某些職能投入不足，現(xiàn)在正在補課。我不太相信所謂的職業(yè)教練，但我從同輩和朋友那里學到很多。他們在做類似的事情，可以非常坦誠地交流困難。

比如 RAMP 的 Eric 和 Karim，還有我以前的合伙人 Vlad（Lunchclub 創(chuàng)始人），以及很多數(shù)學競賽圈的朋友們。我可以直接跟他們說：“這件事完全搞砸了，我不知道怎么辦，你們有類似經(jīng)驗嗎？” 這種對話幫了我很多。

John Collison：最后一個問題：你的信息獲取方式是怎樣的？

Scott Wu：我覺得 Twitter 依然是科技新聞的最佳來源。雖然現(xiàn)在算法里視頻很多，越來越像 TikTok，但我基本不看視頻，最多看幾秒。所以如果做視頻內(nèi)容，要能在前三秒、無聲的情況下傳達核心信息。

AI 對我的信息獲取的影響，其實也主要就是 Twitter 算法。

John Collison：那你有沒有用 Devin 來幫你做信息整理？

Scott Wu：還沒有，但這是個好主意。比如讓 Devin 每天跑一個 GitHub Action，生成晨報，就像總統(tǒng)的每日簡報一樣。這塊還有很多優(yōu)化空間。

https://www.youtube.com/watch?v=MmKkNmnoEvw

聲明：本文為 InfoQ 翻譯整理，不代表平臺觀點，未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

10 月 23 - 25 日，QCon 上海站即將召開，現(xiàn)在 8 折優(yōu)惠最后 3 天，單張門票立省 1360 元，詳情可聯(lián)系票務經(jīng)理 18514549229 咨詢。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.