新智元報道
編輯:元宇
【新智元導(dǎo)讀】8月,nano?banana登頂LMArena文生圖像榜單,帶動LMArena社區(qū)流量暴增10倍,月活用戶300萬+。nano?banana在LMArena啟動盲測后,短短兩周便吸引了超過500萬次總投票,并單獨(dú)贏得了250萬+直接投票,創(chuàng)下歷史最高參與度。自2023年推出以來,LMArena已成為谷歌、OpenAI等AI大廠扎堆廝殺的競技場。
今年8月,一款名為「納米香蕉」的神秘AI圖像編輯器輕松登頂Image Edit Arena榜首,直接把LMArena8月份的平臺流量拉爆:
流量暴增10倍,月活300萬+。
該模型自在LMArena啟動盲測以來,短短兩周便吸引了超過500萬次總投票,并單獨(dú)贏得了250萬+直接投票,創(chuàng)下歷史最高參與度。
nano?banana的神秘身份,也在LMArena社區(qū)引發(fā)廣泛猜測。
在谷歌認(rèn)領(lǐng)「納米香蕉」,將其正式定名為Gemini 2.5 Flash Image之前,已不少網(wǎng)友猜到谷歌是Nano Banana的真正主人。
還有網(wǎng)友貼出了在LMArena上使用正版「納米香蕉」的方法,該方法不僅免費(fèi),而且不需要登錄。
不僅能讓用戶「近距離」接觸各種最新模型,LMArena還為大模型比拼,提供了一個真實(shí)的「羅馬競技場」,它讓谷歌、OpenAI等公司的最新模型,在這里真刀真槍對決,接受成千上萬用戶的檢閱。
用戶的投票和反饋,決定了這些大模型的排名,也為大模型廠商迭代模型,提供了真實(shí)的用例數(shù)據(jù),使他們能夠更加有的放矢地改進(jìn)模型。
nano?banana爆紅,讓LMArena流量狂漲10倍,據(jù)LMArena首席技術(shù)官Wei-Lin Chiang證實(shí),該站月活躍用戶已超過300萬。
無論谷歌,還是LMArena都成為這場流量盛宴中的最大贏家。
從Chatbot Arena到LMArena
LMArena聯(lián)合創(chuàng)始人Wei-Lin Chiang和Anastasios Angelopoulos
LMArena前身叫Chatbot Arena,最初起源于2023年伯克利的一項(xiàng)研究項(xiàng)目,后來更名為LMArena。
Chatbot Arena像一個用戶社區(qū)評測中心,它改變了通過學(xué)科測試來評測AI技術(shù)的傳統(tǒng)方式,將評價權(quán)交給了社區(qū)用戶,并且采用匿名、眾包的成對比較,來評估大模型。
用戶還可以選擇模型進(jìn)行自我測試。
ChatGPT、Llama 1等大模型的發(fā)布,為Chatbot Arena的出現(xiàn)提供了一個契機(jī)。
因?yàn)?,?dāng)時人們還沒有一個評測大模型的有效方法,于是Chiang就與伯克利研究人員Anastasios Angelopoulos,以及Ion Stoica共同創(chuàng)辦了Chatbot Arena,也就是后來的LMArena。
他們的想法,是做一個以社區(qū)為中心的公開的、基于網(wǎng)絡(luò)的平臺,邀請所有人來參與評測。
很快,Chatbot Arena就引起了許多關(guān)注,成千上萬的人前來投票,他們就利用這些用戶投票數(shù)據(jù),整理出了第一版排行榜。
最初上榜的,多是一些開源模型,唯一商用模型只有Claude和GPT。
隨著更多模型的不斷加入,Chatbot Arena的關(guān)注度也越來越高。各AI大廠紛紛請求將自己產(chǎn)品排名,并試圖登上這個排行榜的榜首。
Chatbot Arena的走紅,也讓眾多科技公司將之視為AI技術(shù)的風(fēng)向標(biāo),他們像華爾街交易員盯盤一樣,密切關(guān)注著Chatbot Arena榜單的變化。
這一切都讓Meta AI產(chǎn)品管理總監(jiān)Joseph Spisak感到十分驚訝,他驚嘆于幾個學(xué)生竟能產(chǎn)生如此重大的影響力。
Chiang希望LMArena能夠成為一個對所有人都開放可及的平臺,希望更多的用戶來測試這些模型,表達(dá)他們的看法和偏好,以此幫助社區(qū)以及模型提供方,能夠更好地基于這些真實(shí)用例來評估AI。
正如Chiang所言,在LMArena社區(qū)中,最受歡迎、增長最快的模型,往往來自于真實(shí)場景中的用例。「納米香蕉」就是最成功的例子之一。
匿名登場和盲測機(jī)制,讓nano-banana在LMArena自然爆紅,當(dāng)時普通用戶無法手動挑選nano-banana,只有在 Battle里隨機(jī)遇到它,社區(qū)里大量帖子討論「刷很多局才等到香蕉」的體驗(yàn)。
目前,Gemini 2.5 Flash Image成為LMArena的「雙料冠軍」,獲得了Image Edit Arena、Text-to-Image兩個榜單的第一名。
從LMArena排名上,還可以看出各個領(lǐng)域表現(xiàn)最佳的模型。
比如,在編碼領(lǐng)域,Claude排名最佳。在創(chuàng)意領(lǐng)域,Gemini位居前列。
也許是Meta內(nèi)部AI團(tuán)隊(duì)調(diào)整的緣故,Chiang并沒有聽到太多Llama 4的消息。但他認(rèn)為Meta正在構(gòu)建的「全模型」,也許代表著未來行業(yè)的一大趨勢。
大模型廠商為何鐘情「屠榜」?
OpenAI、谷歌、Anthorpic等大模型廠商,為什么都喜歡將它們的模型放到LMArena等排行榜上?
是為了建立品牌曝光度,還是獲得用戶反饋來改進(jìn)他們的模型?
顯然,曝光與背書,是一個最直觀的短期效應(yīng)。
LMArena是業(yè)內(nèi)關(guān)注度最高的公開榜之一,累計(jì)投票已達(dá)數(shù)百萬次。而且科技媒體也喜歡頻繁引用LMArena的數(shù)據(jù),這些都可以為大模型品牌帶來顯著的口碑與流量紅利。
其次,是更貼近「真實(shí)使用」的用戶反饋。
LMArena采用匿名、隨機(jī)配對的投票方式,并用Elo計(jì)分,這樣做減少了「品牌光環(huán)」「位置偏置」等主觀影響,能真實(shí)反映用戶對模型回答質(zhì)量的評價。
Elo系統(tǒng)最初用于國際象棋計(jì)分,也是LMArena排行榜背后的核心機(jī)制。在該規(guī)則下,每個選手(或模型)都有一個實(shí)力分?jǐn)?shù)(Elo 分),每場對戰(zhàn)后,會根據(jù)結(jié)果和預(yù)期,更新雙方的Elo分。
這讓每次用戶投票都成為一場對戰(zhàn),模型Elo分經(jīng)過成千上萬次對戰(zhàn)收斂,排名就可以更真實(shí)地反映用戶偏好。
此外,LMArena提供了一個跨廠商、跨開源/閉源的同臺競技舞臺,這天然就會帶來更高流量的曝光,也為用戶提供了更豐富的選型信息。
正如Chiang所言,希望將LMArena打造成一個人人都能參與、都能表達(dá)自己觀點(diǎn)的開放空間。
這里的一切都是社區(qū)機(jī)制來驅(qū)動,鼓勵大家提問和投票,表達(dá)自己對不同模型的評價。
對于大模型廠商來說,LMArena提供了一個很好的「照鏡子」的機(jī)會。
大模型廠商可以看清自己在所在領(lǐng)域的排行情況,以及獲得LMArena根據(jù)社區(qū)反饋提供的報告和分析,詳細(xì)評估自己模型的表現(xiàn),對癥下藥提升模型能力。
需要新的LLM基準(zhǔn)測試嗎?
當(dāng)所有模型,都非常接近基準(zhǔn)測試了,還需要新的基準(zhǔn)測試嗎?
Chiang認(rèn)為這一點(diǎn)是非常必要的。但是其中一個核心原則,是這些基準(zhǔn)要扎根于真實(shí)世界用例。
比如,能夠超越傳統(tǒng)的基準(zhǔn)測試,轉(zhuǎn)向更貼近真實(shí)用戶場景的基準(zhǔn)測試,尤其是善于使用AI工具完成任務(wù)的專業(yè)人士所驅(qū)動的基準(zhǔn)。
以LMArena最新推出的WebDev基準(zhǔn)測試為例,用戶可以用提示詞讓一個模型搭建網(wǎng)站。這種基準(zhǔn)測試,可以更好地將AI技術(shù)與真實(shí)世界用例緊密相連,使其更快在實(shí)際應(yīng)用場景落地。
針對MIT關(guān)于「大多數(shù)投資AI的公司都沒有看到投資回報」的報告,Chiang認(rèn)為這是一項(xiàng)很有意思的研究。
他認(rèn)為該研究反映了「將AI與真實(shí)世界用例緊密相連尤為重要」,這也正是他要將LMArena平臺擴(kuò)展到更多行業(yè)的原因。
希望通過更多扎根于真實(shí)用例的基準(zhǔn)測試,去彌合技術(shù)與實(shí)用場景的鴻溝,并為之提供可衡量的標(biāo)準(zhǔn)。
Chiang表示,LMArena的目標(biāo)是利用平臺數(shù)據(jù)來理解模型的局限性,保持?jǐn)?shù)據(jù)研究流程的透明,并將數(shù)據(jù)發(fā)布出來,以此推動社區(qū)平臺的持續(xù)建設(shè)。
對于大模型廠商和「用戶觀眾」來說,這里是一個永不落幕的競技場。
參考資料:
https://www.businessinsider.com/lmarena-cto-compare-ai-models-google-nano-banana-2025-9
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.