「納米香蕉」LMArena兩周500萬投票，引爆10倍流量！谷歌、OpenAI扎堆打擂臺

2025-09-04 17:38:36　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導(dǎo)讀】8月，nano?banana登頂LMArena文生圖像榜單，帶動LMArena社區(qū)流量暴增10倍，月活用戶300萬+。nano?banana在LMArena啟動盲測后，短短兩周便吸引了超過500萬次總投票，并單獨(dú)贏得了250萬+直接投票，創(chuàng)下歷史最高參與度。自2023年推出以來，LMArena已成為谷歌、OpenAI等AI大廠扎堆廝殺的競技場。

今年8月，一款名為「納米香蕉」的神秘AI圖像編輯器輕松登頂Image Edit Arena榜首，直接把LMArena8月份的平臺流量拉爆：

流量暴增10倍，月活300萬+。

該模型自在LMArena啟動盲測以來，短短兩周便吸引了超過500萬次總投票，并單獨(dú)贏得了250萬+直接投票，創(chuàng)下歷史最高參與度。

nano?banana的神秘身份，也在LMArena社區(qū)引發(fā)廣泛猜測。

在谷歌認(rèn)領(lǐng)「納米香蕉」，將其正式定名為Gemini 2.5 Flash Image之前，已不少網(wǎng)友猜到谷歌是Nano Banana的真正主人。

還有網(wǎng)友貼出了在LMArena上使用正版「納米香蕉」的方法，該方法不僅免費(fèi)，而且不需要登錄。

不僅能讓用戶「近距離」接觸各種最新模型，LMArena還為大模型比拼，提供了一個真實(shí)的「羅馬競技場」，它讓谷歌、OpenAI等公司的最新模型，在這里真刀真槍對決，接受成千上萬用戶的檢閱。

用戶的投票和反饋，決定了這些大模型的排名，也為大模型廠商迭代模型，提供了真實(shí)的用例數(shù)據(jù)，使他們能夠更加有的放矢地改進(jìn)模型。

nano?banana爆紅，讓LMArena流量狂漲10倍，據(jù)LMArena首席技術(shù)官Wei-Lin Chiang證實(shí)，該站月活躍用戶已超過300萬。

無論谷歌，還是LMArena都成為這場流量盛宴中的最大贏家。

從Chatbot Arena到LMArena

LMArena聯(lián)合創(chuàng)始人Wei-Lin Chiang和Anastasios Angelopoulos

LMArena前身叫Chatbot Arena，最初起源于2023年伯克利的一項(xiàng)研究項(xiàng)目，后來更名為LMArena。

Chatbot Arena像一個用戶社區(qū)評測中心，它改變了通過學(xué)科測試來評測AI技術(shù)的傳統(tǒng)方式，將評價權(quán)交給了社區(qū)用戶，并且采用匿名、眾包的成對比較，來評估大模型。

用戶還可以選擇模型進(jìn)行自我測試。

ChatGPT、Llama 1等大模型的發(fā)布，為Chatbot Arena的出現(xiàn)提供了一個契機(jī)。

因?yàn)?，?dāng)時人們還沒有一個評測大模型的有效方法，于是Chiang就與伯克利研究人員Anastasios Angelopoulos，以及Ion Stoica共同創(chuàng)辦了Chatbot Arena，也就是后來的LMArena。

他們的想法，是做一個以社區(qū)為中心的公開的、基于網(wǎng)絡(luò)的平臺，邀請所有人來參與評測。

很快，Chatbot Arena就引起了許多關(guān)注，成千上萬的人前來投票，他們就利用這些用戶投票數(shù)據(jù)，整理出了第一版排行榜。

最初上榜的，多是一些開源模型，唯一商用模型只有Claude和GPT。

隨著更多模型的不斷加入，Chatbot Arena的關(guān)注度也越來越高。各AI大廠紛紛請求將自己產(chǎn)品排名，并試圖登上這個排行榜的榜首。

Chatbot Arena的走紅，也讓眾多科技公司將之視為AI技術(shù)的風(fēng)向標(biāo)，他們像華爾街交易員盯盤一樣，密切關(guān)注著Chatbot Arena榜單的變化。

這一切都讓Meta AI產(chǎn)品管理總監(jiān)Joseph Spisak感到十分驚訝，他驚嘆于幾個學(xué)生竟能產(chǎn)生如此重大的影響力。

Chiang希望LMArena能夠成為一個對所有人都開放可及的平臺，希望更多的用戶來測試這些模型，表達(dá)他們的看法和偏好，以此幫助社區(qū)以及模型提供方，能夠更好地基于這些真實(shí)用例來評估AI。

正如Chiang所言，在LMArena社區(qū)中，最受歡迎、增長最快的模型，往往來自于真實(shí)場景中的用例。「納米香蕉」就是最成功的例子之一。

匿名登場和盲測機(jī)制，讓nano-banana在LMArena自然爆紅，當(dāng)時普通用戶無法手動挑選nano-banana，只有在 Battle里隨機(jī)遇到它，社區(qū)里大量帖子討論「刷很多局才等到香蕉」的體驗(yàn)。

目前，Gemini 2.5 Flash Image成為LMArena的「雙料冠軍」，獲得了Image Edit Arena、Text-to-Image兩個榜單的第一名。

從LMArena排名上，還可以看出各個領(lǐng)域表現(xiàn)最佳的模型。

比如，在編碼領(lǐng)域，Claude排名最佳。在創(chuàng)意領(lǐng)域，Gemini位居前列。

也許是Meta內(nèi)部AI團(tuán)隊(duì)調(diào)整的緣故，Chiang并沒有聽到太多Llama 4的消息。但他認(rèn)為Meta正在構(gòu)建的「全模型」，也許代表著未來行業(yè)的一大趨勢。

大模型廠商為何鐘情「屠榜」？

OpenAI、谷歌、Anthorpic等大模型廠商，為什么都喜歡將它們的模型放到LMArena等排行榜上？

是為了建立品牌曝光度，還是獲得用戶反饋來改進(jìn)他們的模型？

顯然，曝光與背書，是一個最直觀的短期效應(yīng)。

LMArena是業(yè)內(nèi)關(guān)注度最高的公開榜之一，累計(jì)投票已達(dá)數(shù)百萬次。而且科技媒體也喜歡頻繁引用LMArena的數(shù)據(jù)，這些都可以為大模型品牌帶來顯著的口碑與流量紅利。

其次，是更貼近「真實(shí)使用」的用戶反饋。

LMArena采用匿名、隨機(jī)配對的投票方式，并用Elo計(jì)分，這樣做減少了「品牌光環(huán)」「位置偏置」等主觀影響，能真實(shí)反映用戶對模型回答質(zhì)量的評價。

Elo系統(tǒng)最初用于國際象棋計(jì)分，也是LMArena排行榜背后的核心機(jī)制。在該規(guī)則下，每個選手（或模型）都有一個實(shí)力分?jǐn)?shù)（Elo 分），每場對戰(zhàn)后，會根據(jù)結(jié)果和預(yù)期，更新雙方的Elo分。

這讓每次用戶投票都成為一場對戰(zhàn)，模型Elo分經(jīng)過成千上萬次對戰(zhàn)收斂，排名就可以更真實(shí)地反映用戶偏好。

此外，LMArena提供了一個跨廠商、跨開源/閉源的同臺競技舞臺，這天然就會帶來更高流量的曝光，也為用戶提供了更豐富的選型信息。

正如Chiang所言，希望將LMArena打造成一個人人都能參與、都能表達(dá)自己觀點(diǎn)的開放空間。

這里的一切都是社區(qū)機(jī)制來驅(qū)動，鼓勵大家提問和投票，表達(dá)自己對不同模型的評價。

對于大模型廠商來說，LMArena提供了一個很好的「照鏡子」的機(jī)會。

大模型廠商可以看清自己在所在領(lǐng)域的排行情況，以及獲得LMArena根據(jù)社區(qū)反饋提供的報告和分析，詳細(xì)評估自己模型的表現(xiàn)，對癥下藥提升模型能力。

需要新的LLM基準(zhǔn)測試嗎？

當(dāng)所有模型，都非常接近基準(zhǔn)測試了，還需要新的基準(zhǔn)測試嗎？

Chiang認(rèn)為這一點(diǎn)是非常必要的。但是其中一個核心原則，是這些基準(zhǔn)要扎根于真實(shí)世界用例。

比如，能夠超越傳統(tǒng)的基準(zhǔn)測試，轉(zhuǎn)向更貼近真實(shí)用戶場景的基準(zhǔn)測試，尤其是善于使用AI工具完成任務(wù)的專業(yè)人士所驅(qū)動的基準(zhǔn)。

以LMArena最新推出的WebDev基準(zhǔn)測試為例，用戶可以用提示詞讓一個模型搭建網(wǎng)站。這種基準(zhǔn)測試，可以更好地將AI技術(shù)與真實(shí)世界用例緊密相連，使其更快在實(shí)際應(yīng)用場景落地。

針對MIT關(guān)于「大多數(shù)投資AI的公司都沒有看到投資回報」的報告，Chiang認(rèn)為這是一項(xiàng)很有意思的研究。

他認(rèn)為該研究反映了「將AI與真實(shí)世界用例緊密相連尤為重要」，這也正是他要將LMArena平臺擴(kuò)展到更多行業(yè)的原因。

希望通過更多扎根于真實(shí)用例的基準(zhǔn)測試，去彌合技術(shù)與實(shí)用場景的鴻溝，并為之提供可衡量的標(biāo)準(zhǔn)。

Chiang表示，LMArena的目標(biāo)是利用平臺數(shù)據(jù)來理解模型的局限性，保持?jǐn)?shù)據(jù)研究流程的透明，并將數(shù)據(jù)發(fā)布出來，以此推動社區(qū)平臺的持續(xù)建設(shè)。

對于大模型廠商和「用戶觀眾」來說，這里是一個永不落幕的競技場。

參考資料：

https://www.businessinsider.com/lmarena-cto-compare-ai-models-google-nano-banana-2025-9

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.