成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

「納米香蕉」LMArena兩周500萬投票,引爆10倍流量!谷歌、OpenAI扎堆打擂臺

0
分享至


新智元報道

編輯:元宇

【新智元導(dǎo)讀】8月,nano?banana登頂LMArena文生圖像榜單,帶動LMArena社區(qū)流量暴增10倍,月活用戶300萬+。nano?banana在LMArena啟動盲測后,短短兩周便吸引了超過500萬次總投票,并單獨(dú)贏得了250萬+直接投票,創(chuàng)下歷史最高參與度。自2023年推出以來,LMArena已成為谷歌、OpenAI等AI大廠扎堆廝殺的競技場。

今年8月,一款名為「納米香蕉」的神秘AI圖像編輯器輕松登頂Image Edit Arena榜首,直接把LMArena8月份的平臺流量拉爆:

流量暴增10倍,月活300萬+。


該模型自在LMArena啟動盲測以來,短短兩周便吸引了超過500萬次總投票,并單獨(dú)贏得了250萬+直接投票,創(chuàng)下歷史最高參與度。


nano?banana的神秘身份,也在LMArena社區(qū)引發(fā)廣泛猜測。

在谷歌認(rèn)領(lǐng)「納米香蕉」,將其正式定名為Gemini 2.5 Flash Image之前,已不少網(wǎng)友猜到谷歌是Nano Banana的真正主人。



還有網(wǎng)友貼出了在LMArena上使用正版「納米香蕉」的方法,該方法不僅免費(fèi),而且不需要登錄。


不僅能讓用戶「近距離」接觸各種最新模型,LMArena還為大模型比拼,提供了一個真實(shí)的「羅馬競技場」,它讓谷歌、OpenAI等公司的最新模型,在這里真刀真槍對決,接受成千上萬用戶的檢閱。

用戶的投票和反饋,決定了這些大模型的排名,也為大模型廠商迭代模型,提供了真實(shí)的用例數(shù)據(jù),使他們能夠更加有的放矢地改進(jìn)模型。

nano?banana爆紅,讓LMArena流量狂漲10倍,據(jù)LMArena首席技術(shù)官Wei-Lin Chiang證實(shí),該站月活躍用戶已超過300萬。

無論谷歌,還是LMArena都成為這場流量盛宴中的最大贏家。

從Chatbot Arena到LMArena


LMArena聯(lián)合創(chuàng)始人Wei-Lin Chiang和Anastasios Angelopoulos

LMArena前身叫Chatbot Arena,最初起源于2023年伯克利的一項(xiàng)研究項(xiàng)目,后來更名為LMArena。

Chatbot Arena像一個用戶社區(qū)評測中心,它改變了通過學(xué)科測試來評測AI技術(shù)的傳統(tǒng)方式,將評價權(quán)交給了社區(qū)用戶,并且采用匿名、眾包的成對比較,來評估大模型。

用戶還可以選擇模型進(jìn)行自我測試。

ChatGPT、Llama 1等大模型的發(fā)布,為Chatbot Arena的出現(xiàn)提供了一個契機(jī)。

因?yàn)?,?dāng)時人們還沒有一個評測大模型的有效方法,于是Chiang就與伯克利研究人員Anastasios Angelopoulos,以及Ion Stoica共同創(chuàng)辦了Chatbot Arena,也就是后來的LMArena。


他們的想法,是做一個以社區(qū)為中心的公開的、基于網(wǎng)絡(luò)的平臺,邀請所有人來參與評測。

很快,Chatbot Arena就引起了許多關(guān)注,成千上萬的人前來投票,他們就利用這些用戶投票數(shù)據(jù),整理出了第一版排行榜。

最初上榜的,多是一些開源模型,唯一商用模型只有Claude和GPT。

隨著更多模型的不斷加入,Chatbot Arena的關(guān)注度也越來越高。各AI大廠紛紛請求將自己產(chǎn)品排名,并試圖登上這個排行榜的榜首。

Chatbot Arena的走紅,也讓眾多科技公司將之視為AI技術(shù)的風(fēng)向標(biāo),他們像華爾街交易員盯盤一樣,密切關(guān)注著Chatbot Arena榜單的變化。

這一切都讓Meta AI產(chǎn)品管理總監(jiān)Joseph Spisak感到十分驚訝,他驚嘆于幾個學(xué)生竟能產(chǎn)生如此重大的影響力。

Chiang希望LMArena能夠成為一個對所有人都開放可及的平臺,希望更多的用戶來測試這些模型,表達(dá)他們的看法和偏好,以此幫助社區(qū)以及模型提供方,能夠更好地基于這些真實(shí)用例來評估AI。

正如Chiang所言,在LMArena社區(qū)中,最受歡迎、增長最快的模型,往往來自于真實(shí)場景中的用例。「納米香蕉」就是最成功的例子之一。

匿名登場和盲測機(jī)制,讓nano-banana在LMArena自然爆紅,當(dāng)時普通用戶無法手動挑選nano-banana,只有在 Battle里隨機(jī)遇到它,社區(qū)里大量帖子討論「刷很多局才等到香蕉」的體驗(yàn)。

目前,Gemini 2.5 Flash Image成為LMArena的「雙料冠軍」,獲得了Image Edit Arena、Text-to-Image兩個榜單的第一名。



從LMArena排名上,還可以看出各個領(lǐng)域表現(xiàn)最佳的模型。

比如,在編碼領(lǐng)域,Claude排名最佳。在創(chuàng)意領(lǐng)域,Gemini位居前列。

也許是Meta內(nèi)部AI團(tuán)隊(duì)調(diào)整的緣故,Chiang并沒有聽到太多Llama 4的消息。但他認(rèn)為Meta正在構(gòu)建的「全模型」,也許代表著未來行業(yè)的一大趨勢。

大模型廠商為何鐘情「屠榜」?

OpenAI、谷歌、Anthorpic等大模型廠商,為什么都喜歡將它們的模型放到LMArena等排行榜上?

是為了建立品牌曝光度,還是獲得用戶反饋來改進(jìn)他們的模型?

顯然,曝光與背書,是一個最直觀的短期效應(yīng)。

LMArena是業(yè)內(nèi)關(guān)注度最高的公開榜之一,累計(jì)投票已達(dá)數(shù)百萬次。而且科技媒體也喜歡頻繁引用LMArena的數(shù)據(jù),這些都可以為大模型品牌帶來顯著的口碑與流量紅利。

其次,是更貼近「真實(shí)使用」的用戶反饋。

LMArena采用匿名、隨機(jī)配對的投票方式,并用Elo計(jì)分,這樣做減少了「品牌光環(huán)」「位置偏置」等主觀影響,能真實(shí)反映用戶對模型回答質(zhì)量的評價。

Elo系統(tǒng)最初用于國際象棋計(jì)分,也是LMArena排行榜背后的核心機(jī)制。在該規(guī)則下,每個選手(或模型)都有一個實(shí)力分?jǐn)?shù)(Elo 分),每場對戰(zhàn)后,會根據(jù)結(jié)果和預(yù)期,更新雙方的Elo分。

這讓每次用戶投票都成為一場對戰(zhàn),模型Elo分經(jīng)過成千上萬次對戰(zhàn)收斂,排名就可以更真實(shí)地反映用戶偏好。

此外,LMArena提供了一個跨廠商、跨開源/閉源的同臺競技舞臺,這天然就會帶來更高流量的曝光,也為用戶提供了更豐富的選型信息。

正如Chiang所言,希望將LMArena打造成一個人人都能參與、都能表達(dá)自己觀點(diǎn)的開放空間。

這里的一切都是社區(qū)機(jī)制來驅(qū)動,鼓勵大家提問和投票,表達(dá)自己對不同模型的評價。

對于大模型廠商來說,LMArena提供了一個很好的「照鏡子」的機(jī)會。

大模型廠商可以看清自己在所在領(lǐng)域的排行情況,以及獲得LMArena根據(jù)社區(qū)反饋提供的報告和分析,詳細(xì)評估自己模型的表現(xiàn),對癥下藥提升模型能力。

需要新的LLM基準(zhǔn)測試嗎?

當(dāng)所有模型,都非常接近基準(zhǔn)測試了,還需要新的基準(zhǔn)測試嗎?

Chiang認(rèn)為這一點(diǎn)是非常必要的。但是其中一個核心原則,是這些基準(zhǔn)要扎根于真實(shí)世界用例。

比如,能夠超越傳統(tǒng)的基準(zhǔn)測試,轉(zhuǎn)向更貼近真實(shí)用戶場景的基準(zhǔn)測試,尤其是善于使用AI工具完成任務(wù)的專業(yè)人士所驅(qū)動的基準(zhǔn)。

以LMArena最新推出的WebDev基準(zhǔn)測試為例,用戶可以用提示詞讓一個模型搭建網(wǎng)站。這種基準(zhǔn)測試,可以更好地將AI技術(shù)與真實(shí)世界用例緊密相連,使其更快在實(shí)際應(yīng)用場景落地。

針對MIT關(guān)于「大多數(shù)投資AI的公司都沒有看到投資回報」的報告,Chiang認(rèn)為這是一項(xiàng)很有意思的研究。

他認(rèn)為該研究反映了「將AI與真實(shí)世界用例緊密相連尤為重要」,這也正是他要將LMArena平臺擴(kuò)展到更多行業(yè)的原因。

希望通過更多扎根于真實(shí)用例的基準(zhǔn)測試,去彌合技術(shù)與實(shí)用場景的鴻溝,并為之提供可衡量的標(biāo)準(zhǔn)。

Chiang表示,LMArena的目標(biāo)是利用平臺數(shù)據(jù)來理解模型的局限性,保持?jǐn)?shù)據(jù)研究流程的透明,并將數(shù)據(jù)發(fā)布出來,以此推動社區(qū)平臺的持續(xù)建設(shè)。

對于大模型廠商和「用戶觀眾」來說,這里是一個永不落幕的競技場。

參考資料:

https://www.businessinsider.com/lmarena-cto-compare-ai-models-google-nano-banana-2025-9


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
難以置信!東莞靠近市中心的村停止圍村收費(fèi),交了月租的也可退費(fèi)

難以置信!東莞靠近市中心的村停止圍村收費(fèi),交了月租的也可退費(fèi)

火山詩話
2025-09-04 07:10:01
宋楚瑜談九三閱兵感慨:沒人可以再欺負(fù)中華民族

宋楚瑜談九三閱兵感慨:沒人可以再欺負(fù)中華民族

看看新聞Knews
2025-09-04 01:35:05
華為正式官宣:4款新機(jī),9月4日,重磅發(fā)布!

華為正式官宣:4款新機(jī),9月4日,重磅發(fā)布!

科技堡壘
2025-09-03 11:07:12
父母給房別直接過戶,這種方法省錢省心幾百塊搞定,很多人不知道

父母給房別直接過戶,這種方法省錢省心幾百塊搞定,很多人不知道

詩意世界
2025-08-30 10:20:18
吃他汀不能碰雞蛋?醫(yī)生直言:不只是雞蛋,這6物再饞也要忌嘴

吃他汀不能碰雞蛋?醫(yī)生直言:不只是雞蛋,這6物再饞也要忌嘴

新時代的兩性情感
2025-09-03 13:48:46
底線10-0!中國男足戰(zhàn)世界魚腩,劍指2連勝,宋凱督戰(zhàn),CCTV5直播

底線10-0!中國男足戰(zhàn)世界魚腩,劍指2連勝,宋凱督戰(zhàn),CCTV5直播

侃球熊弟
2025-09-04 23:50:22
金佑景:與李雪主競爭嫁金家失敗,后奉命成張成澤情婦,臥底監(jiān)視

金佑景:與李雪主競爭嫁金家失敗,后奉命成張成澤情婦,臥底監(jiān)視

阿胡
2024-05-09 11:27:39
赫拉芬貝赫:作為荷蘭我們不該踢成這樣,雖然沒輸?shù)杏X像輸了

赫拉芬貝赫:作為荷蘭我們不該踢成這樣,雖然沒輸?shù)杏X像輸了

直播吧
2025-09-05 07:34:09
看來是天要亡你

看來是天要亡你

我是歷史其實(shí)挺有趣
2025-09-03 09:01:25
世錦賽四強(qiáng)出爐!土耳其創(chuàng)歷史,送中國女排大禮,意大利勢不可當(dāng)

世錦賽四強(qiáng)出爐!土耳其創(chuàng)歷史,送中國女排大禮,意大利勢不可當(dāng)

跑者排球視角
2025-09-05 00:22:25
丟球權(quán)后與人吵架不回防!利物浦1.4億歐巨星回國也挨批:太散漫

丟球權(quán)后與人吵架不回防!利物浦1.4億歐巨星回國也挨批:太散漫

風(fēng)過鄉(xiāng)
2025-09-05 07:12:56
蘇州市一棟獨(dú)棟大別墅762萬起被拍賣,30人加價221次后2529萬成交

蘇州市一棟獨(dú)棟大別墅762萬起被拍賣,30人加價221次后2529萬成交

天天話事
2025-09-03 20:24:18
賴清德稱“臺灣不歸中國”!蔣萬安亮明立場:反對“一國兩制”

賴清德稱“臺灣不歸中國”!蔣萬安亮明立場:反對“一國兩制”

天行艦
2025-09-05 00:00:09
消息稱比亞迪下調(diào)2025年銷量目標(biāo)至460萬輛,面臨五年來最慢增長

消息稱比亞迪下調(diào)2025年銷量目標(biāo)至460萬輛,面臨五年來最慢增長

IT之家
2025-09-04 19:21:13
福建一鋼鐵廠坍塌事故調(diào)查:3人遇難,3人涉嫌重大責(zé)任事故罪,17名有關(guān)公職人員被處理

福建一鋼鐵廠坍塌事故調(diào)查:3人遇難,3人涉嫌重大責(zé)任事故罪,17名有關(guān)公職人員被處理

大象新聞
2025-09-05 00:15:21
下半年家電廠商的難關(guān):拼價格沒利潤,保品質(zhì)丟訂單

下半年家電廠商的難關(guān):拼價格沒利潤,保品質(zhì)丟訂單

家電圈
2025-09-03 20:23:51
民進(jìn)黨立委發(fā)狠話:等洪秀柱回來就抓!國名黨頭頭怕的悶頭不吭聲

民進(jìn)黨立委發(fā)狠話:等洪秀柱回來就抓!國名黨頭頭怕的悶頭不吭聲

大道無形我有型
2025-09-04 11:17:55
“去中國化”最徹底的4個國家,有一個已經(jīng)完全西化了

“去中國化”最徹底的4個國家,有一個已經(jīng)完全西化了

南宗歷史
2025-08-27 17:27:25
波切蒂諾:西班牙人比巴薩更能代表加泰羅尼亞 我永不執(zhí)教巴薩

波切蒂諾:西班牙人比巴薩更能代表加泰羅尼亞 我永不執(zhí)教巴薩

直播吧
2025-09-04 14:24:16
九三閱兵結(jié)束后的“小意外”!信鴿走失幾十只,北京網(wǎng)友開啟偶遇

九三閱兵結(jié)束后的“小意外”!信鴿走失幾十只,北京網(wǎng)友開啟偶遇

攬星河的筆記
2025-09-04 21:44:20
2025-09-05 07:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13386文章數(shù) 66143關(guān)注度
往期回顧 全部

科技要聞

華為新三折疊起售價降2000元 門店排起長龍

頭條要聞

媒體:九三閱兵展示新裝備 西方破防到"拒絕接受現(xiàn)實(shí)"

頭條要聞

媒體:九三閱兵展示新裝備 西方破防到"拒絕接受現(xiàn)實(shí)"

體育要聞

這個中國人,和楊瀚森一起進(jìn)了《NBA2K26》

娛樂要聞

墻倒眾人推!胡歌張譯的仇終于有人報

財(cái)經(jīng)要聞

A股久違的深跌出現(xiàn)了 下一步思路是什么

汽車要聞

對話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

家居
藝術(shù)
旅游
數(shù)碼
公開課

家居要聞

高級黑白 體現(xiàn)簡單生活

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數(shù)碼要聞

三星Galaxy Tab S11 Ultra發(fā)布:天璣9400+平板售價8999元起

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版