成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

你對抖音算法的理解,都是錯的

0
分享至


文 | 闌夕

抖音做了一件幾乎沒有其他國內(nèi)互聯(lián)網(wǎng)大廠會做的事情:在最大程度上,公開了抖音的算法規(guī)則。

被公開的那些信息有多詳細呢,從技術原理到具體模型,甚至是計算公式,全都圖文并茂的逐一做了解釋,足以作為一本入門級的科普讀物出版。

除了在已經(jīng)上線的「安全與信任中心」網(wǎng)站匯總之外,抖音還在北京辦了一場線下公開課,讓算法工程師擔當主講者,深入淺出的把所有細節(jié)又復盤了一遍。


抖音固然有它的壓力所在——算法因其黑箱性質(zhì)越來越從抗壓位向背鍋位轉(zhuǎn)移——但是為了打消社會疑慮,抖音能夠事無巨細的把算法攤開到這種地步,還是比較少見的。

而這逐字逐句的看完所有內(nèi)容之后,可以這么說,當前市面上絕大多數(shù)非技術類媒體所討論的算法問題,都是錯的。

這里的錯,首先指的不是主觀意義上的歪曲,而是過時。

比如很多文章都會寫到,短視頻平臺的推薦算法是在給內(nèi)容和用戶打標簽,然后去做相互匹配,這種甚囂塵上的說法甚至反過來指導了做號產(chǎn)業(yè),產(chǎn)生了很多教人在養(yǎng)號時怎么引導系統(tǒng)給自己打標簽的玄學。

但事實上,標簽機制是人工編輯時代的經(jīng)驗殘余,是讓算法模仿人類的糊涂做法,只有在非常早期的推薦算法里才有用過,當機器學習的技術成熟之后,依靠幾百個標簽去理解內(nèi)容的做法就完全被淘汰掉了。

這意味著,今時今日的算法不需要去懂內(nèi)容,這聽起來有些反直覺,它不懂內(nèi)容,怎么知道該把什么視頻推送給什么人呢?

答案是:基于特征向量的數(shù)學統(tǒng)計。

說人話就是,算法會圍繞用戶的反饋建模,有沒有點贊、看到了第幾秒、寫了什么評論、是否點開了作者主頁……等等,這些互動都會讓算法對一個用戶的了解逐漸加深,最終越來越準確的「預測」他會感興趣的下一條視頻。

機器學習領域的頂級專家吳恩達教授做過一個系列的「Machine Learning」課程,里面也講過機器學習對推薦算法的主要貢獻在于建立評分系統(tǒng),在海量算力和海量供給的環(huán)境里,可以無限接近給用戶推薦以他為標準的高評分內(nèi)容的目標。

在炙手可熱的大模型行業(yè),「預測」也是一個非常熟悉的運行原理,ChatBot對答如流背后,實際上是在不斷「預測」下一個Token,AI并不真的懂得它在說什么——所以才經(jīng)常有分辨不出9.11和9.8哪個數(shù)字更大的笑話——所有的輸出表達,其實都是以最大的概率把字詞組合在一起罷了。

至于為什么算法變成了包括抖音在內(nèi)的幾乎所有平臺都必須使用的分發(fā)技術,這還是和信息爆炸的環(huán)境有關。

根據(jù)IDC的報告顯示,全球每年產(chǎn)生的網(wǎng)絡數(shù)據(jù)量已經(jīng)達到了175ZB,如果把它理解為一部4K視頻,一個人需要花9億年的時間才能全部看完……這已完全超出了歷史上任何一個時代需要處理的信息體量。

抖音的算法工程師在公開課上也說得很直白,抖音每天新增視頻高達億數(shù)量級,而普通用戶平均每天能夠消費的視頻撐死了也就幾百條,那么在這有限的幾百條視頻里,怎么盡可能的確保它們都是用戶喜歡的,就是算法需要不斷精進的母題。

這里面有個非常生動的概念,叫作「召回」,目的是把數(shù)量級降低,從數(shù)以億計逐漸減少到數(shù)以萬計、數(shù)以千計,直到篩選出幾條用戶能夠刷到的內(nèi)容,一切都要依靠算法的「召回」能力。

吳軍博士在「數(shù)學之美」里講過一個類似的科普:

假如足球世界杯剛剛結(jié)束,我卻很不湊巧的錯過了所有比賽,于是問一個知道結(jié)果的球迷「哪支球隊是冠軍」,但他不愿意直接告訴我,而是讓我猜,每猜一次,他就要收一塊錢,并告訴我猜得是對還是錯,那么我需要掏多少錢才能知道世界杯冠軍呢?

直率的人可能已經(jīng)搶答了,世界杯總共有32支球隊,最保險的做法就是猜32次嘛,所以運氣不好的話,可能需要掏32塊錢才能得到答案。

但數(shù)學的「召回」方式是,把32支球隊編號,從1到32,然后提問「冠軍在1號到16號之中嗎」?如果猜對了,就繼續(xù)問「冠軍在1號到8號之中嗎?」如果猜錯了,那么我就會知道冠軍必然在9號到16號之間。如此一來,只需要5次,我就能知道哪支球隊奪冠了,而成本只需要5塊錢。

這就是數(shù)學模型的本事,它并不需要知道這32支球隊的強弱關系,卻能以低且簡潔的成本最大概率「召回」答案,對于通信、數(shù)據(jù)壓縮、自然語言處理都有很強的指導意義。

當然推薦算法要復雜得多,而且涉及到多種技術的組合作用,比如最經(jīng)典的協(xié)同過濾,張三和李四的點贊重疊度很高,那么就會多嘗試把李四喜歡而張三還沒有刷到的視頻推薦給張三,而在有了神經(jīng)網(wǎng)絡的加持之后,算法還能練就記憶和泛化兩大能力,挖掘用戶行為背后的深層意圖——可能連用戶自己都沒意識到的——然后去做更有想象力的擴圈推薦。

簡而言之,在這個高密度的數(shù)據(jù)化時代,「尿布與啤酒」的關聯(lián)神話早就過了版本,在計算資源的充分供應下,推薦算法的研究方向各有所長,但它們的共性在于,都不需要真的去學會像人類一樣感知情緒、畫面或是語義,而是越來越擅長把用戶行為抽象成數(shù)學里的映射關系,最終預判出哪些視頻會讓用戶做出愿意看完、點贊、收藏、推薦等等高滿意度的正反饋。

所以,只有在對算法有了這些最樸實的了解之后——既明白它的深厚之處,也看得出基礎性的常識——才會避免陷入動輒妖魔化算法的暴論陷阱。


最常見的誤解,有三種,首當其沖的就是大名鼎鼎的信息繭房。

去年在和人民大學新聞學院副教授董晨宇的一期連麥里,我們也談過信息繭房這個概念「中熱西冷」的古怪現(xiàn)象,雖然它確實是由西方學術界率先提出的,但因缺少實證支撐,熱度很快就退潮了,但是反而中國經(jīng)久不衰,CNKI里關于信息繭房的論文數(shù)量更是超過了1300篇。

無論是不是因為信息繭房以其生動形象的畫面感而激發(fā)了大眾的警惕性,真正的問題是,其實平臺根本不希望助長所謂的信息繭房,遑論主動制造信息繭房。

來自抖音的一手數(shù)據(jù)顯示,如果順著用戶的單一喜好去做推薦,很快就會拉低用戶的留存,相反,當內(nèi)容推送的多元化保持一段時間之后,用戶的活躍度卻有了長足的提升。

這意味著信息繭房和平臺利益本身都是相互沖突的,平臺非但不會放任信息繭房的存在,還有充足的動力去打破信息繭房,這對算法的挑戰(zhàn)在于「既要又要」:既要多給用戶推薦別處的風景,又要維持精確度的平衡,不能強行替用戶決定他該看什么、不該看什么。

算法和用戶之間有著長期磨合的關系,而抖音也為用戶設置了主動表達喜惡的入口,比如不感興趣這個信號會讓興趣退場——它代表著用戶極其強烈的負反饋——本質(zhì)上,用戶才是算法的主人,他們的一舉一動,無時不刻都在調(diào)較算法。

第二個廣泛的誤解,在于算法是流量至上的,可以輕易「造神」。

其實這類論調(diào)的持有者,大可以和那些經(jīng)常抱怨抖音規(guī)則嚴苛一言不合就封號的人打上一架……這種完全矛盾的兩種體感同時存在,正好就說明了,抖音是對純粹的算法有著干預護欄的。

不止是抖音,所有主流的內(nèi)容平臺都配備了機器+人工的雙重治理機制,機器負責寬度,對上億條新增內(nèi)容進行合規(guī)篩查,人工負責深度,對疑難內(nèi)容進行負荷,避免錯判和漏判,當然抖音因其規(guī)模之大,在這方面的投入只多不少。

也正是因為體量擺在那里,抖音確實能夠長出一茬茬的「爆款」網(wǎng)紅,但與其說是算法「推」出來的,不如說是用戶「選」出來的,若是沒有精準命中一次集體情緒,并引發(fā)大量用戶的行為反饋,平臺哪怕強推也是有心無力的。

最后一個誤解,是關于抖音會讓短且碎片化的視頻泛濫,對需要專注力的中長視頻不夠友好。

早期的抖音,受產(chǎn)品形態(tài)制約,或許是該接下這個指控,不過時至今日,抖音已經(jīng)是一個綜合化的內(nèi)容平臺了,去年站內(nèi)還產(chǎn)生了一條時長高達7個多小時的爆款視頻「450分鐘解讀紅樓夢」,足見供給和需求兩端都很旺盛。

這也不是說一切都是自然發(fā)生的,恰恰相反,為了鼓勵中長視頻的消費價值,抖音的運營在幕后做了很多工作,就像前面已經(jīng)說了,平臺想要強推,在效果上的收益非常低,所以單純的給所謂高質(zhì)量視頻「灌流量」是不可取的,平臺真正發(fā)力的點,在于更新算法。

還是拿「450分鐘解讀紅樓夢」為例,這樣長度的視頻,無論質(zhì)量多好,它在完播率這個指標上,必然處于絕對的劣勢,以致于連一般質(zhì)量的視頻都比不過,這會拖累算法對它的打分,但另一方面,「450分鐘解讀紅樓夢」的收藏率則相當亮眼,從比例上遠遠超過了其他視頻。

所以抖音的解決思路是,對多目標推薦系統(tǒng)做了徹底優(yōu)化,并將收藏按鈕放在了更突出的位置,由此顯著改善了中長視頻的分發(fā)效率,「450分鐘解讀紅樓夢」就是在新的算法模型下跑出來的最佳時間。

更直接的例證是,抖音還專門為中長視頻做了抖音精選的獨立App,開發(fā)、推廣和維護App都是需要投入資金的,如果不重視中長視頻的內(nèi)容,抖音何苦要花這些錢呢?

無論如何,抖音能把信息公開的主體責任落到實處,對所有人乃至整個行業(yè),都是大有裨益的,先有知情,才會知道,技術固然有門檻,但它從來不是洪水猛獸,也不必總是諱莫如深,打開天窗說亮話,永遠是值得鼓勵的。

抖音的算法其實沒什么神秘的獨家訣竅。在如今技術高度流通的大環(huán)境下,各大公司在推薦算法上的實力差距并不大,只是側(cè)重點有所不同。抖音的算法之所以備受熱議,一方面是由于它作為行業(yè)頭部平臺,必然會成為眾人關注的焦點;另一方面,抖音憑借豐富的數(shù)據(jù)資源,構(gòu)建起強大的數(shù)據(jù)飛輪,使得其推薦體驗相對更為出色。不過,為了消除外界對自身算法的誤解,抖音仍有必要持續(xù)發(fā)力。

對任何新興技術都是如此,毋須仰視,也不必無視,平視就好。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國人又要瘋了!Powerball彩票頭獎攀升至17億美元,全民購彩熱情再次涌現(xiàn)

美國人又要瘋了!Powerball彩票頭獎攀升至17億美元,全民購彩熱情再次涌現(xiàn)

大洛杉磯LA
2025-09-05 00:59:18
37歲王思聰在日本逛街買衣服,染了一頭棕發(fā),氣質(zhì)土俗不像有錢人

37歲王思聰在日本逛街買衣服,染了一頭棕發(fā),氣質(zhì)土俗不像有錢人

鑫鑫說說
2025-09-05 09:09:32
河南網(wǎng)友稱撿到閱兵鴿,放飛后遲遲不走,主人回應:緣分,送你吧

河南網(wǎng)友稱撿到閱兵鴿,放飛后遲遲不走,主人回應:緣分,送你吧

霽寒飄雪
2025-09-06 09:26:11
證券市場突發(fā)重要消息!9月6日,下周股市即將迎來新一輪行情?

證券市場突發(fā)重要消息!9月6日,下周股市即將迎來新一輪行情?

風口招財豬
2025-09-06 00:55:18
前所未有!美媒:特斯拉向馬斯克開出約1萬億美元薪酬方案

前所未有!美媒:特斯拉向馬斯克開出約1萬億美元薪酬方案

環(huán)球網(wǎng)資訊
2025-09-05 21:33:23
18歲姑娘為救八路戰(zhàn)士假扮其妻,43年后戰(zhàn)士已成將軍,提出倆要求

18歲姑娘為救八路戰(zhàn)士假扮其妻,43年后戰(zhàn)士已成將軍,提出倆要求

思雨憶史錄
2025-09-05 09:43:28
拉什福德表現(xiàn)太差,曝巴薩已考慮退貨!1月可賠430萬提前終結(jié)租借

拉什福德表現(xiàn)太差,曝巴薩已考慮退貨!1月可賠430萬提前終結(jié)租借

羅米的曼聯(lián)博客
2025-09-06 09:30:34
深圳準新娘獨游華山失蹤3天3夜,發(fā)現(xiàn)時已被塞入山洞

深圳準新娘獨游華山失蹤3天3夜,發(fā)現(xiàn)時已被塞入山洞

書畫藝術收藏
2025-09-05 19:30:05
宗慶后遺產(chǎn)案再曝猛料:三房管家貌不驚人,所生子竟由二房撫養(yǎng)?

宗慶后遺產(chǎn)案再曝猛料:三房管家貌不驚人,所生子竟由二房撫養(yǎng)?

甜菊汽水
2025-09-06 08:28:59
別熬夜了!牛津大學《自然》:只有睡好覺,才能拯救線粒體大危機

別熬夜了!牛津大學《自然》:只有睡好覺,才能拯救線粒體大危機

醫(yī)學新視點
2025-09-05 18:16:43
太嚇人!破紀錄!連續(xù)沖擊40℃!確定下周降溫,但馬上又有一波高溫反撲!

太嚇人!破紀錄!連續(xù)沖擊40℃!確定下周降溫,但馬上又有一波高溫反撲!

浙江天氣
2025-09-06 11:31:01
宮女奉命為乾隆洗龍溝,宮女無心一句建議,家族后代從此富貴不絕

宮女奉命為乾隆洗龍溝,宮女無心一句建議,家族后代從此富貴不絕

紅豆講堂
2025-08-27 13:40:08
菲軍主力艦撞癱了,仁愛礁112天沒補給:今天凌晨2點菲方展開行動

菲軍主力艦撞癱了,仁愛礁112天沒補給:今天凌晨2點菲方展開行動

松林看世界
2025-09-06 06:41:34
不是迷信!七月十五中元節(jié),記得:1不燒、2不曬、3不供、4不動

不是迷信!七月十五中元節(jié),記得:1不燒、2不曬、3不供、4不動

小嵩
2025-09-05 14:49:01
年薪17.8萬!成都一求職者失業(yè)34天被企業(yè)錄用,稱很糾結(jié)出差頻率

年薪17.8萬!成都一求職者失業(yè)34天被企業(yè)錄用,稱很糾結(jié)出差頻率

火山詩話
2025-09-04 18:30:27
詹姆斯:中國總是給我極大的尊重和愛 這大概不會是我最后一次來

詹姆斯:中國總是給我極大的尊重和愛 這大概不會是我最后一次來

直播吧
2025-09-06 06:43:02
楊蘭蘭被追加兩項指控,包括未向澳警方提供個人信息

楊蘭蘭被追加兩項指控,包括未向澳警方提供個人信息

吃瓜體
2025-09-05 11:46:56
拆家遼籃,小劉總卸任?新經(jīng)理或鎖定,38歲,人脈廣,或帶回艾倫

拆家遼籃,小劉總卸任?新經(jīng)理或鎖定,38歲,人脈廣,或帶回艾倫

東球弟
2025-09-06 11:20:06
上合組織峰會上,伊朗給中方出了個難題,請求中方提供全方位庇護

上合組織峰會上,伊朗給中方出了個難題,請求中方提供全方位庇護

通文知史
2025-09-02 18:45:03
澤連斯基大談中國,不出所料,全是一派胡言,特朗普要的就是這個

澤連斯基大談中國,不出所料,全是一派胡言,特朗普要的就是這個

boss外傳
2025-09-05 11:00:04
2025-09-06 13:24:49
闌夕 incentive-icons
闌夕
最具觀點的互聯(lián)網(wǎng)商業(yè)評論
2353文章數(shù) 73927關注度
往期回顧 全部

科技要聞

超1萬億參數(shù)!阿里最大最強模型免費上線

頭條要聞

面館推"茅臺配板面"套餐:點板面加38元喝一杯飛天茅臺

頭條要聞

面館推"茅臺配板面"套餐:點板面加38元喝一杯飛天茅臺

體育要聞

英國籃球,為什么那么菜?

娛樂要聞

易烊千璽被資本市場教育了

財經(jīng)要聞

原證監(jiān)會主席易會滿,被查

汽車要聞

科技加持 BMW R 1300 GS Adv依舊標桿實力

態(tài)度原創(chuàng)

本地
親子
房產(chǎn)
手機
公開課

本地新聞

食味印象 | 夜未央 在自由時光邂逅煙火氣

親子要聞

爸爸要親親寶寶,寶寶一臉嫌棄

房產(chǎn)要聞

實景驚艷+名校護航!這個項目,正在重新定義白云改善新高度!

手機要聞

三星首款三折疊開合操作動畫曝光,可調(diào)用后置攝像頭自拍

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版