在信息過(guò)載的年代,播客的復(fù)興并非偶然。無(wú)論是通勤路上、健身房里,還是家務(wù)間隙,這種解放手眼的媒介,總能見縫插針地將知識(shí)與陪伴塞進(jìn)我們的碎片時(shí)間。它用一種更接近人類原始交流方式的語(yǔ)調(diào),將復(fù)雜議題娓娓道來(lái),降低了我們獲取新知的門檻。
但一個(gè)痛點(diǎn)隨之而來(lái):我們很難能找到一檔完全契合個(gè)人興趣,又能保持高質(zhì)量更新的播客。你可能想聽一篇深度分析中國(guó)新能源車市場(chǎng)的萬(wàn)字長(zhǎng)文,想消化一份晦澀的行業(yè)研究報(bào)告,或者干脆想把一篇心儀的英文報(bào)道當(dāng)成聽力材料——但在絕大多數(shù)情況下,這些內(nèi)容并沒有現(xiàn)成的音頻版本。
傳統(tǒng)的文本轉(zhuǎn)語(yǔ)音(TTS)工具是個(gè)備選,但那生硬、頓挫、毫無(wú)感情的機(jī)器聲,更像是在「念」,而非「講」,與其說(shuō)是陪伴,不如說(shuō)是一種聽覺上的折磨。
于是,一個(gè)清晰的需求浮現(xiàn)了:我們能否擁有一個(gè)工具,將任何我們想「聽」的文本,一鍵轉(zhuǎn)換成一檔制作精良、聽感自然的音頻?
現(xiàn)在,豆包的一項(xiàng)新功能就能滿足這樣的需求。6 月 17 日,豆包電腦版全量上線了「AI 播客」功能。根據(jù)官方說(shuō)明,用戶上傳 PDF 或網(wǎng)頁(yè)鏈接后,就能一鍵生成雙人對(duì)話的播客節(jié)目。這一功能基于豆包大模型團(tuán)隊(duì)推出的語(yǔ)音播客模型,承諾提供高度擬人、流暢自然的語(yǔ)音效果。
那么,這個(gè)功能的實(shí)際表現(xiàn)如何?它能否真正解決我們「聽文檔比啃文檔更省時(shí)間」的期待?讓我們一起來(lái)試試。
一篇文章到一檔節(jié)目,只需 10 秒
使用 AI 播客功能非常簡(jiǎn)單:在豆包電腦版輸入框下方的技能欄中選擇「AI 播客」(實(shí)測(cè)網(wǎng)頁(yè)版也已經(jīng)上線了,如果沒有直接顯示,點(diǎn)擊「更多」按鈕就能找到),然后粘貼鏈接或上傳 PDF,點(diǎn)擊「生成播客」即可。
操作中,我們首先注意到的是極快的生成速度:發(fā)送內(nèi)容之后點(diǎn)擊播放按鈕,僅僅十秒左右的時(shí)間就會(huì)有音頻開始傳出。實(shí)際上,完整的音頻是分段生成的,當(dāng)你開始播放開頭部分時(shí),后面的內(nèi)容還在持續(xù)生成中。通過(guò)這種有點(diǎn)像在線點(diǎn)播的緩沖機(jī)制,豆包的 AI 播客大大減少了用戶的等待時(shí)間,可以說(shuō)是一個(gè)非常聰明的交互優(yōu)化。
拆解聽感:AI 如何擺脫「機(jī)器味兒」?
我們挑選了少數(shù)派最近一篇非常受歡迎的文章《假期出門太折磨?我的 23 條經(jīng)驗(yàn)幫你規(guī)劃愜意旅行》做測(cè)試。原文有一萬(wàn)多字,要完整讀完是要花一些功夫的。豆包 AI 能否幫我們快速理解要點(diǎn)呢?
聽完這段 AI 生成的播客,再回頭去看那篇一萬(wàn)多字的原文章,我感覺還挺驚喜的。要把這么一篇內(nèi)容豐富、細(xì)節(jié)滿滿的長(zhǎng)文,濃縮成一段十幾分鐘的音頻,本身就是個(gè)挺大的挑戰(zhàn)。但豆包的 AI 生成效果,可以說(shuō)完成得很漂亮,不只是簡(jiǎn)單地念稿,而是真的把這篇文章給聊「活」了。
首先說(shuō)說(shuō)聽感,這段播客并不是簡(jiǎn)單地把文章從頭到尾讀出來(lái),而是做成了一段有來(lái)有往的男女主播對(duì)談。其中,一位主播負(fù)責(zé)提問,就像是替我們這些聽眾問出心里的好奇,比如「你是怎么用地圖找好吃的?」;另一位則扮演文章作者,娓娓道來(lái)地分享經(jīng)驗(yàn)。而且,音頻的開頭和結(jié)尾還有背景音樂和簡(jiǎn)單的開場(chǎng)白、結(jié)束語(yǔ),頗有「節(jié)目范兒」,經(jīng)常聽播客的朋友應(yīng)當(dāng)會(huì)感到很親切。
豆包 AI 播客的人聲應(yīng)當(dāng)也是經(jīng)過(guò)專門挑選的,流暢、自然,但又不刻意「字正腔圓」,正像是你預(yù)期兩位有經(jīng)驗(yàn)主播會(huì)有的嗓音。(如果你用過(guò)國(guó)外一些類似服務(wù),應(yīng)當(dāng)可以一耳朵聽出「地道中文」的優(yōu)勢(shì)。)還有許多小細(xì)節(jié),像「哎」「是是」這些不時(shí)插入的停頓、回應(yīng)和思考,這些用心處理讓播客徹底擺脫了「AI 朗讀」的影子,變成了一檔可以讓人放松下來(lái)、愉快收聽的節(jié)目。
耳聽為實(shí),下面是一段節(jié)選的音頻,你可以自己來(lái)感受一下:
當(dāng)然,既然是基于文章生成的播客,最關(guān)鍵的素質(zhì)還是要契合原文。這方面,豆包 AI 播客原文內(nèi)容的把握可以說(shuō)既準(zhǔn)確又全面。同時(shí),整個(gè)節(jié)目的節(jié)奏控制很好,聽著不累,要點(diǎn)也一個(gè)接一個(gè)地被自然地帶出來(lái),非常清晰。
我想用兩個(gè)例子來(lái)說(shuō)明。原文中,作者有一段關(guān)于「熱門景點(diǎn)」(有歷史、人文積淀或是自然瑰寶的景點(diǎn))和「網(wǎng)紅景點(diǎn)」(靠互聯(lián)網(wǎng)媒體宣傳而吸引游客)區(qū)別的論述,表示:
我通常會(huì)選擇錯(cuò)峰前往熱門景點(diǎn),同時(shí)避開網(wǎng)紅景點(diǎn)。[…] 我對(duì)網(wǎng)紅景點(diǎn)不感興趣,望而生畏的比肩接踵只是其中一個(gè)原因。網(wǎng)紅景點(diǎn)透露出來(lái)的那種蒼白廉價(jià)塑料一樣的速成文化感才是真的令我敬而遠(yuǎn)之的真正原因。
這很有說(shuō)服力,但表述有些冗長(zhǎng),直接念出來(lái)效果大概不會(huì)好。而豆包 AI 的演繹是:
主播 B(扮演作者):首先我們就不要去那些網(wǎng)紅景點(diǎn)。因?yàn)樗褪强炕ヂ?lián)網(wǎng)炒起來(lái)的一些東西,但是其實(shí)往往都是非常沒有內(nèi)涵的,然后你還要去人擠人,要被那種非常速成的文化所傷害。但是熱門景點(diǎn)就不一樣。熱門景點(diǎn)是經(jīng)過(guò)時(shí)間沉淀的,可能是有一些歷史文化或者是自然風(fēng)光非常獨(dú)特的地方——我們?yōu)槭裁炊嗖换〞r(shí)間去這些地方呢? 主播 A(扮演主持人):是的,聽起來(lái)就這個(gè)選擇確實(shí)會(huì)讓你的旅途質(zhì)量大大提升啊。
這樣,原文中的陳述就變成了一次發(fā)自內(nèi)心的觀點(diǎn)分享,最后的反問也更具感染力?!钢鞒秩恕沟幕?dòng)回復(fù)也很切題,落到了「提升旅途質(zhì)量」這個(gè)主題上。
當(dāng)硬核技術(shù)文檔遇上「聊天式教學(xué)」
除了日常生活話題,豆包 AI 也能將「硬核」的內(nèi)容變成更好消化的版本。例如,前不久,在剛剛結(jié)束不久的 WWDC25 開發(fā)者大會(huì)上,蘋果新發(fā)布的 Liquid Glass 界面設(shè)計(jì)風(fēng)格引起了很多關(guān)注,官方也發(fā)布了一則詳細(xì)的技術(shù)指南,指導(dǎo)開發(fā)者在應(yīng)用中采用這一新風(fēng)格。不過(guò),原文是全英文的,充滿了技術(shù)術(shù)語(yǔ)和代碼示例,閱讀起來(lái)有一定的門檻。
而將這篇文檔輸入豆包后,就像是你在旁邊聽兩個(gè)開發(fā)者聊天。一個(gè)扮演「小白」角色,問出了「那具體要怎么做呢?」「這個(gè)有什么要注意的嗎?」這類問題,帶著我們往下走;另一個(gè)則像個(gè)經(jīng)驗(yàn)豐富的前輩,娓娓道來(lái)。而且,AI 主播很聰明地把原文里那些又長(zhǎng)又繞的書面句子,都給掰碎了重組成簡(jiǎn)單的大白話。例如,原文中這樣有一段技術(shù)表達(dá):
Tab bars can help elevate the underlying content by receding when a person scrolls up or down. You can opt into this behavior and configure the tab bar to minimize when a person scrolls down or up […] .tabBarMinimizeBehavior(.onScrollDown)
在豆包 AI 的口中,就變成了:
同時(shí)你也可以通過(guò)一些代碼來(lái)控制 [你的標(biāo)簽欄],比如說(shuō)在 iOS 上面,是不是要在滾動(dòng)的時(shí)候自動(dòng)的隱藏之類的,讓你的這個(gè)導(dǎo)航體驗(yàn)更加流暢。
這里,豆包 AI 應(yīng)該是意識(shí)到,在播客里念出 API 的名字是毫無(wú)意義且非常奇怪的。聽眾既記不住,也無(wú)法直觀理解。所以它果斷放棄了對(duì)代碼本身的復(fù)述,重點(diǎn)是讓你知道有這么個(gè)解決方案,具體名詞留待具體使用時(shí)查閱即可。
同樣地,下面附上一段節(jié)選的音頻供你感受:
一切皆可聽
當(dāng)然,豆包 AI 播客還有很多可以發(fā)掘的場(chǎng)景。例如,學(xué)生和研究者們想必深有體會(huì),面對(duì)幾十頁(yè)的論文或厚重的專業(yè)教材,常常望而生畏?,F(xiàn)在,你可以把這些 PDF 喂給豆包,生成一期專屬的「知識(shí)解讀」播客。在通勤、運(yùn)動(dòng)時(shí)反復(fù)收聽,甚至利用遺忘曲線的原理加深記憶,學(xué)習(xí)效率或許能事半功倍。
又比如,傳統(tǒng)的英語(yǔ)聽力材料總是局限于課本對(duì)話或固定新聞。借助豆包 AI,你可以把你感興趣的任何英文文章,無(wú)論是 China Daily 的社論,還是 The Verge 的產(chǎn)品評(píng)測(cè),都轉(zhuǎn)成一檔地道的英文播客。這不僅能讓你沉浸在自己感興趣的內(nèi)容里,還能學(xué)習(xí)到最鮮活、最自然的語(yǔ)用和表達(dá)。
讓信息獲取融入自然交流
總的來(lái)說(shuō),這次豆包 AI 播客功能確實(shí)讓人眼前一亮。它不僅抓準(zhǔn)了原文的精華,還用一種很討巧、很舒服的對(duì)話方式把內(nèi)容呈現(xiàn)了出來(lái),聽起來(lái)既有料又不累,是一次相當(dāng)成功的嘗試。
從技術(shù)角度看,豆包的語(yǔ)音合成質(zhì)量和內(nèi)容理解能力都達(dá)到了相當(dāng)高的水準(zhǔn)。快速的生成速度、流暢的播放體驗(yàn),以及準(zhǔn)確的內(nèi)容把握,都體現(xiàn)了背后大模型的強(qiáng)大能力。
作為一個(gè)相對(duì)較新的功能,豆包 AI 播客也還有一些可以完善的地方。目前用戶還無(wú)法自定義提示詞來(lái)指導(dǎo)播客的生成風(fēng)格,AI 角色之間的互動(dòng)句式偶爾會(huì)顯得有些重復(fù),生成的音頻也暫時(shí)不支持下載保存。此外,對(duì)于一些特別專業(yè)或小眾的內(nèi)容,AI 的理解和演繹還有進(jìn)一步優(yōu)化的空間。
但這些都不影響豆包 AI 播客功能的整體價(jià)值。特別是在當(dāng)前「聽書」文化日漸興起的背景下,豆包這種將任意文本轉(zhuǎn)化為高質(zhì)量播客的能力,很可能會(huì)成為知識(shí)獲取和學(xué)習(xí)方式的一個(gè)重要補(bǔ)充。它讓我們看到了 AI 在內(nèi)容消費(fèi)領(lǐng)域的一種有實(shí)用價(jià)值的落地形態(tài):讓信息獲取,回歸到最舒適、最自然的交流狀態(tài)。
如果你也有大量的文檔需要消化,或者想要在碎片時(shí)間里更高效地獲取信息,不妨試試豆包的 AI 播客功能。相信你會(huì)和我一樣,對(duì)這種「讓文檔開口說(shuō)話」的體驗(yàn)感到驚喜。有的時(shí)候,聽,真的比讀更省時(shí)間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.