文|光錐智能 周文斌
“風雪夜歸人”,憑這樣一句話,畫一幅水彩或者油畫,需要多長時間?
熟練的畫手可能需要幾個小時,但AI只需要幾分鐘,甚至幾十秒。
將一篇3000字左右的文章錄制成音頻需要多長時間?
經(jīng)驗豐富的播音員一次過大概需要15分鐘,但通過AI文字轉(zhuǎn)語音只需要一分鐘,而且情感充沛。
近期,AI繪畫再次爆火,其快速的成長速度,超高的“工作效率”都令人吃驚。而以AI繪畫為代表,如今也確實有越來越多的行業(yè)開始通過技術(shù)手段來改變傳統(tǒng)的生產(chǎn)結(jié)構(gòu)和商業(yè)模式。
圖:ChatGPT編寫的代碼
比如在音頻創(chuàng)作領(lǐng)域,喜馬拉雅近期公布的一則數(shù)據(jù)顯示,其用單田芳AI合成音制作的TTS(語音合成)專輯總播放量已經(jīng)破億。這一數(shù)據(jù),喻示著在喜馬拉雅“UGC+PGC+PUGC”內(nèi)容生態(tài)之外,又多了一個AIGC的內(nèi)容生態(tài)。
事實上,音頻行業(yè)其實一直存在著許多問題,比如單個創(chuàng)作者創(chuàng)作形式單一、生產(chǎn)周期長、內(nèi)容成本高等等。而為了突破這些問題,音頻行業(yè)一直也都在做各種嘗試。
比如,喜馬拉雅最近上線了喜韻音坊創(chuàng)作者平臺,試圖用AI為創(chuàng)作者賦能的方式,以技術(shù)手段來解決行業(yè)沉疴。恰好也是今年,喜馬拉雅的兩項智能語音技術(shù)相關(guān)論文被2022年國際音頻、語音與信號處理會議(ICASSP)收錄。
喜馬拉雅創(chuàng)始人兼CEO余建軍之前也提過,喜馬拉雅是一家科技驅(qū)動的內(nèi)容公司,科技是手段,文化是目的。
那么,在這次喜馬拉雅以通過科技賦能文化的過程中,又是如何改變音頻行業(yè)的呢?
01 配音小說用AI工具一天更新上百集
“以前從來沒有想過,音頻節(jié)目可以一天更新上百集!边@是喜馬拉雅的音頻主播“CV千索”用過喜韻音坊之后的感嘆。
喜韻音坊,喜馬拉雅近期上的一個創(chuàng)作者平臺,它通過TTS技術(shù)幫助主播實現(xiàn)與AI共同創(chuàng)作音頻節(jié)目!癈V千索”就是通過這項技術(shù)在喜馬拉雅上創(chuàng)作了有聲書《史上最強撿漏王》,上線一個多月,播放量已經(jīng)超過300萬。
工欲善其事必先利其器,創(chuàng)作者有了AI工具,就可以大幅提升創(chuàng)作效率,進而提升收益。
但要打造一個好工具也并非易事,喜韻音坊對于喜馬拉雅來說,就如同剪映之于抖音,但音頻制作本身又有不同的技術(shù)難點。
“TTS”是將輸入的文本轉(zhuǎn)換為語音的技術(shù)統(tǒng)稱,在許多場景中都有應用。但在不少場景中,比如在電話客服、機器人等身上,經(jīng)常會有冷冰冰的“機器音”讓人非!俺鰬颉。
但在音頻節(jié)目中,我們需要聲音有情緒、有溫度:聽童話故事的時候,聲音俏皮可愛;講軍旅故事的聲音,鏗鏘有力;聽歷史故事,又需要它深沉雄渾。
“TTS音色演繹小說非常難,需要學習小說中的抑揚頓挫、情感表達、上下文關(guān)系,區(qū)分旁白和對白,并最終將作品完美演繹出來!毕柴R拉雅智能語音實驗室的盧恒博士表示。
因此,如何讓AI理解文本的語境,然后選擇適合的音色,甚至根據(jù)文本的情緒隨時轉(zhuǎn)換聲音,就是TTS針對特定場景進行應用時遇到的最大難點。
比如以喜馬拉雅復刻的單田芳先生的聲音為例,評書通常韻律起伏變化大,再加許多發(fā)音有自己獨特的特點,比如“這個”中的“這”字,普通話發(fā)音“zhè”,但在評書中通常讀為“zhèi”。
這種情況,如果僅靠當前主流的TTS框架模型做提取和合成,合成評書最終的整體感情和情緒都會很平淡,沒有了原作的跌宕起伏。
為此,喜馬拉雅智能語音實驗室自主設(shè)計了單獨的韻律提取模塊,并將其融入到HiTTS技術(shù)框架中。而針對單老評書中區(qū)別于標準普通話的發(fā)音,團隊還設(shè)計了口音模塊對這些特殊發(fā)音進行標注,使得AI合成音能夠原汁原味地還原出老味道。
由于技術(shù)上的創(chuàng)新,喜馬拉雅用TTS合成語音所制作的AIGC專輯幾乎能夠以假亂真。已經(jīng)在使用喜馬拉雅TTS錄制節(jié)目的《厲少的重生小甜妻》主播清月古箏表示:“最終的效果不錯,有人甚至沒聽出來是AI演播的,還有人問男主的配音是誰。”
如今,喜馬拉雅多情感、多風格、多語種聲音的TTS技術(shù)模型已經(jīng)廣泛被運用于評書、新聞、小說、財經(jīng)等多種類型AIGC內(nèi)容的制作中。
除了HiTTS技術(shù)在聲音韻律上的優(yōu)化之外,跨語言語音合成在TTS中也非常重要,畢竟僅在中國境內(nèi)就有129種語言,七大方言。
跨語言語音合成技術(shù)就是讓一種聲音能夠說兩種不同的語言(方言)。比如用迪麗熱巴的聲音講四川話,或者用李現(xiàn)的聲音講山東話。這項技術(shù)的難點在于,我們很多時候可能只有李現(xiàn)和迪麗熱巴講普通話的聲音,這個時候就需要讓AI學會說方言(或其他語言)。
但在傳統(tǒng)的訓練方式中,這一過程其實存在一些bug,比如方言學不好或者沒學會,還連累原來的普通話也講不好了,變成了“邯鄲學步”。
為了解決這一問題,喜馬拉雅自研了一套新的訓練方法,讓模型能夠接受所有音色和語言的組合的訓練,就是跨語言語音合成技術(shù),其研究論文也被2022年國際音頻、語音與信號處理會議(ICASSP)收錄。
除了用TTS實現(xiàn)文字轉(zhuǎn)語音,音頻中也少不了語音轉(zhuǎn)文字的技術(shù)——ASR。
此前,許多音頻節(jié)目并不會匹配文本,就像聽歌沒有歌詞,如果聽不清,你就真不知道它講的啥。
為了解決這一問題,喜馬拉雅以ASR和另一項可以將超長音頻與文本進行對齊的算法為核心,推出了AI文稿功能。它能夠識別無文稿聲音的內(nèi)容,為其自動生成文稿,從而便于聽眾更好地理解聲音內(nèi)容。
而對于已經(jīng)有文稿的聲音內(nèi)容,AI文稿又能夠?qū)⒙曇襞c文稿進行時間戳對軌,在聲音播放的同時,對相應文字進行同步高亮,讓用戶能更便捷地享受邊聽邊看的內(nèi)容消費體驗。
近期,喜馬拉雅的ASR技術(shù)(自動語音識別技術(shù))也在國內(nèi)權(quán)威行業(yè)公開評測項目Speec
hIO TIOBE第三季度的評測中以2.16%的超低錯誤率榮獲冠軍。
總之,隨著AI技術(shù)對特定場景理解的不斷加深,喜馬拉雅將帶動音頻行業(yè)的生產(chǎn)方式、內(nèi)容結(jié)構(gòu)和商業(yè)效率產(chǎn)生質(zhì)的變化。
02 再做一遍音頻生意
傳統(tǒng)的音頻行業(yè),并不是一門好生意。中國并沒有誕生如播客一樣的付費潮,于是各個玩家都在尋找利潤更高的“好生意”。
比如之前同樣做音頻的荔枝FM,現(xiàn)在的重心就已經(jīng)轉(zhuǎn)到了更容易盈利的直播業(yè)務上。今年二季度,其營收中虛擬禮物即相關(guān)的收入占比已經(jīng)超過了99%。除此之外,幾乎所有在線音頻玩家,都曾嘗試Clubhouse的聊天室模式。甚至從2017年開始,喜馬拉雅還在智能家居、智能音箱、汽車座艙等多種生態(tài)渠道布局,試圖擴大渠道來打開更多的市場。
對于音頻行業(yè)來說,這些探索固然不錯,但在線音頻本質(zhì)上仍然是內(nèi)容行業(yè),真正吸引用戶使用、付費,甚至吸引廣告主的,最終還是基于內(nèi)容的體驗。
正如信息流技術(shù)改變了圖文、視頻的新媒體傳播邏輯,誕生了字節(jié)跳動這樣的新巨頭,進而在電商、本地生活上都展現(xiàn)出巨大的顛覆式玩法。
AIGC、TTS、ASR等AI技術(shù)在音頻行業(yè)的突破式進展,也將讓這個行業(yè)迸發(fā)出一種新活力。
在傳統(tǒng)在線音頻行業(yè)中,內(nèi)容結(jié)構(gòu)以及隨之而來的內(nèi)容成本一直是阻礙平臺盈利的一個重要原因。
經(jīng)過這么多年的發(fā)展,目前在線音頻行業(yè)已經(jīng)有了非常穩(wěn)定的內(nèi)容生產(chǎn)結(jié)構(gòu)。以喜馬拉雅為例,其采用的“PGC+PUGC+UGC”的內(nèi)容結(jié)構(gòu)像金字塔一樣搭建而成,其中UGC作為金字塔的底座,是用戶消費最多的部分,其收聽時長在2021年整個平臺收聽時長中占了45.3%。
圖:招股書中喜馬拉雅PGC、PUGC、UGC內(nèi)容占比
但同時,喜馬拉雅與生產(chǎn)內(nèi)容的創(chuàng)作者之間采用的收入分成的利潤分配方式,這直接導致了這些年來喜馬拉雅的內(nèi)容成本一直居高不下。比如2020年和2021年,喜馬拉雅給內(nèi)容創(chuàng)作者的分成分別是13億和16億,占總營收比例分別為31.9%與27.3%。
但在內(nèi)容創(chuàng)作中引進AI技術(shù)之后,這一狀態(tài)有望改變。
首先,通過AI技術(shù),創(chuàng)作者將大幅提升內(nèi)容的生產(chǎn)效率,從而讓內(nèi)容規(guī)模也獲得指數(shù)級增長。
以音頻里的新聞播報為例,通過TTS,新京報、環(huán)球時報、時代周報等為代表的數(shù)十家主流媒體就在喜馬拉雅上線了超過40張AIGC音頻專輯,他們?nèi)站a(chǎn)約500條聲音。
據(jù)介紹,目前喜馬拉雅新聞TTS每分鐘內(nèi)能轉(zhuǎn)化約3000字左右,這種效率是人類主播不敢想象的!秴柹俚闹厣√鹌蕖分鞑デ逶鹿殴~就表示,喜韻音坊節(jié)省了她的錄制成本,讓她可以在同樣的時間里大大提高出音量。
圖:AI電子書《厲少的重生小甜妻》 收聽27.4W
其次,平臺也會通過AIGC大量生成內(nèi)容。目前,喜馬拉雅“單田芳聲音重現(xiàn)”等賬號下上線的運用單田芳AI合成音所制作的專輯數(shù)量已經(jīng)有100多張,總播放量超過1億。除此之外,喜馬拉雅還與近百家網(wǎng)絡平臺和出版機構(gòu)合作,上線了近6萬本電子書,然后通過TTS技術(shù)為這些電子書實時生成TTS聲音。
今年7月,百度創(chuàng)始人李彥宏認為,“未來十年,AIGC將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式?梢詫崿F(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容!
招股書顯示,從2019年到2021年,喜馬拉雅的毛利率已經(jīng)從44.5%提高到了54%。
可以預見,隨著AIGC內(nèi)容規(guī)模的不斷擴大,也將再大幅降低音頻平臺的平均內(nèi)容成本。
除此之外,技術(shù)的引入還將豐富音頻內(nèi)容的質(zhì)量。
音頻行業(yè)里,除了少部分專業(yè)團隊之外,大部分內(nèi)容創(chuàng)作者都是“單兵作戰(zhàn)”,一個人、一支麥。這也導致他們在內(nèi)容創(chuàng)作的時候只能選擇演繹單播作品,這極大的限制了聲音內(nèi)容的變現(xiàn)力。
而在喜馬拉雅喜韻音坊基于TTS技術(shù)開發(fā)的AIGC多播功能上線之后,主播可以與AI合作,輕易實現(xiàn)不同聲音與不同角色、情感的匹配,讓單個主播也能演繹多播作品。
“現(xiàn)在喜韻音坊已經(jīng)有公子音、御姐音、師傅音、媽媽音等各種音色,而且它還賦予了這些人物不同的情緒,能夠自如表達悲傷、憤怒、厭惡、欽佩等等各種復雜的人類情感,可以滿足小說中各個角色的切換!薄段以谙山缣詮U品》的主播“DJ老趙”表示:“借助這個功能,可以快速實現(xiàn)由單播到多播”。
之前聽眾在聽書的時候只能聽到一個人一種聲音,如今聽書的時候,有幾個角色就有幾種不同的聲音,讓聲音內(nèi)容更有張力,可以吸引更多聽眾,也能讓更多用戶愿意為之付費。
從數(shù)據(jù)上看,2020年喜馬拉雅移動端每名活躍用戶的日均在線音頻收聽時長為117.4分鐘,到2021年,這一數(shù)據(jù)增長到144分鐘。同時,2021年,喜馬拉雅月活躍付費會員數(shù)量為1440萬,同比增長52%。
整體上,AI技術(shù)不僅在重構(gòu)音頻行業(yè)的生產(chǎn)方式,也在從根本上改變著這個行業(yè)的商業(yè)邏輯。