陳偉:AI語音市場要靠3.0技術(shù)撬動
前言:
想要實現(xiàn)全人類之間的順暢交流,一直都是一個遙不可及的美好期望,而人工智能的飛速發(fā)展,讓我們看到了這一希望。
國內(nèi)剛需明顯提升
在中國,從事同傳工作的,大多數(shù)是英語專業(yè)背景,精通全領(lǐng)域是充分而非必要條件。而面對涉及醫(yī)療、數(shù)學(xué)和物理等領(lǐng)域的會議時,同傳人員并不能很好地將這些相關(guān)術(shù)語準(zhǔn)地翻譯。
當(dāng)學(xué)術(shù)盲點(diǎn)變成了行業(yè)痛點(diǎn),以語音智能見長的科技公司便主動出擊,抓住了同聲傳譯這一細(xì)分市場的機(jī)遇,迭代到3.0版本的搜狗同傳便是向這一細(xì)分市場布局的開端。
機(jī)器同傳的產(chǎn)品價值,主要體現(xiàn)在其致力于解決跨語言交流、跨語言信息獲取和語言表達(dá)的電子化記錄等障礙。若要真正實現(xiàn)這三點(diǎn),不能單純地把語音識別和機(jī)器翻譯做嫁接,而需要一套完整的有機(jī)系統(tǒng)。
語境引擎=多模態(tài)+知識圖譜
去年12月,基于語境引擎的搜狗同傳3.0以多模態(tài)和自主學(xué)習(xí)為核心,加入視覺和思維能力,這是AI同傳在加入諸如視覺AI、知識圖譜等能力后的再度進(jìn)化。
最新發(fā)布的搜狗同傳3.0,內(nèi)核進(jìn)化成為了語境引擎。除了“語音信息+OCR”的結(jié)合方式,升級后的產(chǎn)品,最大亮點(diǎn)是在“能聽會看”的多模態(tài)基礎(chǔ)上,注入了思考和推理能力,背后靠的是知識圖譜的加持。
多模態(tài)同傳,即AI獲取信息的渠道不再是語音,還包含圖像等其他內(nèi)容。這種多模態(tài)的交互方式是搜狗一直堅信的趨勢,也是與人最自然的一種交流方式。
“會看”,意味著同傳首次具備了視覺能力!澳芾斫鈺评怼,則意味著同傳具備了與人“共情”的能力。
基于語境引擎開發(fā)的搜狗同傳3.0為演講者構(gòu)建了個性化的認(rèn)知語境,能夠跟隨演講者一起“思考”,無疑是AI同傳領(lǐng)域的又一大技術(shù)創(chuàng)新。
可以像人類一樣,從語音和圖像中獲取信息,不僅會聽,還能同時看圖、查資料,從而提高了同聲傳譯的準(zhǔn)確性,在AI同傳落地應(yīng)用中屬首創(chuàng)。
尤其是面對專有名詞、專業(yè)術(shù)語較多的場景,相比傳統(tǒng)只依賴語音的技術(shù),針對PPT內(nèi)容將翻譯的正確率提升了40.3%。
陳偉認(rèn)為,多模態(tài)技術(shù)是未來人機(jī)交互的發(fā)展方向。從搜狗同傳的技術(shù)升級之路中,我們也可以看出搜狗下一步的計劃。
據(jù)陳偉介紹,搜狗同傳3.0相對于上一代產(chǎn)品主要有三方面能力的提升:
更加接近自然,從單純的語音識別到語音+圖像,新的方法模擬了人工同傳的工作方式,增加視覺和大腦擴(kuò)散知識點(diǎn)的功能,擁有更為復(fù)雜的感知系統(tǒng)。
更加專業(yè),此前的AI同傳模型使用通用數(shù)據(jù),新的模型通過實時定制知識增強(qiáng)能力,能夠捕捉現(xiàn)場PPT內(nèi)容補(bǔ)充演講相關(guān)的專業(yè)領(lǐng)域的知識,并針對每一個演講進(jìn)行模型定制,提升同傳效果。
搜狗同傳的技術(shù)迭代之路
2016年11月推出的搜狗同傳1.0通用語音同傳是首個商用機(jī)器同傳產(chǎn)品,實現(xiàn)了語音同傳的功能。
2018年,搜狗同傳2.0集成TTS,首次實現(xiàn)語音到語音同傳,并可根據(jù)用戶語料實時定制,同時它還用上了首個英譯中同傳引擎。
到3.0,搜狗同傳已經(jīng)是一款業(yè)內(nèi)首創(chuàng)的多模態(tài)+自主學(xué)習(xí)的同傳產(chǎn)品,能聽、會看,能理解、會推理是它的特點(diǎn),同時增加了實時捕捉PPT內(nèi)容的功能。
搜狗1.0時,輸入僅是語音,2.0開始做語音+個性化,以及說話人的語境背景輸入;3.0加入了知識圖譜,把語音、視覺等信息作為語音識別的輸入,F(xiàn)在,業(yè)內(nèi)技術(shù)普遍介于1.0和2.0之間,而搜狗依靠圖譜方式,已經(jīng)率先進(jìn)入3.0時代。
2.0時代,搜狗同傳會首先對文本進(jìn)行規(guī)則化,讓文本變得流利,丟棄一些語義詞和停頓詞等,但會遇到延時很大的問題。
在3.0時代,搜狗同傳加入了語義單元,識別判斷一句話為獨(dú)立的一個單元,系統(tǒng)可以在講話者說話的同時可以立即上屏,降低同傳系統(tǒng)的延遲。
機(jī)器翻譯與人工之間的差距在拉近
機(jī)器翻譯的歷史可能比大多數(shù)人想象中都要久遠(yuǎn),1954年初,喬治城大學(xué)的實驗的一臺電腦成功將四十多條俄文句子自動翻譯成英文,這一事件成為機(jī)器翻譯史中的一個里程碑,標(biāo)志著現(xiàn)代機(jī)器翻譯的開端。
60多年過去了,機(jī)器翻譯產(chǎn)品已經(jīng)走進(jìn)每個人的日常生活,在大型會議等場景下被廣泛采用。
雖然翻譯效果仍有待提高,但機(jī)器翻譯已經(jīng)成為提高翻譯效率不可或缺的工具,并催生了一大批從事AI翻譯研究的企業(yè),國內(nèi)有搜狗、騰訊、科大訊飛等,國外有谷歌、微軟等。
翻譯領(lǐng)域有些工作是有重復(fù)性的,包括同傳領(lǐng)域,機(jī)器在某些方面會優(yōu)于人工,比如知識面、領(lǐng)域知識的拓展性上,機(jī)器比真人的知識面更廣闊,并能夠快速查詢背后海量的知識體系,這比真人在某些領(lǐng)域的翻譯上的準(zhǔn)確率更高。
在支持了上千場會議之后,他們發(fā)現(xiàn)從成本上來看,機(jī)器翻譯的成本一定是低于人工的,且邊際成本會隨著使用量增加越來越低。
與人相比,機(jī)器翻譯成本更低,需要支持的設(shè)備也更少,一臺筆記本,一條視頻線、一條音頻線,連上就可以工作。
機(jī)器同傳在未來的地位
從機(jī)器同傳的流程來看,當(dāng)機(jī)器視覺捕捉到核心關(guān)鍵詞之后,會根據(jù)搜狗的知識圖譜技術(shù),把相關(guān)的詞匯以及專業(yè)領(lǐng)域相關(guān)的詞語拓展出來,作為語音識別和翻譯的加強(qiáng)。
未來,機(jī)器同傳可向記者采訪、跨國辦公會議、中英文視頻直播、字幕翻譯等場景延展。這些應(yīng)用場景最主要的挑戰(zhàn),是怎么保證機(jī)器同傳的穩(wěn)定效果,考驗的是采集設(shè)備、網(wǎng)絡(luò)環(huán)境、識別能力等。
未來面向人和機(jī)器交互過程中,一定是多模態(tài)的,搜狗提倡的技術(shù)主張,使機(jī)器同傳和同類產(chǎn)品拉開了一代之差。他們還是以同傳為主,搜狗已經(jīng)從語音跨到了多模態(tài),并把對于知識和語音的理解放進(jìn)去,使同傳開始具備一定的認(rèn)知能力。
而搜狗在AI語音商業(yè)化的進(jìn)程,最終的指向還是消費(fèi)者端。未來各種各樣的場合都可能用到搜狗同傳的技術(shù),通過同傳打磨的能力也可以反向用于C端產(chǎn)品。
一直以來,人工智能技術(shù)只能在展示在實驗室中,隨著深度學(xué)習(xí)等技術(shù)的研究成熟,人工智能技術(shù)加持的產(chǎn)品也逐漸開始落地。
多模態(tài)技術(shù)未來發(fā)展
很多公司都意識到多模態(tài)技術(shù)重要性,并將研究成果落地到各種應(yīng)用中,比如騰訊、優(yōu)酷等視頻網(wǎng)站平臺,快手等短視頻平臺都將多模態(tài)技術(shù)應(yīng)用于內(nèi)容理解上,在獲取用戶和加強(qiáng)與用戶的互動交流上起到了重要作用。
目前關(guān)于多模態(tài)的研究課題還是要從產(chǎn)品和實際需求倒推功能,這涉及到異構(gòu)數(shù)據(jù)融合的問題。
多模態(tài)表達(dá),在語義上如何進(jìn)行對齊,提取同一需求的多模態(tài)特征,如何更好地跨越語義的鴻溝,異構(gòu)數(shù)據(jù)如何融合,都是多模態(tài)技術(shù)會遇到的問題。
隨著精度的逐步提高,搜狗同傳所采用的AI技術(shù),未來還將有更廣闊的的應(yīng)用空間,賦予我們更多的可能性。比如,實時私人翻譯乃至文學(xué)作品的譯制,可以讓我們足不出戶,享受第一手國際作品的字幕體驗。
而在跨國界、跨領(lǐng)域等項目合作方面,逐漸實現(xiàn)無縫對接,能夠顯著提高整體的工程協(xié)作效率。
結(jié)尾:
當(dāng)然必須要承認(rèn),無論是搜狗同傳還是其他玩家,大家目前距離頂級同傳的水準(zhǔn)還有很長的路要走,目前的機(jī)器同傳能力和頂級人工同傳相比,仍存在不小的差距。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-12.26立即報名>>> 【在線會議】村田用于AR/VR設(shè)計開發(fā)解決方案
-
1月8日火熱報名中>> Allegro助力汽車電氣化和底盤解決方案優(yōu)化在線研討會
-
即日-1.14火熱報名中>> OFweek2025中國智造CIO在線峰會
-
即日-1.24立即參與>>> 【限時免費(fèi)】安森美:Treo 平臺帶來出色的精密模擬
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容