隨著全球化的深入推進(jìn),跨語(yǔ)言信息傳遞的即時(shí)性需求正以前所未有的速度增長(zhǎng)。從跨國(guó)企業(yè)的云端會(huì)議到學(xué)術(shù)領(lǐng)域的全球協(xié)作,不同場(chǎng)景下的實(shí)時(shí)語(yǔ)言轉(zhuǎn)換需求,正推動(dòng)實(shí)時(shí)翻譯技術(shù)成為人工智能領(lǐng)域的重要突破口。
根據(jù)中國(guó)翻譯協(xié)會(huì)《人工智能與翻譯報(bào)告》,AI翻譯技術(shù)已從實(shí)驗(yàn)室走向大規(guī)模商用,廣泛應(yīng)用于跨境商貿(mào)、文化交流、教育醫(yī)療等領(lǐng)域。截至2024年底,中國(guó)“機(jī)器翻譯”或“人工智能翻譯”企業(yè)增至1545家。AI翻譯技術(shù)加速融入多模態(tài)場(chǎng)景,智能翻譯設(shè)備如翻譯耳機(jī)加速涌現(xiàn)。
翻譯耳機(jī)的最大瓶頸在于實(shí)時(shí)翻譯的速度與準(zhǔn)確性。用戶對(duì)AI翻譯設(shè)備的期望更高,理想狀態(tài)是“即說(shuō)即譯”,延遲控制在1秒以內(nèi)。這要求在極低延遲下仍能確保翻譯的語(yǔ)義連貫性和準(zhǔn)確性。時(shí)空壺技術(shù)有限公司CTO石偉接受時(shí)代周報(bào)記者采訪時(shí)表示,如何在3秒內(nèi)兼顧低延遲與高質(zhì)量翻譯,是當(dāng)前最大的技術(shù)挑戰(zhàn)。
深圳時(shí)空壺技術(shù)有限公司(下文簡(jiǎn)稱“時(shí)空壺”)成立于2016年,致力于融合人工智能與硬件技術(shù),開(kāi)發(fā)突破語(yǔ)言障礙的AI翻譯產(chǎn)品。據(jù)悉,其產(chǎn)品已銷往全球171個(gè)國(guó)家和地區(qū),覆蓋全球73.39%的區(qū)域,擁有超20萬(wàn)用戶和4300多家行業(yè)客戶。
自研模型約占一半
時(shí)代周報(bào):目前時(shí)空壺的翻譯耳機(jī)支持多少種語(yǔ)言的互譯?
石偉:我們目前在線支持41種語(yǔ)言的互譯,并有一個(gè)專門的團(tuán)隊(duì)在持續(xù)擴(kuò)展語(yǔ)言支持。作為產(chǎn)品和服務(wù)提供商,我們并不局限于自研模型,而是會(huì)全球范圍內(nèi)尋找和適配最優(yōu)的語(yǔ)言模型。
比如,某些本地化語(yǔ)言,如泰語(yǔ)或日語(yǔ),可能連谷歌、微軟這樣的大公司都做得不夠好,我們會(huì)針對(duì)這些語(yǔ)言自研或優(yōu)化模型。對(duì)于達(dá)不到我們標(biāo)準(zhǔn)的語(yǔ)言,哪怕競(jìng)品宣稱支持100多種語(yǔ)言,我們也不會(huì)上線,因?yàn)橛脩趔w驗(yàn)是第一位的。
目前,我們支持93種口音,尤其像英語(yǔ)這種口音眾多的語(yǔ)言。離線方面,新產(chǎn)品“新T1”支持11種語(yǔ)言、31個(gè)語(yǔ)言對(duì),全部基于自研模型,不依賴第三方。
時(shí)代周報(bào):在自研模型和第三方模型的使用比例上,大概是怎樣的情況?
石偉:具體比例因涉及語(yǔ)音識(shí)別(ASR)、機(jī)器翻譯和語(yǔ)音合成(TTS)等多個(gè)環(huán)節(jié)而難以一概而論,大約各占一半。目前,語(yǔ)音識(shí)別的自研語(yǔ)言較少,約5種,如泰語(yǔ)、阿拉伯語(yǔ)等。翻譯部分,我們正逐步從通用大模型轉(zhuǎn)向自研微調(diào)模型,TTS也基本實(shí)現(xiàn)自研??傮w而言,我們?cè)絹?lái)越注重核心技術(shù)的自主研發(fā),以優(yōu)化性能和提升用戶體驗(yàn)。
時(shí)代周報(bào):時(shí)空壺發(fā)布了Bable OS系統(tǒng),為什么一個(gè)翻譯設(shè)備需要專門開(kāi)發(fā)一個(gè)系統(tǒng)?它在其中起到什么作用?
石偉:Bable OS的發(fā)布有三重意義。首先,名字靈感來(lái)自《圣經(jīng)》中的巴別塔和科幻小說(shuō)《銀河系漫游指南》中的巴別魚(yú),象征無(wú)障礙溝通的理念,傳遞我們追求極致技術(shù)的愿景。其次,我們提出了“通往巴別之路”的概念,像自動(dòng)駕駛分級(jí)一樣,將翻譯技術(shù)的發(fā)展分為幾個(gè)階段,向外界展示我們的技術(shù)路徑。第三,我們公開(kāi)了部分技術(shù)架構(gòu),比如雙向全雙工通信、降噪算法、離線與在線混合模型等,分享如何構(gòu)建這樣的系統(tǒng)。
此外,時(shí)空壺還計(jì)劃開(kāi)源部分純文本翻譯模型,支持幾十種語(yǔ)言,保持高準(zhǔn)確率。這不僅是為了促進(jìn)行業(yè)發(fā)展,也因?yàn)槲覀儚拈_(kāi)源社區(qū)受益匪淺,希望回饋產(chǎn)業(yè),共同進(jìn)步。
時(shí)代周報(bào):大模型需要大量數(shù)據(jù)訓(xùn)練,時(shí)空壺的數(shù)據(jù)從何而來(lái)?如何保護(hù)用戶隱私?
石偉:用戶隱私是我們非常重視的。我們從一開(kāi)始就承諾,服務(wù)器不保留任何用戶數(shù)據(jù)。未來(lái)可能會(huì)推出用戶改善計(jì)劃,允許用戶自愿提供脫敏數(shù)據(jù),但目前還未實(shí)施,客戶端數(shù)據(jù)也由用戶自行管理。訓(xùn)練數(shù)據(jù)主要來(lái)自三方面:一是公開(kāi)渠道,比如網(wǎng)絡(luò)爬蟲(chóng)獲取的數(shù)據(jù),經(jīng)過(guò)多年清洗和標(biāo)注提升質(zhì)量;二是通過(guò)大模型蒸餾,利用大模型的翻譯能力生成高質(zhì)量數(shù)據(jù);三是與全球數(shù)據(jù)公司或眾包機(jī)構(gòu)合作,由人工標(biāo)注生成接近人類水平的高質(zhì)量數(shù)據(jù)。這些數(shù)據(jù)分階段積累,確保模型性能不斷提升。
核心為雙向?qū)崟r(shí)同傳
時(shí)代周報(bào):與科大訊飛等競(jìng)品相比,時(shí)空壺的核心競(jìng)爭(zhēng)力是什么?
石偉:與科大訊飛的競(jìng)爭(zhēng)更多是錯(cuò)位競(jìng)爭(zhēng)。早期他們主推手持翻譯機(jī),市場(chǎng)主要在國(guó)內(nèi),而我們專注翻譯耳機(jī),主攻海外市場(chǎng)。手持翻譯機(jī)的交互體驗(yàn)較為繁瑣,需要點(diǎn)按、傳遞設(shè)備,而時(shí)空壺的耳機(jī)實(shí)現(xiàn)了無(wú)縫的雙向?qū)崟r(shí)同傳,接近真人交流的體驗(yàn)。
這需要突破兩大技術(shù)難點(diǎn):一是全雙工通信,確保雙方可以隨時(shí)打斷對(duì)方講話,像自然對(duì)話一樣;二是解決串音問(wèn)題,避免對(duì)方聲音干擾識(shí)別。這兩點(diǎn)是我們從2016-2017年原型機(jī)開(kāi)發(fā)到2019年產(chǎn)品成熟的關(guān)鍵突破。
目前,市場(chǎng)上包括訊飛在內(nèi)的其他AI耳機(jī),雖然也加入了翻譯功能,但大多無(wú)法實(shí)現(xiàn)雙向?qū)崟r(shí)同傳。這也是時(shí)空壺的核心競(jìng)爭(zhēng)力。
時(shí)代周報(bào):時(shí)空壺的核心用戶群體是哪些?是會(huì)議場(chǎng)景,還是旅游、移民、教育等場(chǎng)景?
石偉:我們的用戶群體主要是需要長(zhǎng)時(shí)間、多輪次跨語(yǔ)言溝通的場(chǎng)景,比如商務(wù)、醫(yī)療、教育等行業(yè)場(chǎng)景,以及移民群體。北美是我們最大的市場(chǎng),因?yàn)槠湟泼駠?guó)家特性帶來(lái)了多樣化的語(yǔ)言需求。旅游場(chǎng)景也有需求,但使用頻次較低,通常是短句問(wèn)路或詢價(jià),適合手持翻譯機(jī)。而我們的耳機(jī)更適合深入、雙向的長(zhǎng)時(shí)間對(duì)話。
時(shí)代周報(bào):在To C和To B市場(chǎng)上,時(shí)空壺如何權(quán)衡優(yōu)先級(jí)?
石偉:目前我們所有產(chǎn)品都以To C為主,營(yíng)銷和產(chǎn)品形態(tài)都面向消費(fèi)者。雖然我們看到To B市場(chǎng)的潛力,特別是在商務(wù)和行業(yè)場(chǎng)景,但目前市場(chǎng)尚未成熟到需要針對(duì)特定行業(yè)定制硬件的程度。我們更傾向于開(kāi)發(fā)適用于多場(chǎng)景的通用產(chǎn)品,通過(guò)不同模式滿足多樣化需求。
時(shí)代周報(bào):時(shí)空壺是否計(jì)劃自研AI眼鏡,或?qū)㈦p向?qū)崟r(shí)同傳技術(shù)融入其他品牌的AI眼鏡?
石偉:我們對(duì)AI眼鏡一直保持開(kāi)放態(tài)度。早在2022年,我們就開(kāi)始關(guān)注AR眼鏡產(chǎn)業(yè),與雷鳥(niǎo)、Xreal等廠商有過(guò)深入技術(shù)交流。
我們的核心技術(shù)是實(shí)時(shí)雙向同傳,不局限于耳機(jī)這一硬件形態(tài),而是希望適配不同場(chǎng)景和設(shè)備,比如眼鏡或頸掛式設(shè)備。但AI眼鏡的使用場(chǎng)景與耳機(jī)不同,眼鏡更適合單向信息接收,比如聽(tīng)講或看實(shí)時(shí)字幕翻譯,而雙向交流需要雙方都佩戴設(shè)備,這在實(shí)際場(chǎng)景中概率較低。因此,我們會(huì)繼續(xù)探索合作或自研。
賽道遠(yuǎn)未成熟
時(shí)代周報(bào):翻譯不僅是語(yǔ)言的轉(zhuǎn)換,還是文化的重構(gòu)。你如何看待翻譯耳機(jī)在處理“語(yǔ)境”、“語(yǔ)氣”、“幽默”甚至“禁忌詞”時(shí)的能力與局限?
石偉:實(shí)話實(shí)說(shuō),目前這方面還做不到完美。實(shí)時(shí)翻譯中,語(yǔ)境和語(yǔ)氣的捕捉非常困難,尤其是個(gè)性化詞匯或行業(yè)術(shù)語(yǔ)。如果用戶能提前提供演講稿、PPT或?qū)僭~匯表,我們可以通過(guò)定制化翻譯功能優(yōu)化效果。但像幽默或文化禁忌的處理,依賴于模型技術(shù)的進(jìn)一步突破。目前整個(gè)行業(yè)都還沒(méi)到這個(gè)階段。我反而期待有一天能操心這些問(wèn)題,因?yàn)槟且馕吨g的實(shí)時(shí)性和準(zhǔn)確性已經(jīng)解決得差不多了。
時(shí)代周報(bào):你如何看待翻譯設(shè)備這一賽道的成熟度和潛力邊界?
石偉:這個(gè)賽道遠(yuǎn)未成熟。全球翻譯APP的下載量高達(dá)十幾億,顯示了巨大的需求。而我們的硬件瞄準(zhǔn)的是線下、真人場(chǎng)景的翻譯需求,市場(chǎng)空間非常大。技術(shù)上,我們自評(píng)用戶期望是90分,我們目前可能達(dá)到80分。因此,無(wú)論是技術(shù)發(fā)展還是市場(chǎng)空間,這個(gè)賽道都有很大潛力,預(yù)計(jì)未來(lái)幾年仍會(huì)保持翻倍增長(zhǎng)。
時(shí)代周報(bào):如果翻譯技術(shù)足夠成熟,我們是否還需要學(xué)習(xí)外語(yǔ)?你怎么看“技術(shù)替代語(yǔ)言學(xué)習(xí)”這一趨勢(shì)?
石偉:學(xué)習(xí)外語(yǔ)有兩個(gè)層次的需求。第一是交流需求,如果AI翻譯技術(shù)非常成熟,這部分需求可能會(huì)大幅降低。但第二是更深層次的文化和思維需求。學(xué)習(xí)語(yǔ)言不僅是溝通工具,還能幫助理解文化、思維邏輯和表達(dá)習(xí)慣。比如讀英文原版論文或詩(shī)歌,能更直接地感受其內(nèi)涵,這是翻譯難以完全替代的。所以,未來(lái)外語(yǔ)學(xué)習(xí)的需求可能會(huì)減少,但不會(huì)消失,更多會(huì)變成一種像藝術(shù)或文學(xué)一樣的興趣追求。
本文鏈接:http://jphkf.cn/news-2-2351-0.html語(yǔ)言無(wú)國(guó)界還有多遠(yuǎn)?時(shí)空壺CTO石偉:關(guān)鍵在于雙向?qū)崟r(shí)同傳
聲明:本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
點(diǎn)擊右上角微信好友
朋友圈
點(diǎn)擊瀏覽器下方“”分享微信好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕
點(diǎn)擊右上角QQ
點(diǎn)擊瀏覽器下方“”分享QQ好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕