當前的 AI 翻譯主要應用于書面語言。但世界現存的幾千種語言,近一半是口頭語言??陬^語言幾乎沒有規范的書寫系統,難以用通常方法來開發、訓練翻譯模型。
為了應對這一挑戰, 建立了第一個以口語為主的閩南語 AI 翻譯系統,其可一定程度上讓說閩南語與說英語的人,進行良好對話。
對外表示:“口頭交流可以幫助打破人與人之間的隔閡,也有助于人們在元宇宙(Metaverse)中交流。”該公司當前正在全力發展元宇宙業務,甚至在 2021 年 11 月將公司名字由 改為 。如果元宇宙要取得成功,需要實現更加身臨其境和自然的體驗。
據了解,開發閩南語翻譯系統的一個重要前提是,需要有足夠的數據。如今的機器翻譯模型大都需要海量的書面文本來做訓練。而閩南語的文本資源較少,在收集和注釋數據方面存在不足。
因此,研究者決定利用高資源語言的數據來解決這一問題。他們選擇使用普通話作為中介,即將閩南語轉為普通話后,再譯成相應的另一語言。該方法極大提高了模型的性能。
另外, 還采用了一種語音挖掘的訓練數據生成方法,借助預訓練的語音編碼器,將閩南語和其他語言嵌入到同一語義空間中。這樣,即使閩南語沒有文字形式,其也能和英語或語義相似的文本對應。
值得一提的是, 還為非書面語言翻譯開發了一種新的建模方法。
據了解,目前的語音翻譯模型開發,大都需要借助轉錄或語音生成文本系統。但由于口頭語言缺少規范的文字,因此, 將重點放在了語音到語音的翻譯上。
研究人員使用“語音到單元的轉換”(Speech-to-Unit Translation,S2UT)方法,把輸入的語音變成許多聲學單元。然后,再讓聲學單元產生波形。此外,他們還采用雙通道解碼機制,分別用來生成單元和以相關語言(普通話)生成文本。
接著, 對閩南語翻譯系統的準確性做了評估。一般來說,語音翻譯系統的評估采用的是 ASR-BLEU 指標。該指標指的是,用自動語音識(ASR Automatic Speech Recognition)將翻譯的語音轉換成文本,再對比轉換文本與人工翻譯文本,從而計算 BLEU 分數。BLEU 全稱為 Bilingual evaluation understudy(雙語評價替補),是一種標準的機器翻譯指標。
凡注有"環球傳媒網"或電頭為"環球傳媒網"的稿件,均為環球傳媒網獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為"環球傳媒網",并保留"環球傳媒網"的電頭。
資訊
焦點
- 首次超過美國 全球最佳大學排行榜:338所中國大學上榜
- Meta市值縮水至2017年水平 扎克伯格身價排名跌出全球前十
- “雙11”成立自營物流公司 菜鳥回應:消息不實
- 瑞信(CS.US)CEO發表備忘錄 試圖讓市場相信其財務穩定性
- 財務大臣重申捍衛日元立場 日本央行9月政策會議摘要提及政策轉向
- 英國迎來黃金搶購潮 新政府“迷你預算”刮起恐慌風暴
- 高盛:美國家庭和外國投資者將分別凈拋售1000億美元股票
- 違約概率飆升至至少10年來最高水平 百年銀行巨頭瑞信被傳“爆雷”!
- 美聯儲在加息速度問題上已現分歧 市場Q4能否扭轉頹勢?
- 進一步加碼全球黃油市場 威士蘭乳業收購新西蘭乳企Canary Foods