【熱聞】思必馳榮獲IWSLT 2022英中同聲傳譯冠軍

          2022-06-17 06:04:40 來源: GPLP

          0瀏覽 評論0

          在2022年國際口語機器翻譯評測比賽(簡稱IWSLT)中,思必馳-上海交大聯(lián)合團隊(AISP-SJTU)憑借卓越的技術(shù)優(yōu)勢,獲得“英-中同聲傳譯”(Speech-to-Text)賽道冠軍。

          2022年第十九屆國際口語機器翻譯大會(International Conference on Spoken Language Translation ,簡稱 IWSLT)在愛爾蘭都柏林落幕。IWSLT是國際上最具影響力的口語機器翻譯評測比賽之一,今年設(shè)置了同聲傳譯、離線語音翻譯等7個任務(wù)。思必馳-上海交大聯(lián)合團隊(AISP-SJTU)本次參加英-中同聲傳譯任務(wù),以優(yōu)異的成績獲得Speech-to-Text賽道第一名。


          【資料圖】

          論文標題:The AISP-SJTU Simultaneous Translation System for IWSLT 2022

          任務(wù)和背景

          同聲傳譯是僅在部分語音或文本輸入的情況下,逐步生成翻譯結(jié)果的任務(wù)。同聲傳譯包含兩個子任務(wù):

          1)Text-to-Text,將流式語音識別(ASR)系統(tǒng)的輸出文本實時從英語翻譯成中文普通話;

          2)Speech-to-Text:將英文語音實時翻譯成中文普通話文本。

          目前同聲傳譯任務(wù)主要有兩種技術(shù)路線:

          1)級聯(lián)技術(shù)。即整個系統(tǒng)由ASR系統(tǒng)和翻譯(MT)系統(tǒng)組成,輸入源語言音頻信號,先經(jīng)過ASR系統(tǒng)轉(zhuǎn)寫成源文本,再經(jīng)過MT系統(tǒng)翻譯為目標語言。

          2)端到端技術(shù)。即系統(tǒng)直接將源語言音頻翻譯為目標語言文本,不生成中間字符。相對于級聯(lián)系統(tǒng)上億的數(shù)據(jù)規(guī)模,端到端系統(tǒng)的訓(xùn)練數(shù)據(jù)極其匱乏,導(dǎo)致其效果遠低于級聯(lián)系統(tǒng)。

          圖1. 級聯(lián)語音翻譯

          圖2. 端到端語音翻譯

          同聲傳譯的系統(tǒng)通過兩種方式進行評估:

          1)翻譯質(zhì)量,使用標準BLEU指標評估;

          2)翻譯延時,使用流式翻譯的標準指標進行評估,包括平均比例(AP)、平均滯后(AL)、可微平均滯后(DAL)。

          最后,比賽主辦方根據(jù)不同延時范圍的翻譯質(zhì)量對提交的同聲傳譯系統(tǒng)進行排名。對于英-中同聲傳譯系統(tǒng),延時范圍設(shè)置為:

          1)低延時,AL<=2000毫秒;

          2)中延時,AL<=3000毫秒;3)高延時,AL<=4000毫秒。

          數(shù)據(jù)和數(shù)據(jù)處理

          文本數(shù)據(jù)預(yù)處理

          比賽方提供大量的雙語語料和單語語料,通過規(guī)則過濾和匹配模型篩選出優(yōu)質(zhì)的文本數(shù)據(jù)。規(guī)則過濾包括:太長的單詞,長度嚴重失衡的中英雙語句子,過濾帶HTML標簽的句子,刪除重復(fù)等等。另外,訓(xùn)練一個分類模型,過濾語義不匹配的真實雙語和偽雙語數(shù)據(jù)。

          文本數(shù)據(jù)擴增

          數(shù)據(jù)增強是提升模型效果行之有效的方案。首先使用真實雙語數(shù)據(jù)訓(xùn)練中-英和英-中離線模型。然后這兩個離線模型分別生成中文單語和英文單語的偽雙語數(shù)據(jù),用于回譯和知識蒸餾。最后,讓翻譯模型在ASR生成的偽雙語數(shù)據(jù)上進行微調(diào),來提升翻譯模型的魯棒性。文本數(shù)據(jù)統(tǒng)計如下:

          表1. MT訓(xùn)練數(shù)據(jù)

          語音數(shù)據(jù)處理

          比賽主辦方提供了6個英文語音數(shù)據(jù)集,共3000小時。采用傳統(tǒng)的語音特征提取方法FBank,特征維度設(shè)置為80,每幀窗口大小25毫秒,窗口滑動步長10毫秒。

          語音數(shù)據(jù)擴增

          通過增加音頻擾動的方法來獲得擴增音頻,包括聲音大小、速度、基線擾動等。除了CoVoST2這個數(shù)據(jù)集擴增1/3,其他數(shù)據(jù)集的音頻數(shù)據(jù)擴增3倍。音頻數(shù)據(jù)統(tǒng)計如下:

          表2. ASR訓(xùn)練數(shù)據(jù)

          技術(shù)解讀

          思必馳-上海交大團隊首次參加這類語音翻譯比賽,在充分總結(jié)前人經(jīng)驗的基礎(chǔ)上,積極開拓創(chuàng)新,下面對其關(guān)鍵技術(shù)進行解讀。

          技術(shù)1:引入預(yù)訓(xùn)練語言模型,大幅提升ASR性能

          近年來,預(yù)訓(xùn)練語言模型(LM),例如BERT,在NLP領(lǐng)域大放異彩,尤其在低資源場景,LM作用更加明顯。如何將語言模型引入ASR模型呢?首先看一下ASR的模型結(jié)構(gòu),如下圖

          圖3. ASR模型和E2E模型結(jié)構(gòu)

          ASR模型整體是transformer架構(gòu),但是Decoder拆分為Jointer和Predictor,其中,Predictor僅包含6層單向自注意力機制,Jointer僅包含6層交叉注意力機制。預(yù)訓(xùn)練語言模型可以替代Predictor,從而ASR的解碼端可以充分利用大數(shù)據(jù)的優(yōu)勢,提升解碼能力。與傳統(tǒng)的預(yù)訓(xùn)練語言模型BERT相比,這里的語言模型需要做兩方面的改變:

          1)將傳統(tǒng)的雙向自注意力機制改為單向注意力機制;

          2)預(yù)測目標改為預(yù)測下一個token。用表1中的數(shù)據(jù)訓(xùn)練分別訓(xùn)練一個中文語言模型和英文語言模型,并分別用于端到端模型(E2E)和ASR模型,實驗表明,增加LM后對二者均有大幅提升。

          表3. 預(yù)訓(xùn)練語言模型效果

          技術(shù)2:無限左看,隨機右看

          流式翻譯模型的編碼端一般使用單向注意力機制,進一步地,可以設(shè)定一個固定的右看窗口,實現(xiàn)部分雙向注意力機制,來提升編碼能力,如圖4,每個token都可以“看”到所有左側(cè)內(nèi)容,即無限左看,但只能往右看到2個token。本次比賽在CAAT[1]模型的基礎(chǔ)上做了更進一步的改進,提出Dynamic-CAAT,即在訓(xùn)練過程中,將固定的右看窗口設(shè)為隨機取值,在預(yù)測過程中,當有新token輸入時,使用雙向注意力機制重新計算所有token編碼。

          圖4. 翻譯模型編碼端注意力機制

          實驗表明,Dynamic-CAAT在各類延時級別上都有效果。這樣整個系統(tǒng)只需要一個翻譯模型,而不是訓(xùn)練多個模型來適應(yīng)不同的延時范圍。

          圖5. Dynamic-CAAT的效果

          評測結(jié)果

          IWSLT 2022綜述文章中[2],主辦方給出的英-中評測結(jié)果顯示思必馳-上海交大團隊(AISP-SJTU)提交的系統(tǒng)在低、中、高三個延時范圍內(nèi),都超過第二名約2BLEU(具體實驗數(shù)據(jù)見綜述文章143頁)。

          圖6. speech-to-text英-中評測結(jié)果

          總結(jié)

          本次比賽,結(jié)合各種技術(shù)手段打造了英-中同聲傳譯最優(yōu)基線,也對端到端模型做了初步探索。端到端模型在速度和誤差傳導(dǎo)上比級聯(lián)模型更占優(yōu)勢,因此,未來我們希望進一步研究有效的數(shù)據(jù)擴增手段,來提升端到端模型的翻譯效果。

          標簽: 語言模型 語音數(shù)據(jù) 機器翻譯 大幅提升 模型結(jié)構(gòu)

          [責(zé)任編輯:]

          相關(guān)閱讀