華為基于大型語言模型的機器翻譯質(zhì)量評估

2024年3月21日，華為、東北大學(xué)和南京大學(xué)的研究人員深入探討了機器翻譯質(zhì)量評估（QE）領(lǐng)域，特別關(guān)注了大型語言模型（LLM）在QE應(yīng)用中的重要作用。

為了對QE方法的當(dāng)前狀態(tài)進行徹底且專業(yè)的理解，研究人員詳盡地探索了QE領(lǐng)域內(nèi)幾乎所有具有代表性的方法。盡管此研究未引入新的信息，但論文對從事量化寬松研究的實踐者和對這一領(lǐng)域感興趣的學(xué)者而言，具有極高的實用價值。

研究人員將QE領(lǐng)域發(fā)展過程中的方法劃分為三大類別：依賴手工制作功能的方法、基于深度學(xué)習(xí)的方法，以及利用LLM的方法。他們解釋，在QE研究的初期，方法主要依賴于手工特征來預(yù)測翻譯質(zhì)量，從而催生了諸如QuEst等框架。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，QE方法開始利用神經(jīng)網(wǎng)絡(luò)進行更精細(xì)的建模，并進一步細(xì)分為基于經(jīng)典深度學(xué)習(xí)方法（如deepQuest）和集成預(yù)訓(xùn)練語言模型（LM）（如COMET）的類別。

研究人員指出，基于LLM的方法具有達到最先進（SOTA）性能水平的潛力。最近，QE研究已聚焦于利用LLM的廣泛知識基礎(chǔ)和高級學(xué)習(xí)能力，以提高QE模型的準(zhǔn)確性和性能，推動QE研究的進步。

在LLM的應(yīng)用方面，研究人員識別了多種方法：利用LLM直接預(yù)測翻譯質(zhì)量分?jǐn)?shù)或錯誤并評估其嚴(yán)重性；使用LLM作為基礎(chǔ)模型，結(jié)合后期編輯數(shù)據(jù)確定需要編輯的片段；通過LLM創(chuàng)建帶有錯誤注釋和解釋的合成數(shù)據(jù)，用于微調(diào)基于LLM的可解釋QE指標(biāo)，從而提供全面的錯誤診斷報告和QE分?jǐn)?shù)（無需人工注釋數(shù)據(jù)）；利用LLM的概率和不確定性作為質(zhì)量指標(biāo)；以及使用LLM在正確的翻譯中引入錯誤并創(chuàng)建噪音句子對，用于訓(xùn)練QE指標(biāo)以區(qū)分準(zhǔn)確和不準(zhǔn)確的翻譯。

盡管研究人員承認(rèn)，基于LLM的QE方法尚未在性能上超越包含預(yù)訓(xùn)練LM的QE方法，但他們預(yù)測，隨著研究的深入和技術(shù)的發(fā)展，基于LLM的方法有望達到最先進的性能水平。

在QE面臨的挑戰(zhàn)方面，研究人員看到了LLM在解決可解釋性問題和注釋數(shù)據(jù)稀缺性方面的潛力。LLM能夠生成合成注釋數(shù)據(jù)，這在低資源語言中尤為重要，有助于確定具體錯誤及其在文本中的位置。他們建議，未來的研究應(yīng)更加關(guān)注利用有限元模型來增強QE的可解釋性。

然而，挑戰(zhàn)仍然存在，包括預(yù)訓(xùn)練LM和LLM的資源密集性，以及缺乏標(biāo)準(zhǔn)化的評估指標(biāo)，這阻礙了模型性能的比較和集成。最后，研究人員還提出，未來的研究應(yīng)更加注重詞匯層面的QE。

韓語翻譯	俄語翻譯	法語翻譯	越南語翻譯	意大利語翻譯	葡萄牙語翻譯	馬來語翻譯	芬蘭語翻譯	波蘭語翻譯	匈牙利語翻譯	挪威語翻譯
土耳其語翻譯	荷蘭語翻譯	捷克語翻譯	冰島語翻譯	瑞典語翻譯	西班牙語翻譯	烏克蘭語翻譯	挪威語翻譯	丹麥語翻譯	泰語翻譯翻譯	日語翻譯
菲律賓語翻譯

主營業(yè)務(wù)