2023年国际口语机器翻译会议 (International Conference on Spoken Language Translation,简称IWSLT)近日落幕, 科大讯飞研究院与中科大语音及语言信息处理国家工程研究中心(简称NERCSLIP)、认知智能全国重点实验室联合团队以绝对优势获得两项任务冠军,这也是继2021、2022年连获IWSLT冠军后第三次“实力问鼎”。
作为国际上最具影响力的机器口语翻译评测比赛之一,今年IWSLT设置离线语音翻译、同声传译、语音至语音翻译、方言语音翻译等8个任务,同期参赛的还有华为、小米、英伟达、BIGAI、约翰霍普金斯大学等知名企业、机构和高校。
此次联合团队参加了 离线语音翻译-英中方向 以及 方言语音翻译 两项任务,包揽全部第一:
离线语音翻译任务-英中方向任务,在资源非受限条件下,获得“端到端”和“级联”系统冠军 ;
图中背景加灰为端到端系统,BLEU为自动测评指标、COMET为人工测评指标
表格出处: https://aclanthology.org/2023.iwslt-1.1.pdf
论文链接: https://aclanthology.org/2023.iwslt-1.15.pdf
方言语音翻译任务的突尼斯阿拉伯语方言到英语,获得“资源受限”以及“资源非受限”赛道冠军。
表格出处: https://aclanthology.org/2023.iwslt-1.1.pdf
论文链接: https://aclanthology.org/2023.iwslt-1.5.pdf
2023 IWSLT 任务难度如何?
英中语音翻译是需求最大的语音翻译方向之一。与此同时,国内方言类别众多,方言语音翻译技术难度也较高。基于现实使用情况考虑,联合团队选择参加了2023 IWLST 离线语音翻译-英中方向以及方言语音翻译任务。
此次IWSLT的离线语音翻译任务旨在将一段音频信号自动翻译成另一种语言的文本,而无需考虑系统时延。
级联方法串联自动语音识别(ASR)和机器翻译(MT)系统。 ASR系统将源语音识别为源语言中间文本,MT系统进一步将中间文本翻译为目标语言文本。
端到端方法 则直接将源语音翻译为目标语言文本,无需使用源语言文本作为中间表示。与级联方法相比,端到端方法能够更好地规避系统复杂性、错误传播、信息丢失等问题。但另一方面,端到端语音翻译也存在监督数据稀缺的问题,导致其目前的翻译效果与级联系统仍存在差距。
与离线语音翻译不同, 方言语音翻译任务强调将方言语音(如粤语)翻译为另一种语言的文本。
一种是基于方言机器翻译数据增强的方法: 即构建方言-标准语言的桥接模型,利用标准语言的机器翻译数据伪造方言-目标语言的配对机器翻译数据,最终提升级联语音翻译系统的性能。
另一种方案是基于模型预训练+微调的方法: 即先用标准语言数据预训练端到端语音翻译模型,然后利用方言数据微调,从而提升端到端语音翻译性能。
显著优势背后:多项关键技术创新提升模型能力
在本次赛事的离线语音翻译赛道, 讯飞联合团队主要在英中离线语音翻译任务上进行攻关,最终提交的系统展现了显著的性能优势。 相比第二名,级联语音翻译任务高出3.6 BLEU,端到端语音翻译任务高出3.4 BLEU。
在方言语音翻译赛道,讯飞联合团队提交的突尼斯阿拉伯语方言到英语的语音翻译系统取得优异成绩,在官方测试集上领先第二名2 BLEU。
好成绩的背后,是多项关键技术的创新突破。以下将分别对离线语音翻译和方言语音翻译的关键技术进行解读。
离线语音翻译关键技术1:讯飞语音识别、机器翻译技术与Whisper相结合打造更强级联系统
语音识别在级联语音翻译任务中扮演着关键的角色。 在本次比赛中,在传统的VGG-Transformer和VGG-Conformer模型的基础上进行了改进,将VGG替换为讯飞自研的GateCNN,并额外引入了GateCNN-Conformer模型。 GateCNN模型将门控机制融入了CNN结构中,它具有更精巧的结构和更强的建模能力。
为了提高机器翻译模型对识别误差的适应能力,联合团队采用了讯飞提出的鲁棒机器翻译训练策略。该策略包括两个关键方面:首先,利用语音识别模型将转写文本(包含真实语音识别错误)与标注译文进行微调,同时引入KL-loss以避免模型过拟合;其次,使用不含噪音的文本(Clean)训练的翻译模型(教师模型)进行知识蒸馏训练,以进一步提升级联翻译模型(学生模型)的翻译效果。
此外,本次比赛也融合了预训练Whisper作为ASR的级联模型, 以进一步减少中间源语言文本的错误。Whisper通过弱监督学习将语音转文本任务扩展到了680,000小时的标注音频数据,并将预训练范围从仅限英语的语音识别扩展到了多语言和多任务。Whisper不仅提高了音频编码器的质量,还训练了具有高等效性的预训练解码器,增强了鲁棒性。
实验表明,融合上述技术的语音翻译级联系统具备更强的适用性和容错性,翻译结果的置信度更高。
离线语音翻译关键技术2:讯飞数据增强技术与SATE-ex框架助力端到端语音翻译
语音翻译数据量是影响端到端语音翻译模型效果的关键因素,本次比赛采用两种数据增强方法: 一是知识蒸馏数据(KD) ,通过MT模型翻译语音识别转写数据,构建伪造的音频-转写文本-目标译文三元数据; 二是采用讯飞Glow-TTS模型 从翻译真实句对源语言文本生成大规模多样性的音频FB特征。
实现高性能语音翻译模型,模型框架起着至关重要的作用。在本次比赛中, 除了传统Encoder-Decoder架构外,团队还提出了Stacked Acoustic-and-Textual Encoding extension (SATE-ex)。 SATE-ex中的文本解码器通过附加一个额外的交叉注意力模型将声学解码器的最后一层解码隐层状态与文本解码器融合,同时利用适配器和文本编码器注入识别的CTC解码隐层状态,融合和互补了不同的解码策略,从而减少了中间错误的传递,增强了翻译性能。
此外,为进一步消除预训练ASR和MT中间表征的不匹配, 采用了自适应训练对SATE-ex的MT部分进行微调。 具体而言,该策略将声学编码器生成的CTC解码结果与目标语言中的文本进行配对,以微调MT部分。
基于上述多样化数据增强方式及SATE-ex框架的端到端语音翻译系统效果显著,逼近级联翻译系统。
Stacked Acoustic-and-Textual Encoding extension (SATE-ex)架构
方言语音翻译关键技术1:讯飞的方言数据增强技术提升级联语音翻译性能
方言语音翻译任务往往是低资源任务,数据增强技术是关键一环。本次比赛讯飞针对方言数据增强提出了有效的改良方法。
首先通过回译模型分别生成方言和标准语言领域的桥接数据(方言-标准语言的配对机器翻译数据),然后通过预训练-微调的方式训练桥接模型(标准语言翻译到方言的机器翻译模型),通过这种方式训练的桥接模型性能更好、更适应标准语言的数据分布,从而提升了伪造的翻译数据的质量。
方言机器翻译数据增强流程
实验表明,上述针对方言的机器翻译数据增强方法,可以伪造质量更好的翻译数据,提升方言机器翻译性能。
方言语音翻译关键技术2:讯飞Hybrid SATE模型大幅提升语音翻译性能
方言对应的标准语言往往是高资源的语言,例如突尼斯语对应的高资源阿拉伯语、粤语对应的高资源普通话,充分利用标准语言丰富的数据资源、模型资源对于方言语言翻译性能至关重要。
讯飞提出Hybrid SATE模型,将方言语音翻译的建模过程分解为四个阶段: 方言语音->方言文本->标准语言文本->目标语言文本,从而可以最大程度地发挥标准语言向目标语言的机器翻译性能。
实验表明,Hybrid SATE模型可以大幅提升语音翻译系统融合的性能。
实验结果
中英离线语音翻译结果如下所示。 对于端到端语音翻译,SATE-ex集成模型的结果(System #16)相比Encoder-Decoder集成模型的结果(System #17)提升了0.32 Bleu。 这表明SATE-ex端到端框架具备更佳的性能。此外,对比级联和端到端语音翻译的结果,可以看到端到端集成模型的性能已非常接近级联模型,进一步验证了本次比赛所用策略的有效性。
方言语音翻译赛道的结果如下所示。可以看出, 加入Hybrid SATE模型显著地提升语音翻译系统融合的性能,在非受限条件(data condition C)下,端到端系统和级联、端到端混合系统的最优性能平均拔高了0.6BLEU。 方言语音识别、方言机器翻译的性能也明显优于去年的最佳结果,证明了本次比赛针对方言语音翻译的技术方案的有效性。
在本次比赛中,讯飞联合团队采用了多种技术,打造了离线语音翻译领域以及方言语音翻译领域的强大基线系统,同时对级联语音翻译和端到端语音翻译两个技术路线进行了明显的提升。
在离线语音翻译领域,尽管与端到端语音翻译相比,级联语音翻译仍具有优势,但两种方法的结果已非常接近。预训练、数据增强和算法优化等因素是端到端语音翻译效果提升的主要原因,然而,监督数据稀缺仍然是限制端到端语音翻译效果的主要问题。
在语音翻译数据的建设、数据增广方案和高效框架算法方面的努力,有望真正实现端到端方案的落地。有效地利用语音、文本等数据资源也将让端到端语音翻译的未来充满曙光。
技能升级,产品应用体验持续迭代
目前,本次比赛中的所用到的相关机器翻译技术已在多个产品中落地应用,为我们的工作、学习和生活提供了便利和创新。
讯飞翻译机一直深受广大消费者喜爱与认可,能够支持84种语言的在线翻译、16种语言离线翻译,实时语言翻译迅速、精准,实现了技术与速度的完美结合;同时,讯飞翻译机还支持拍照翻译,无论身处世界的哪个角落,都能实现无障碍交流。
不仅如此,讯飞翻译机还具备突破性的方言翻译能力。搭载讯飞语音识别框架及翻译技术,讯飞翻译机能够无惧口音,轻松识别并翻译方言,包括东北话、四川话、河南话、粤语和山东话五种中文方言,听得懂,译得准。
此外,科大讯飞推出的讯飞听见、智能翻译对讲系统、录音笔等产品涵盖了活动会议、日常办公、跨国商务等领域,便捷准确的翻译服务收获了许多点赞。
作为北京2022年冬奥会官方自动语音转换与翻译独家供应商,科大讯飞提供的翻译机、讯飞听见同传等软硬件产品在冬奥场景进行应用,全程为北京冬奥提供多语种语音翻译服务;讯飞听见同传每年支持数千场重要会议,为跨语言交流提供了重要支持。