文/陈根
声音是一个人独特的标识,而在人工智能的快速发展下,这一独特标识却又有了越来越多可代替的选项——语音合成作为人工智能的一个重要分支,旨在通过输入文字,经由人工智能的算法,合成像真人语音一样自然的音频。
现在,机器已经可以轻松又准确地模仿人类讲话,并被广泛的应用于音视频创作场景中,甚至机器也可以克隆特定人的声音。给算法输入某个人的一个声音片段,算法会学习这个人的方式,然后再把这种说话方式跟其他的人声相结合,不过问题或许也随之而来。
语音合成还将超越预想
语音合成涉及创建特定的声音模型,不仅可以将文字转化成声音,而且可以转化为接近真人语调和节奏的声音。语音合成虽然并不是一个新近的技术,甚至已经是一个广泛应用于各行各业,以及出现在人们社会的生产和生活的技术,但语音合成能带来的未来,实际上仍然超越人们的想象。
语音合成应用中最为人们所熟悉的就是人工智能的语音电话、语音导航、语音助手以及配音等。
比如,配音方面,在过去的几十年里,许多经典的 TVB 影视片都离不开配音。并且,动漫等影视中最逼真的声音合成,也大多通过配音演员的声音录制来实现的,然后将他们的声音剪切成不同的片段,像做拼图一样,将这些声音“拼接”在一起,形成一整段声音。语音合成则让昔日繁琐且枯燥的配音工作有望被取代。配音将不再是专业人士的标配,任何人都可以自主且简单地克隆自己的声音,而克隆出来的声音近乎逼真。
直到不久前,语音克隆,即过去所说的“语音银行”,还只是个定制业务,为那些有可能因癌症或手术丧失语言能力的人服务。过去,模仿并合成语音耗时漫长,花费不菲。过程中要录制许多短句,每一句都要以不同的情感侧重及根据不同的语境(陈述、疑问、命令等)重复多次,为的是涵盖所有可能的发音。比利时语音银行公司阿卡贝拉集团(Acapela Group)对需耗时八小时的录制过程收取3000欧元(3200美元)的费用。其他公司收费更高,还需要顾客在录音室里花上好几天的时间。
现在,神经网络可以对目标声音的未排序数据进行训练,最终以简单快速、容易的方式,生成一段完整的音频。当人们将克隆的音频从设备中导出时,音色和音质几乎不会受到压缩和影响。
不过,当前人们所应用或者预想的语音合成还只是语音合成的一部分场景,而放眼语音合成更广阔的未来,还将成为人类一种全新的交流设备。
当前,许多工程师都致力研发将人脑和电脑进行联系的精密系统,并且这项工作也在不断地改进。尽管现在的系统主要是基于注视和视觉注意——这对于许多患者来说都很难做到,但是解码听觉注意和运动想象的系统也在不断研发中。
未来,通过使用这样的设备,一位四肢瘫痪的患者可以成功地用思维控制机械手臂。如果将这种装置植入大脑的语言区,或许有一天语音合成器就能把患者想说的话真实地传递出来。更进一步说,完全瘫痪了的中风患者或许能够通过一部可以识别个体语言大脑模式的语音合成器“开口说话”。
2019年4月,加州大学旧金山分校的华裔教授爱德华·钱(Edward Chang)及同事开发出一种将脑活动转为语音的解码器,这套人类语音合成系统,通过解码与人类下颌、喉头、嘴唇和舌头动作相关的脑信号,合成被试想要表达的语音。
可以说,过去人类声音所到达的地方,现在语音合成都在一步步到达,语音合成的应用越发深入地融入人们的生产和生活,也在不经意间改变着人们的生活。
关于真实的博弈
现在,几近成熟的语音合成已经可以轻松又准确地模仿人类讲话,不过问题或许也随之而来。
2014 年,电影《永远的蝙蝠侠》中知名演员瓦尔·基尔默(Val Kilmer),因患喉癌被迫做气管切开手术,导致声音受损。至此,瓦尔·基尔默与许多优秀影片擦肩而过,演艺生涯近乎跌入谷底。而利用语音合成技术就能够创造出了瓦尔·基尔默的“原声”。2021年 8 月,一家名为奏鸣曲(Sonantic)的初创公司声称,他们已经通过人工智能语音克隆技术创造出了瓦尔·基尔默的“原声”。
这种声音克隆技术使用起来并不复杂,人们只需要拿着事先准备好的台词,对着麦克风仔细录制 30 分钟左右,即可完成第一步克隆工序。录制的过程中读错字,或者有发音没有很清晰等情况,只要停下来重新录制这部分即可。
全部录制完之后,将生成的音频文件导出并做一定的处理,几个小时以后人们克隆的声音就做好了。此刻,人们可以互动界面中输入各种想表达话语,人工智能克隆技术就可以在较短的时间内生成专属自己的“逼真声音”。
巴黎一家新公司CandyVoice开发了一款手机应用,只要对着它说出约160个法语或英语短语,程序就能将这些发音的片段重组,念出之后打字输入的任何字句,听起来和我们自己的声音颇为神似。这个应用其实是克隆了我们的语音。拼合出的语音听起来还是有点合成的味道,但CandyVoice的老板让·吕克·克莱伯(Jean-Luc Crébouw)认为,公司算法的改进会令声音变得越来越自然。
此外还有一款类似的软件Festvox,由卡内基梅隆大学的语言技术研究所针对英语及四种广泛使用的印度语言开发。而百度则表示,其开发的软件仅凭50句话就可以模拟一个人的声音。
不过,在越来越逼真的语音合成下,也出现了越来越多的担忧和质疑——假的东西越真,辨别假的成本也越大。从语音合成到视频合成,其中一个严重后果,就是对于信息的真实性形成的严峻挑战。
自从摄影术、视频、射线扫描技术出现以来,视觉文本的客观性就在法律、新闻以及其他社会领域被慢慢建立起来,成为真相的存在,或者说,是建构真相的最有力证据。“眼见为实”成为这一认识论权威的最通俗表达。在这个意义上,视觉客观性产自一种特定的专业权威体制,声音更是作为一个人独特的标识存在。
然而,合成的技术优势和游猎特征,使得这一专业权威体制遭遇前所未有的挑战。借助这一体制生产的视觉文本,深度造假者替换了不同乃至相反的文本内容和意涵,造成了文本的自我颠覆,也就从根本上颠覆了这一客观性或者真相的生产体制。PS 发明后,有图不再有真相;而深度伪造技术的出现,则让视频也开始变得镜花水月了起来,再加上声音也不再可信,这对于本来就假消息满天飞的互联网来说,这无疑会造成进一步的信任崩坏。
比如,2021年,一位银行经理接到公司董事打来的电话:公司安排了一项收购,要从账户里转出巨额资金,希望他批准这道流程,还附上了相关律师的电子邮件,以确认金额和转入账户。
这次交易合法合规,流程也并无问题,况且还是老板亲自打的电话,他就按要求将3500万美元如数转出。直到转完账之后,这位迪拜高管也万万没有想到,电话那头熟悉的老板的声音,其实是用语音克隆技术合成的。这桩诈骗案由福布斯报道,但受害者的名字和其他更多细节没有透露。据估计,这项精密的计划至少涉及17人,自去年年初,骗取的资金已经发往全球各地的银行账户。
总的来说,语音合成的可能性真实存在,也被人们清晰地看见,但语音合成的风险也需要人们重视——要知道,一个失去了“真实感”的世界,将会比没有语音合成的世界更加可怕。