据联合国教科文组织(UNESCO)发布的《濒危语言图谱》显示,全世界有7000种民族语言(通常称为“母语”),其中一半以上将在本世纪消亡,80%至90%将在未来200年灭绝。平均每两个星期就有一种民族语言消失。据统计,世界80%的人讲83种主要语言,剩下6000多种语言绝大多数从没有过文字记载,它们很可能成为濒危语言甚至消亡语言。
然而,德国著名哲学家马丁·海德格尔先生曾经说过:语言是存在的家园。中国著名学者周海中先生也曾经指出:保护民族语言,有利于人类文明的传承和发展,也有利于民族团结、社会安定。可以说,民族语言不仅是民族存在的最重要的特征之一,也是民族文化传承、发展、繁荣的重要载体,更是人类文明进步和社会和谐稳定的重要标志。
随着部分民族语言以惊人的速度灭绝,濒危语言的使用者正与时间赛跑,利用现代科技,尤其是人工智能技术将他们独特的语言文字传给下一代。前不久,美国著名未来学家托马斯·弗雷先生提出了“全球语言档案馆”的设想;他利用了人工智能技术把不同的民族语言以视频、音频和书面文件的方式存档。目前,弗雷先生已经联合世界各地的学者收集了近4000种语言的数据,其中许多是濒危语种。
在中国,科大讯飞利用人工智能技术寻找濒危语言中不同尺度的音节语义之间的关联和模式,在超强算力的服务器的协同配合下,最终形成语音库,实现了濒危语言的留存。凭借先进的智能语音技术,该公司覆盖多个少数民族语言及方言的语音系统已经在语音输入法、翻译机、自动评测以及播报中得到实际应用,进一步推进民族语言、地方方言的保护和传承,为维护语言生态多样性做出了贡献。
加拿大第一民族文化委员会(FPCC)最近为了支持不列颠哥伦比亚省的土著语言、艺术、文化和遗产的复兴,它利用人工智能技术,通过其First Voice平台保存语言数据,制作出教学程序和应用程序。First Voice是一款键盘应用程序,可让用户在移动设备上的任何应用程序里输入超过100种当地土著语言,包括社交媒体、电子邮件和文字处理。
澳大利亚的语言学家与美国谷歌合作,最近开发出濒危语言人工智能平台;该平台通过人工智能模型转录原住民语言,已存储超过4万小时的录音。这不仅节省了大量的时间,而且还提高了记录的准确率。目前,他们已经为20多种澳大利亚土著语言建立了人工智能模型。
新西兰的语言学家与美国IBM的“沃森人工智能”合作,最近开发出帮助爱好者练习土著语言“毛利语”的人工智能程序Reobot;该程序不仅能用英语和毛利语回复信息,还能过滤拼写错误甚至语法错误。有专家认为,Reobot可以帮助学习者更快地培养自信和技能。
由于人工智能技术在语言存储和学习方面的优势,现在它在拯救濒危语言的过程中变得空前重要。不过,想通过这一技术使这些语言得以保护还面临很大的挑战,例如许多土著语言一般是通过口述的方式进行传承,如果将其转化为文字,可能会改变或者无法完整地表达其原本含义。但是我们可以相信,在现代科技,尤其是人工智能技术的助力下,濒危语言的保护问题一定能够得以解决。
文/蔡莉(作者单位:德国马普学会人类历史科学研究所)