一直来到实叻坡,乜事无。上山来做工,伯公“多隆”保平安。——潮州过番歌
所谓“过番”,指早期潮州人外出务工,乘坐小船历经七天七夜到达东南亚谋生,“实叻坡”是马来语“Selat”的音译词,便是指“新加坡”。上世纪,从中国东南一带移民至新加坡的华人中,福建人最多,其次就是潮州人。
新加坡华人学者李海洲回忆:
他在潮汕地区的一个小渔村长大,从小听闻“石叻坡”;没有上过小学,13岁前只会说潮州话,没想到长大后却精通普通话、广东话、英文与法文等多门语言,来到这座世界知名狮城,成为全球研究多语种语音与语言识别的先行者,入选 IEEE Fellow,多少有些不可思议。
作为全球知名的语音与语言处理专家,李海洲在工业界与学术界均颇有耕耘。早于深度学习兴起30年前,他便开始用神经网络进行语音识别。纵横学海四十年,李海洲见证了神经网络从无人问津到风靡一时。
在新的人物系列“Fellow来了”中,我们邀请了新加坡国立大学教授、快商通首席科学家李海洲作为第一位嘉宾,与我们分享了他的研究经历。
作者 | 陈彩娴
当年去广州读大学,乃至后来远渡重洋,临行前,我父亲都只能给一句简短的安慰:“我没法资助你。如果外面情况不好,就回来吧!”
从1994年离家至今,潮州学者李海洲已在海外生活近三十年。在接受新加坡潮州八邑会馆《潮人故事》的系列采访时,他回忆上世纪独身在外拼搏,从潮州小渔村到广州读书,又从广州去法国、法国到新加坡,恍如隔世。
文革前夕,他在中国潮安古镇的一所百年老屋中出生,之后随父母迁居汕头外海的南澳岛。由于岛上生活贫瘠,没有学校,与陆地之间的交通又不便利,所以他小时候没有机会上学。所幸母亲有些书本供他翻阅、学习认字。
李海洲在南澳岛度过了他的童年,极少与外界交流,所识语言只有家乡的潮州话。他记得,在他13岁开始上学时,因为没有学过普通话,所讲的国语常常成为同学的笑柄。
但少年时期的李海洲念书十分用功:
奶奶总是提醒我,你要读书,要考到好成绩,不然以后倒垃圾的工作都不会轮到你。
他拼命学习,考上潮安第一中学(现为潮州金山中学),又在15岁那年以优异的成绩考上了广州华南理工大学(以下简称“华工”)无线电工程系。当时,文革结束不久,高考恢复不过3年,教育制度还未健全,入学标准只凭考试成绩,而不限制年龄。
于是,1980年,16岁的潮州少年李海洲又孤身一人,乘坐大巴,从潮州来到了广州。他记得,那时候,父亲的月薪只有人民币50元,并不能为他的远游提供太多经济上的资助。在华工读书时,每个冬天,他都是洗冷水澡。但李海洲很乐观:“我洗冷水澡时,一定会大声唱歌,因为唱歌的一个功效便是减少痛感。”
那时候,虽然生活条件艰苦,但李海洲称,在华工的读书时光是他最重要的成长阶段。他在母校收获了刻苦耐劳、动手实干的工程师特质与大学精神。在这段朴素而纯粹的流金岁月里,他以苦为乐,全身心投入专业知识学习,取得了优异成绩。
李海洲从小就对智能机器十分着迷,高中时在物理老师谢甲明的指导下迷上了无线电。本科时,他努力学习无线电相关的专业知识,毕业那年考取了时任华南工学院副院长、著名电子学家徐秉铮教授的硕士研究生(通信与电子系统方向),在徐秉铮的门下学习语音处理。
硕士期间,李海洲在数字信号处理技术领域多次发表学术论文,其中,“基于音素的普通话孤立字、词的不认人识别”获得了广东省高教科技进步二等奖,成为了徐秉铮的得意门生。
1987年夏天,即将硕士毕业时,徐秉铮举荐李海洲去参加了香港大学陈础坚教授(香港首位从事语音识别研究的学者)在广州开设的暑期班。李海洲还记得,当时在第一节课上,陈础坚就对着台下的学生说:
大家要仔细听讲哟,两周后参加考试,成绩优异的学生会有机会去香港实验室深造。
李海洲十分努力,两个星期后,他在一众学生中突围而出,成为了少数入选华南理工大学与香港大学联合培养博士研究生的幸运儿,拜师陈础坚门下,继续研究语音处理学。
那时,香港还未回归,去香港读书比出国还难。李海洲印象深刻:“我去了香港后,有一年国庆节,新华社邀请在港读书的内地学生就餐,整个香港只有20个内地学生。”
在港读博期间,李海洲完成了香港政府资助的“语音静态模型”研究项目。他的博士论文“语音的静态模型及汉语语音识别算法的研究”因其创新的视角与扎实的理论基础,不仅得到了电子研究同行的一众好评,还获得了知名数学家梁之舜(国内最早研究概率统计学的学者之一)的高度评价。
值得注意的是,早在深度学习兴起之前,李海洲这篇发表于上世纪90年代的博士论文已经用到了神经网络的语音识别算法。但当时,用神经网络识别语音的技术在国内并不受推崇,“我1990年博士毕业时都找不到工作”。
他分析,原因主要有两点:一是当时的电脑计算能力没有现在这么强,比如,在他的博士论文结果中,电脑只能识别 10 个数字;二是当时的电脑价格非常昂贵,相当于一个大学教授几个月的薪水。如此一来,高成本、低回报,这项技术自然就遭到了冷落。
后来,在徐秉铮的帮助下,李海洲获得了留校任教的机会。虽然当时智能语音识别研究不受推崇,但李海洲坚持自己的热爱:“我就觉得,计算机能听懂我说的话,真的太神奇了!”于是,他与导师徐秉铮继续沿着这个方向探索。
比如,他们发表于1991年的工作“An implementation of short-timed speech recognition on layered neural nets”就开始尝试引入神经网络架构与学习算法来实现多层感知器(MLP)上的孤立词识别,同年工作“A learning algorithm for MLN with dynamic neurons”又尝试训练具有多局部反馈的动态神经元的多层网络架构,使其记忆序列模式,用来进行中文数字语音识别。
回想那段无人问津的研究岁月,李海洲的感受是:“我觉得自己很幸运,因为在深度学习冷门的时候,我就开始研究。只是当时条件有限,但后来数据增多,深度学习就显示出了它的强大。我从中得到的体会就是,要喜欢自己的研究,然后坚持。如果你又喜欢、又专注,你也有能力,那你的研究迟早会有用。”
我是从渔村里走出来的穷小子,没上过小学。16岁刚上大学时,我连英语“早安”(Good Morning)都不会说。
从1990年博士毕业至今,这30多年里,李海洲坚持自己做语音识别与语言处理的方法。他一直认为,机器学习的基础理论不仅支持了机器的识别工作,而且也是人学习语音与语言的过程;也就是说,人的学习也是一个“机器学习”过程,只是学习的主体不是电脑,而是人脑:
“人学习的过程也是通过大数据进行学习,从听人如何发音,到一个音、一个音地学习,然后学会了一种语言,再将第一种语言的知识转移到第二种语言中去。”
这个观点来源于李海洲本人学习多种语言的亲身经历。
李海洲的母语是潮州话,上了中学后开始学习普通话。“那时候我觉得学普通话很难很难,但是,当我学习第三种语言、第四种语言、第五种语言时,我就觉得没那么难了,因为我已经有了学习语言的方法。机器学习就是这样,从一个地方学来的东西可以拿给第二个地方用,所以我对机器学习特别有兴趣。”
上初中时,他只学会一句英语,就是“Long Live Chairman Mao”,升高中后多了一句“Never forget class struggle”。所幸,英语在1981年之后才被列为高考的必考科目,而李海洲十分幸运,因为他参加的是1980年高考。
读博期间,李海洲的大部分时光都是在香港度过。那时候,他才有机会学习英文;此前,他连“Good Morning”都听不懂。也是在那时候,李海洲开始学讲广东话,他的感受是:“广东话最难学,因为没有课本。”
博士毕业后,1991年,李海洲加入华南理工大学任教,年仅26岁就被华工评为副教授;一年后,也就是1992年,又被破格提升为教授,担任博士生导师,成为了全广东省最年轻的博导。
但李海洲并没有安于现状,1994年,他又在法国国家科学院的邀请下,去法国国家科学研究中心(CNRS)担任研究员,从事语音识别研究,并开始涉猎声纹识别。
在法国的三年,李海洲驻在“洛林之魂”南锡(Nancy)。出发前,他已在广州学了一年法文。到了南锡之后,他又几乎每晚都跑去“阿尔及利亚人之家”学法文。这是一个专门协助阿尔及利亚人学法文的机构,无需学费,学员只需在冬天时付点柴火费。他们没有拒绝李海洲的加入,他也去了足足一年,总算打好法文基础。
1996年,受到新加坡多元语言与文化氛围的吸引,李海洲又应聘到了苹果公司新加坡研究中心担任语音处理实验室主任。之后,他便一直留在新加坡,先后任职于苹果、Lernout & Hauspie、言丰科技、新加坡资讯通信研究院(A*STAR),直到2014年重返学术界,加入新加坡国立大学电气与计算机工程系担任终身教授。
如今,李海洲熟练掌握潮州话、普通话、广东话、英语和法语,能应付工作需要的语言还有越南语、泰国语、马来语、日语和韩语。
有感于自身学习语言的经历,在教机器学习时,李海洲总是强调“先了解人是如何学习的,然后再告诉机器应该怎样学习”。这是他多年来的研究心得,即把人的认知过程放在机器学习的研究上。从这一思路出发,李海洲团队在语音识别与语言处理上取得了许多不错的研究成果。
比如,最近他们被顶刊 TASLP 录用的工作(“Target Speaker Verification with Selective Auditory Attention for Single and Multi-talker Speech”)便是来源于对人们日常交流方式的观察,从“双向认知过程”来做语音识别与对话系统。
在人类的交流中,当 A 在听 B 说话时,无论旁边有多少杂音、B 说话的声音多小,A 只需要专注听,就一定能听到 B 的说话声,因为人脑可以“指挥”耳朵听什么、不听什么。但现在的机器在识别目标语者时,性能并不稳定。有时候,如果两三个人在一起同时说话,电脑就无法识别。
“我就研究,人在复杂的环境中是怎么听的,任何把这个过程放在机器里。”李海洲谈道。在 TASLP 这个工作中,受 SpEx 等工作的启发,他们就在机器识别中引入了听觉注意力机制,提出了目标语者验证(tSV)框架,可以在多语者环境中有效识别目标语音。
地址:https://arxiv.org/abs/2103.16269
对研究思路的指导还是其次,多语言背景对李海洲最重要的影响是使他成为了多语种语音识别研究的先行者。他在2014年被选为 IEEE Fellow,入选理由便是“For leadership in multilingual speaker and language recognition”(引领多语种语音与语言识别研究)。
早期的语音识别局限于英文,而李海洲的工作不仅覆盖英语,还有中文、马来文、韩语、日语、泰文、越南语等等。“人在分语言时,是人为分割,其实是同一双耳朵、同一个大脑。我的理念是用同一套系统(多语种大词汇集连续语音识别系统)来实现多种语言识别,而不用重复开发。”
回顾研究生涯,李海洲最自豪的是,2001年,他所开发的多语种语音自动问答系统在新加坡樟宜国际机场投入使用。这个系统每天可以处理超过一万个查询电话,是当时东南亚最大的全自动客户呼叫中心。“出租车司机非常喜欢这项工作,因为他们只需拨打电话,就能知道航班信息,知道什么时候出发去机场。”李海洲也因此获得2002年新加坡国家资信科技奖。
2018年,他又与南洋理工大学的 Chng Eng Siong 教授合作开发了专门用于处理新加坡 995 紧急热线的多语种通话自动处理系统,可以实时转换并记录每个电话,根据来电内容进行资源调度。这个系统覆盖了多种东南亚语言,还可以识别闽南语中的“jiak ba bueh”(你吃过了吗)和“hoh boh”(你好吗),以及炒粿条和椰浆饭等当地菜肴。
2015年,李海洲当选为国际语音通信学会(International Speech Communication Association,简称“ISCA”)的主席。他也是ISCA自1988年在法国格勒诺布尔成立以来的首位华人主席。ISCA是语音技术领域最重要的国际顶会,李海洲相信,他能从2009年开始在 ISCA 任职,从理事到候任主席、再到主席,一个很重要的原因就是他精通法语。
除了 ISCA 主席,他还曾凭借出色的英文能力,担任了 IEEE/ACM Transactions on Audio, Speech and Language Processing(美国研究和实践音频、语音和语言处理理论最权威的学术月刊)的总编辑、
回想自己从一个小渔村出来,远渡重洋,辗转多地,李海洲十分感慨。他刚上大学时,是一个连“Good Morning”都不会说的潮州仔,没想到后来却能凭借出色的外文能力,在国际学术刊物与顶会上担任要职。
我在中国出生长大,后来出了国。出国以后,人家经常问我:你的研究兴趣是什么?被人家问了一辈子。从来没有人问我:你的工作是什么?
纵横学海四十年,李海洲常常被提问到一个问题:“研究语音这么多年,您如何保持做科研的热情?”每一次,他的内心都闪过无数问号,忍不住 OS:“除了是因为兴趣,还能是什么?”
在他博士毕业那会,虽然电子计算机与信息技术已开始腾飞,但因为他所研究的方向太冷门前沿,李海洲拿着一张计算机博士学位的文凭,都找不到工作。但他很喜欢自己的研究方向,“我觉得我跟机器交流,它能识别我说的话,就像变魔术一样,很有成就感。”所以,即使没有得到肯定,他也能坚持做下去。
后来,他加入企业做研究,先后研发了苹果电脑中文输入系统、全球首款声纹解锁智能手机(百度云手机联想A586)、百度音乐“听歌识曲”等成果。A586在2012年推出,被誉为百度在人工智能领域的超前布局之一,李海洲回国,在街上看到有人使用他的声纹识别技术解锁,心里特别开心。
“这种成就感与金钱无关。我自己是认为,有人愿意给我发薪水,让我做我自己喜欢的东西,就是双倍的回报。”李海洲谈道,他崇尚“Use inspires research”(用途驱动研究),最大的愿望是能够将所学的知识工程化,最终顺利在现实中落地。
从1996年到2014年期间,李海洲一直在工业界活动。2014年重返学术界、在新加坡国立大学担任终身教授后,在培养学生时,他也总是强调:研究的课题必须来自实际需求;写一篇文章,就要解决一个问题。
在语音研究上,他的最终目标是希望机器能像人一样完成语音相关的任务。当对话系统在与你交流时,你分不清“它”是人还是机器;机器在听音时,无论环境多嘈杂,你都能准确识别目标者的声音。
虽然已返回学术界,但李海洲仍然十分关心工业界的实际问题。因此,2018年,李海洲又与厦门快商通科技股份有限公司(以下简称“快商通”)建立了研究合作关系,在快商通担任首席科学家。
关于学者与业界合作,李海洲的体会是:
“与业界合作的一大好处是,他们每天都有很多问题。你不一定要帮助他们解决每一个问题,但通过了解这些问题,你可以总结出一些共同的根源,然后从中定义研究问题,从而将知识与业绩相结合。”
对比从前合作过的企业,李海洲认为,快商通最大的特点是有一个大的用户群。“我觉得这对做机器学习的研究是不可缺少的,因为你必须要有大量的客户群,才能了解客户的需求,然后从这里出发,找到科学问题,改进服务。”
快商通的主要业务是打造智能对话系统。
1999年至2001年期间,李海洲也曾与比利时企业 Lernout & Hauspie 合作,希望打造一台先进的对话系统。但在与 L&H 合作时,智能对话系统的商用仍处于起步阶段,他们花一年时间做一个系统,然后推出去让用户体验,收集数据,再根据反馈来改进系统,给他的感觉是“闭门造车”,难有成果。
相比之下,快商通的优势是与客户有直接互动,客户数量也更多,他们可以花几个月搭建一个系统、同时与用户保持密切交流,再根据用户数据来改进系统。
结合自己以往在中小企业与大企业的工作经验,以及在高校做研究的专业知识,李海洲为快商通制定了一项研究计划,叫“大齿轮-中齿轮-小齿轮”。他总结,一个科技企业能够成功,模式就是像一个小齿轮箱一样,最中间有一个转得慢的大齿轮,旁边有几个中齿轮,然后外面有很多转得飞快的小齿轮:
“小齿轮是面向客户的,每天要完成很快的任务;中齿轮是要把大齿轮的力量给传递出去;大齿轮就是公司的长远科研。它必须慢慢转,像大学里的科研一样必须有积累。所以我强调,公司每做一个项目,都必须有技术积累,然后越做越大。也就是大齿轮的力气就越来越大,可以带动很多中齿轮跟小齿轮。大齿轮的储能不是一日形成的。”
在李海洲的帮助下,快商通在对话系统研究上取得了一系列成就。比如,在语音识别方面,快商通目前的技术可以实现高准确率和不同口音识别。与市面上多种语言对话需进行系统切换的对话系统不同,快商通可以在同一系统内达到多语言切换。在自然语言处理方面,快商通在多轮对话系统的性能提升和评估方面也实现了新的技术突破,他们的工作(“DynaEval: Unifying Turn and Dialogue Level Evaluation”)被 ACL 2021 收录。
地址:https://arxiv.org/pdf/2106.01112.pdf
在李海洲的指导下,快商通已经完成对话机器人底层逻辑的重新构建,突破标准化产品模式,推出智能人机对话平台KICP,支持0代码、低成本、小样本创建智能对话。从供给侧来说,KICP可极大减少快商通的定制开发成本与后续运维投入;从需求侧来说,客户可基于需求特点与业务逻辑自主搭建,使产品更贴合自身想法。
此外,李海洲谈到,他希望能够与快商通合作,实现每一单独系统均服务百万以上的客户群,“当100万个用户同时来咨询时,系统必须能够实时响应。”
我觉得这个方向还可以研究50年。
谈到语音识别研究的未来,李海洲仍然充满热情。
除了自动语音识别,他的研究内容还包括语音分离、文本处理、数字信号处理、多模态与类脑计算等等方向。相比“人工智能”,李海洲更倾向于将其定义为“机器智能”。
在他看来,目前的人工智能系统仍存在许多亟待解决的局限性。比如,语音识别是针对一项任务开发一个系统、而无法通用,并不能像人一样举一反三;再比如,人工智能的学习大多由数据驱动,由此打造的系统在面对未学习过的场景时,往往不知所措。要解决这些问题,仍需要下一代的努力。
除了科研,李海洲如今最喜欢的事情便是培养研究生,看着学生成长。
作为曾经历过语音研究低潮期的学者,他在面试学生时总会先问他们:“你来读这门课,是因为真的喜欢这个课题,还是因为这个方向在外面很火热?”只有具备真正的热情,他才会收他们作为学生。
他所培养的学生中,许多人目前也在高校与企业担任要职,比如华南理工大学电子与信息学院的金连文教授,微软首席应用科学家肖雄,Facebook研究科学家、开发了 TTS 工具包 Merlin 的 Zhizheng Wu等等。与李海洲一样,他们也十分注重研究成果的落地与实用性。
在深度学习时代,李海洲明显感觉,当前的研究氛围有些浮躁。对于青年学者,他的建议是:
现在很多人在做语音处理的时候,因为有了深度学习的工具,所以他们就每天拿DL工具来试东西。试了100个,其中有1个好的,他就很开心了,但是什么也没有学到,也没办法推广。我觉得这个研究方法是不可取的。
如果要从事语音识别、语音处理、语音合成、声纹识别之类的研究,还是要回到根本,从语音的基本理论学起,比如学习语音是什么样的,语音有什么样的物理特征,回到信号处理的根本。你去了解信号是长什么样子,人是怎么处理的,然后才慢慢的去使用工具。
而研究对话系统的话,李海洲的建议是首先要读自然语言处理的基本理论知识,然后才进入深度学习的世界。
“就像学武术一样,从基本功学起,这样才能扎稳根。”