11月10日,天猫将举办双11“春晚”,冯小刚导演,从20:30开始直到双11零点。
据悉,届时会有摇一摇获得“1元购”的互动,有机会以“1元”的价格摇到美国游的机票、扫地机器人神马的,那么在大型晚会上这种通过摇一摇抢到红包或者节目单或者明星祝福什么的,互动是怎么实现的?他们是怎么知道我正在看什么节目的呢?
果壳网一位语音及语言信息处理博士@跋涉之声对此进行了解答。
其实,这项技术的关键,根本不在于“摇一摇”,而是要归功于核心技术:音频指纹识别,这与“听歌识曲”的原理是一样的。
他举例说,如果你过年的时候不怕长辈生气,看春晚把电视调成了静音,你就会发现一个无情的事实:手腕摇断了都不会有明星送祝福。因为其实无论是支付宝,还是天猫这次双11春晚可能会用到的手机淘宝、手机天猫等app,在开启“摇一摇”这种功能的时候,你要先保证你的手机能“听到”电视发出的声音,这样手机上的麦克风才能采集音频信号,并对音频信号进行一些特征的预处理后,提取到音频的指纹。
目前比较通用的音频指纹是音频的频谱特征,例如频谱平坦度(spectral flatness)、频谱峰值点、调制频率等。收集到的音频信号会先被无情地卸掉伪装,也就是进行数字采样和降噪等预处理,然后再通过加窗的方式分帧,对于每帧音频信号会提取出音频的频谱特征。最后将一系列连续的特征序列拼接成单独一个向量,我们就得到传说中的音频指纹了。