尽管人类是万物之灵,但即便是小小的果蝇,也有比人类更出色的地方。
果蝇体长一般在 1.5-4 毫米之间,但是人类却很难拍打到它。尽管我们拍打果蝇的速度通常在 50 到 200 公里/小时之间,这远远高于苍蝇的运动速度(8 公里/小时),然而果蝇仍然能够顺利逃脱。
这是因为果蝇对于动态视觉信息的感知速度和处理速度比我们更快。人类具有复杂的视觉系统,里面包含大约 108个光感受器、以及 1011个神经元。在处理比较复杂的视觉任务时,我们通常会有 25 到 100 毫秒的延迟。
而果蝇具有微小而紧凑的视觉系统,每侧复眼中有约 780 只小眼,其视觉系统中含有 105个神经元。面对同样的情况,它只有 10 毫秒左右的延迟,故可以快速感知和处理动态视觉信息。
以此为灵感, 香港理工大学教授课题组于近日实现了对于动态视觉信息的有效处理。
该团队通过制备仿生昆虫视觉系统的梯级神经元,对时间信息和运动信息进行了有效编码。
(来源:Nature Nanotechnology)
通过采用 20×20 的光传感器阵列,可以检测视野中的轨迹,并且只需使用很少的计算资源,就 可以对移动物体的方向进行识别,识别率更是达到 99.2%。
对于运动检测来说,该成果提供了一项独特且有效的解决方案, 将给机器视觉带来重要价值,可以说是感算融合计算领域的重要进展。
这种基于传感器内动态视觉信息的处理,具有低成本和适应性广的优点。在分布式监测系统中,该类仿生器件可以得到广泛应用,比如可被用于保护城市安全、生产线作业和运动分析等。
再比如,当使用该成果打造智能门禁系统时,通过监测建筑入口处的人员移动方向,可以实现人流分布的统计,从而更好地确保人员安全。
同时,该成果还可以监测工业生产线的作业过程,在安全监控的基础之上,还能优化工作效率和生产质量。
(来源:Nature Nanotechnology)
而经过后续的改进,这款器件也有望用于自动驾驶、无人机系统、增强现实和视频游戏等场景,具体来讲:
其一,它可以在自动驾驶中实时处理动态图像,以便在复杂的环境中实现导航;
其二,鉴于增强现实应用的核心是处理动态图像,因此对实时视频流进行分析和处理,就能将数字信息叠加到真实场景上。
图 | 柴扬(来源:)
日前,相关论文以《用于生物启发的传感器内运动感知的光电分级神经元》()为题发在 Nature Nanotechnology 上 [1]。
图 | 相关论文(来源:Nature Nanotechnology)
陈杰威是第一作者,韩国首尔延世大学电气与电子工程学院(Jong-Hyun Ahn)教授和香港理工大学教授担任共同通讯作者。
图 | 陈杰威(来源:陈杰威)
快速感知动态视觉信息,到底有多重要?
据介绍,动态视觉信息是可以随时间变化的图像信息,例如移动的车辆、流水线上的物品等。通过快速感知动态视觉信息,从而对环境变化做出响应,对于动物生存和人类生活十分重要。
自动驾驶汽车、无人机和智能机器人等,也都依赖于动态视觉信息的处理。如果没有处理动态图像的能力,这些任务就很难完成。但是,动态视觉信息的处理,是一个非常有挑战性的计算难题,原因在于它需要大量的计算资源。
而该课题组很早就意识到动态视觉信息处理的重要性。2019 年,他们设计并利用光控阻变器件,实现了静态图像感知和预处理功能 [2]。随后,他们提出了感算融合的方法 [3]。
2021 年上半年, 该团队的陈杰威博士获得关于感算融合处理动态视觉信息的初步实验结果,实现了感算融合动态信息的感知和处理。
那时,器件的均一性比较差,对于动态信息的处理也比较局限,只能用于特定的场景。因此,他们并未急于发表论文,而是打算实现更好的动态视觉信息处理。
(来源:Nature Nanotechnology)
2021 年,课题组关于人工视觉适应的论文被接收之后 [4],建议陈杰威开展以下研究:弄清楚为什么飞行生物可以实现快速敏捷的视觉感知。
一番调研之后,陈杰威发现果蝇具有很小的视觉系统架构,但却能够快速处理动态视觉信息,核心原因在于它具有高速信息传递速率的梯级神经元。
梯级神经元的信息传递速率高达 1600bit/s,远高于尖峰神经元的 300bit/s。背后的原因在于,人类视觉系统中的视网膜由尖峰神经元构成,其输出的视觉信息经由视觉神经传递到大脑进行处理。
当外部刺激大于一定阈值的时候,尖峰神经元的膜电位会出现剧烈的增加,从而呈现出远高于基态的“尖峰”响应。
这一改变具有“全有或全无”的特性,而且尖峰神经元在释放尖峰信号之后会进入一个不应期。以上会让尖峰神经元的信息编码能力受到限制。
而飞行昆虫的视觉处理系统,由梯级神经元构成。它可以对一定时域中的刺激进行产生多级的响应,并能展示出时间积累的特性,且能随时对外部刺激做出响应。
于是,他们决定设计类似于果蝇的仿生梯级神经元阵列。后来,他们发现仅仅采用二硫化钼晶体管这种简单的器件构型,就可以实现仿生梯级神经元。其中,光传感器的响应是亚线性的,这可以很好地提高信噪比。
研究期间,对于仿生传感器在连续光脉冲下的光响应,该团队进行了测试。结果发现:本次器件在时间上的编码特性,类似于昆虫的梯级神经元。
在果蝇的视觉信息编码中,不同频率之下的响应值的信噪比,决定着信息的传递速率。
其中,有了相同刺激之下的多次响应的均值,就可以得到信号强度;而通过响应值与信号曲线的作差,则可以得到噪声强度。
在相同的刺激之下,只有光响应曲线变化较小的器件,才可以得到较高的信息传递速率。
通过多次实验,课题组发现在大约 200℃ 左右的条件下,让热退火保持数小时左右,就能增强氧化铝对于二硫化钼的电子转移掺杂,从而实现较稳定的器件光响应,以及减少不同器件的电学响应差异。在优化实验条件之后,他们实现了超过 1000bit/s 的信息传递速率。
借此,该团队实现了仿生梯级神经元阵列,其具有高效的信息传递速率,可以有效地编码时空信息,为在有限计算资源下进行动作识别提供了有效方案。
一开始,他们把这篇论文先投稿到 Nature,几个月后被拒稿。在认真修改之后转投 Nature Nanotechnology。最终,审稿人认为这项基于仿生梯级神经元的研究实现了感知与计算的融合,能够有效处理动态视觉信息。
为何仿生视觉传感优于传统图像传感?
那么,为什么仿生视觉传感优于传统图像传感?在本次工作中,当仿生视觉传感器位于传感端的时候,可以实现融合时间与空间信息的输出;而传统图像传感器只能输出空间信息。
双流卷积模型,是一种动态视觉信息处理的经典算法,它通过将视频流划分为空间和时间两个流,来实现对于视频信息的处理。
不过,这会增加模型的训练成本和复杂度,在实际应用场景中也会耗费更多的计算资源和时间成本。
相比之下,该团队不仅在传感器端融合了时空信息,还提取了运动特征,并采用了简单的 ANN 算法架构。
因此,尽管相比双流模型算法,ANN 算法架构的参数量小了大约 3 个数量级,但是他们仍然实现了 99.2% 的识别率。
目前,课题组能够调节 5 个数量级变化的时间常数,从而可以处理不同速度的动作。为了拓宽应用场景,课题组打算结合 PN 结等器件结构,以便实现百纳秒到百秒级别的时间常数调节。
(来源:Nature Nanotechnology)
另据悉,当前版本的阵列器件是 20×20 的级别,和果蝇复眼中 780 个小眼的数目大致相当。这意味着在进行较复杂任务的时候,需要更精细的图案。所以,他们接下来要制备具有 50×50 像素点的阵列器件。
同时,尽管本次器件实现了传感器内部的时空信息的融合,但是在后端上仍然是使用小型神经网络架构来实现动作识别。
未来,他们打算利用硬件实现后端的神经网络功能,从而完成纯硬件的仿生感知、以及识别的一体化。
本次研究中,该团队选择二维半导体光电晶体管,来模拟梯级神经元的特征,原因在于其具有以下优势:
首先,二维半导体具有超薄的厚度,只需施加较小的栅压,就可以在很大范围内对器件的光电响应进行调节,从而处理不同速度的动态运动。
其次,具有浅电荷捕获中心的二维光电晶体管,对于时间依赖存在易失性响应的特点,这让它能够模拟梯级神经元的功能。
从物理原理来看,也有其他半导体材料可以代替二维半导体来实现梯级神经元,但是它们必须具备可调节的易失性光响应,同时这种光响应需要具有较高的信噪比和信息传递速率。
目前,课题组也在考虑采用半导体产业中比较成熟的硅材料,来模拟分级神经元的梯级神经元。通过将传统硅基工艺和二维材料进行结合,有望让光电晶体管发挥更大的优势,进而实现“1+1>2”的效果。
另据悉,课题组正在招收具有器件物理背景的博士后,有意向请联系 ychai@polyu.edu.hk
参考资料:
1.Chen, J., Zhou, Z., Kim, B.J.et al. Optoelectronic graded neurons for bioinspired in-sensor motion perception. Nat. Nanotechnol. (2023). https://doi.org/10.1038/s41565-023-01379-2
2.Nature Nanotechnology 14 (2019): 776-782
3.Nature579(2020), 32-33;Nature Electronics 3.11 (2020): 664-671
4.Nature Electronics 5 (2022): 84-91
运营/排版:罗以
由 DeepTech 携手《麻省理工科技评论》重磅推出的《科技之巅:全球突破性技术创新与未来趋势(20 周年珍藏版)》已开售!点击下方海报可购买图书!!