像人脑一样看:机器视觉的一种新形式
近年来,图像传感器阵列逐渐发展出一种集成神经网络的新体系结构,它可以同时采集和识别光学图像,并且可以在不将信号转换成数字形式的情况下使高速信息处理成为可能。
视觉是我们最重要的感受之一。虽然人类的视觉更精确、更高效,但受生物学启发的机器视觉近十年来发展迅速,使得人工系统能够“看到”世界,从图像和视频中获取有价值的信息[1][2]。最近Mennel等人【3】报道了【0x9A8B】一种类似大脑的视觉系统,经过训练后可以在几纳秒内实现简单的图像分类。
数码相机等现代图像传感器主要基于70年代初发展起来的半导体(凝聚态)技术,可分为电荷耦合器件和有源像素传感器两大类。这些传感器可以准确地捕捉来自环境的视觉信息,但它们也会产生大量冗余数据。这些光学信息通常被转换成数字电子信号,并传输到计算单元进行图像处理。
这将导致传感器和计算单元之间传输大量数据,从而导致较大的功耗和延迟。随着帧率和像素的增加,带宽的限制使得系统无法将所有数据快速传输到中央处理器或云计算中心,以支持实时处理和决策——,这对于那些对延迟敏感的应用,如自主车、机器人、工业制造等尤为重要。
更好的解决方案是将一些计算任务迁移到计算机系统外围边界的传感器设备,以减少不必要的数据传输。此外,由于传感器通常输出连续的模拟信号(不断变化),模拟处理比数字处理更适合,因为模数转换会消耗更多的时间和功率。
为了模拟大脑对信息的高效处理,生物启发的神经形态工程采用一种具有高度互联元件(突触连接神经元)的计算架构来实现并行计算(图1a)。这些人工神经网络可以通过迭代——从周围环境中学习。例如,他们可以通过观察已知类的目标样本来学习识别事物(监督学习),或者在没有额外信息的情况下识别输入数据中的目标结构(无监督学习)。在学习过程中,算法不断进行预测,加强或削弱网络中的每一个突触,直到系统达到最优设置。
内置计算的视觉传感器可以实现智能高效的预处理。
a、在传统的人工智能(AI)视觉传感器中,光学传感器采集信号后将模拟信号转换为数字信号(模数转换器ADC),放大后的信号送入外部的人工神经网络(ANN,层间互联的计算单元,图中一个圆),其连接权值可以根据模型输出不断调整,这样网络就可以针对图像分类等任务进行训练。ANN的输入层接收编码简单物理信息的信号(图中的点和线);后续层优化为中间层特征(图中简单形状),最终优化结果(图中三维形状)在输出层形成。整个过程耗时耗力。
b,Mennel等人【3】报道了芯片内部互联的传感器(图中的块)不仅可以采集信号,还可以以ANN的形式识别简单的特征,从而减少传感器与外部电路之间冗余数据的传输。维也纳理工大学的Mennel等人将人工神经网络直接嵌入到图像传感器中,他们使用只有几个原子层的二硒化钨光敏单元在芯片上构建光电二极管网络。这种半导体对光的响应强度可以通过调节电压来控制,因此每个二极管的灵敏度可以独立调节。事实上,这种效应将光电传感器网络转化为神经网络(图1b),使其可以执行简单的计算任务。改变光电二极管对光的响应相当于改变网络的连接强度(突触权重),使传感器可以同时实现光信号传感和神经形态学计算。
这些二极管被构造成9个像素的正方形矩阵,每个像素有三个二极管。当图像投射到芯片上时,二极管产生的不同电流一起被读出。硬件阵列将提供模拟形式的计算:每个光电二极管产生的电流输出与入射光强度成正比,入射光强度基于描述电路中电流基本规律的基尔霍夫定律在行或列方向求和。
这个阵列然后被训练用于特定的任务。阵列产生的电流信号和正确响应给定任务的电流信号之间的差异将被片外分析,然后用于调整下一个训练周期的突触权重。虽然训练阶段会消耗大量时间和计算资源,但训练完成后芯片会对目标任务做出快速响应。
基于不同的神经网络算法,构造了两种神经形态函数。一种是分类:33像素阵列可以将输入图像分类为三个简单的字母,在纳秒时间内识别出输入信号对应的字母。这个简单的任务只是概念的证明,通过增加整列的规模可以扩展到更复杂的任务。
第二个功能实现自动编码器:内置计算的传感器阵列,通过学习输入图像的主要特征,即使在有噪声信号的情况下,也能生成其简化的表达式形式。编码后的表达式只包含最本质的信息,但可以解码重构为接近原始输入的图像。
然而,在实际应用之前,还有许多工作要做。自动驾驶系统和机器人的神经形态视觉系统需要在三维场景中捕捉大视场的动态图像和视频。目前,图像捕捉技术通常将真实的3D世界转换成2D信息,因此失去了运动信息和深度。此外,当前图像传感器阵列的平面结构也限制了宽视场相机的发展[5]。
对于作者的系统来说,在低照度下成像是非常困难的,因此有必要重新设计以提高光强吸收并检测光强的动态范围。另外,报告中的设计需要高电压,消耗大量能量,而生物神经网络消耗的能量是亚散焦(1015-1013焦耳)[6]。将传感器的响应范围扩展到紫外和红外波段,从而捕捉到可见光波段以外的丰富信息具有重要意义[7]。此外,实验中使用的薄半导体难以大规模均匀生产和加工。因此,它们可以与硅电子器件集成,并应用于读取和反馈控制等外围电路。这个传感器的速度和能耗不是由图像捕获过程决定的,而是受到传感器和外围电路之间数据传输的限制。虽然内置计算的传感器单元在模拟信号域采集和计算数据,降低了模数转换的消耗,但外围电路仍然受到固有延迟的限制。因此,传感器和外围电路的协同开发将进一步降低整个系统的延迟水平。
Mennel等人开发的内置计算传感器系统将激发更多的人工智能硬件研究。少数公司已经开始开发基于硅电子器件的AI视觉系统[8],但芯片固有的数字架构导致了不可避免的延迟和功耗问题。
在更大的尺度上,策略不限于视觉系统。它可以扩展到听觉、触觉、热和嗅觉等物理输入感知系统[9 -11]。这种智能系统的发展和5G的到来,将使实时边缘计算(低延迟)成为可能。