机器视觉:机器的机器视觉"需要怎样的视觉感知能力
无论明与暗,无论光与影,也无论万水千山还是沧海桑田,在我们的镜头里都是数字与数据。让机器睁开眼睛看世界……
前期讨论了“机器的机器视觉”研究的最终目标和实现路径。其中,“机器的机器视觉”的最终目标概括为以下三项:
1、被动式、实时、高精度、低功耗的三维图像生成能力;
2、被视物体和场景的空间及运动的快速感知和智能识别能力;
3、所见即所得的自动视觉学习、归纳、总结的能力。
以上三项目标的实现路径为按照前后顺序,依次完成。同时,前文还重点讨论了机器视觉的三维图像生成能力是“机器的机器视觉”实现的前提和必要条件。
既然三维图像生成能力是“机器的机器视觉”实现的前提和必要条件,那现有的机器视觉的三维图像生成能力能否满足“机器的机器视觉”的需要,如果不满足采用什么样的技术方式和技术路线能够实现“机器的机器视觉”的三维图像生成能力?“机器的机器视觉”的三维图像生成能力的最终目标是什么?以上问题就是本篇重点讨论的问题。
1“机器的机器视觉”的三维图像生成能力的目标
按照前期的思路,在谈论“机器的机器视觉”的时候,首先用人眼作为参照,给“机器的机器视觉”提出了三个远大的理想和奋斗目标,所以,在讨论“机器的机器视觉”的三维图像生成能力的时候,我们还是以人眼作为参考,给它订立一个相对容易实现的小目标。我们认为,“机器眼”或称“机器的机器视觉”在视觉生成方面的努力方向和奋斗目标应该像智慧生物的眼睛一样,具备以下几项功能:
1、成像过程的自动化;
“机器眼”的三维成像过程必须实现高速全自动,该过程包括:图像采集、图像预处理、图像传输、图像三维运算、图像显示、数据存储等,以上过程的自动化是一个复杂的系统工程,可能涉及的技术包括:自动调焦、自动曝光控制、图像预处理和自适应算法、图像压缩、高速采集和传输通讯、三维自动生成、图像存储等等,以上过程的全自动,需要付出极大努力。同时,成像过程的自动化还包含另一层更重要的意思,就是无论何时、无论何地、无论拍的对象是啥、无论任何拍照环境,都能自动完成三维成像。
2、生成数据的三维化;
“机器眼”的最终输出数据一定是包含三维尺寸的数据或表示三维空间几何的结构化数据,同时,还需要有表面纹理特征的相关数据,以及其它与视觉相关的数据。只有基于三维数据的“机器眼”,才能在后续的视觉识别和视觉理解方面最终达到智慧生物的水平。
3、生成过程的实时化;
“机器眼”的三维成像过程的采样速度要求应该不低于人眼的每秒24帧,目前,二维图像的技术指标已经超过该指标,但在三维快速成像和建模方面还有很大差距。
4、生成方法的被动化;
“机器眼”的三维成像方式应该像智慧生物一样采用被动成像方式,在智慧生物中,除了在完全黑暗环境下生存的蝙蝠采用主动超声波进行空间和物体的识别,绝大多数生物都采用简单可靠的被动光学成像方式形成视觉,其道理在于被动成像具有低能耗、结构简单、隐蔽性好的特点,而机器视觉技术当前还很难做到这一点。以无人汽车为例,目前广泛采用多线激光雷达进行空间感知,这种方式容易对外界产生干扰,相互之间也会产生干扰,同时设备昂贵复杂。对于“机器眼”采用电磁波、激光、红外光等主动成像方式用于三维成像时,可以在一些特定场合下作为被动成像的一个替代,最佳选择应该还是首选被动成像。
5、生成算法的通用化;
“机器眼”在三维成像时,为了满足对全自动成像的要求,自动适应各类环境和光照条件,需要三维运算实现通用化,在不同场景、不同被视物、不同光照条件下都能够自动完成三维成像。就像工业传感器一样,只要接上电源,就可以通过标准输出接口,采集到传感器的测量数据,无需另外编制专用程序和采用其它各类不同的辅助措施完成三维成像。
6、生成结构的小型化。
“机器眼”的三维成像系统,需要实现集成化和小型化。目前,手机拍照已经基本实现集成和小型化,但是还未具备三维图像的采集和输出功能。一般利用平面图像进行三维空间解算或采用扫描或结构光方式进行三维运算,需要耗费大量运算资源,基本都需要与台式计算机或服务器相连接,前端图像采集和后端三维运算设备硬件庞杂,体积大,难以实现小型化。现在为加快运算速度,降低对服务器资源的依赖,流行的做法是采用GPU、FPGA等芯片进行并行运算,可有效减少硬件资源。未来由于三维运算的通用算法出现,为开发专业三维运算芯片提供了有利条件,有了三维运算芯片,就可以实现“机器眼”的三维嵌入式运算和结构的小型化。
以上6项要求和目标,是实现“机器眼”的必由之路,在技术飞速发展的今天,这六项要求有些已经不同程度的局部实现,还有些经过努力可以在不远的将来得到实现。上述6项要求的核心是三维运算的通用化,当实现了这个主目标后,其它次级目标就会相对容易完成和实现。
2现有机器视觉的三维图像生成能力综述
既然三维运算实现通用化是“机器眼”或“机器的机器视觉”获得三维感知的必要条件,我们就需要分析一下现有机器视觉技术在三维感知上具有哪些技术手段?这些技术存在哪些技术上的优势和短板?我们需要选择哪条技术路线可以实现三维运算的通用化?
目前,机器视觉技术可以产生三维数据的大致有以下几种手段:
⒈ 来自激光测距原理的激光扫描仪和激光雷达
该类技术和应用已十分成熟,例如,激光测距、激光扫描、激光雷达等,这些设备的三维生成是基于单点位移传感器的距离测量,同时依靠高速旋转和高速数据采集而产生三维数据,用于物体外部轮廓测量和距离测量等,广泛应用于逆向工程、三维检测和重现、无人汽车、自动测量等。
激光扫描仪和激光雷达在三维生成方面的缺点是对被测物不能从整体上快速全面的把握其形貌特征,扫描时间长,不能适应动态测量的要求,数据量大,三维空间运算需要耗费大量计算资源,且大多需要人工干预,难以满足自动检测和在线检测的要求。由于激光扫描仪和激光雷达三维点云数据量大,占用大量存储空间,一般用于精细三维建模,不适用于及时三维识别,不能实现快速匹配和三维数据检索。
⒉ 光截图三维测量技术
光截图三维测量技术是通过线激光建立激光平面,将三维问题变为二维问题降维进行解决。该技术的测量过程是由一个线激光发生器产生一个激光平面,通过与该平面成一定角度布置的数字摄像机成像后,对图像进行二值化处理,得到被测物体与该激光线交线的图像,该激光平面与二维图像像素之间具有唯一的对应关系,通过标定可实现该物体激光切线的三维空间尺寸的精确测量。
该类检测技术适用于特定场合和特定物体的高速在线三维尺寸测量,其在三维生成方面的缺点是只针对独立的激光平面,不能整体把握被视物的三维特征,使用范围和测量范围有限,需要提前进行标定,对测量物和测量环境有特定的要求,激光对被测物有干扰。
⒊ 双目视觉测量技术
人眼之所以能够快速判断被视物体的远近和大小,是由于人类拥有固定间距同时可动态调焦调角度的两只眼睛,同时还拥有一个图像处理运算速度目前最快速的计算机都难以企及的大脑的缘故。如果有两只固定距离和焦距的相机对同一物体同时成像,其两个图像上的成像点位置与被测物上的测量点,存在着唯一的对应关系,按照两个图像的之间的视差进行计算就可以获得被视物测量点的三维空间位置坐标,这就是双目视觉测量原理。目前3D电影基本采用该方法进行拍摄和立体重现。
使用双目相机进行三维生成目前是最热门的研究项目,该技术最早来源于航空测量的相关技术,在航测过程中,相机相当于在空中进行平行移动,对于连续拍摄的两张图像来说,就相当于平行双目相机测量系统,但在实际三维生成过程中,一般图像匹配运算量大,且双目匹配的匹配点存在大量和普遍的歧义性,且无法自动消除,需要人工手动干预来实现三维建模,该方法无法实现三维的自动生成。
使用双目三维测量比激光测量来说有一些优点,该技术可以从整体上对被测物三维空间结构进行把握,测量属于被动式测量,对环境无不良干扰和扰动,在三维生成后,被测物的整体轮廓和细部特征相对误差小,而且,可以从纹理上对被测物进行区分,这些特点是单点激光、结构光以及其它依靠单点激光的三维设备所不具备的。
4、双目视觉+结构光等三维测量技术
为了消除双目匹配的歧义性,实现双目视觉的三维自动生成,目前,许多厂家进行了研究,利用结构光与双目视觉相结合的方式,解决了匹配的歧义性问题,实现了三维自动生成。常用的结构光一般采用远红外不可见光,或其它安全级别的激光。这样的结构光在被视物表面形成便于自动双目匹配的光斑,极大地消除了双目匹配的歧义,实现了高速自动的深度检测和三维检测。
还有就是采用激光、红外线飞行时间TOF进行三维测量的设备,采用多次不同焦距曝光的三维测量的设备以及采用其它方式的三维测量的设备。以上这些方式都是近来逐步发展起来的三维自动生成的技术方法,这些方法都是为了解决三维生成的实时性和通用性问题,具有一定的技术先进性和领先性。
但如果用前述“机器眼”三维生成的六项目标进行对照的话,这些技术还存在一些明显的缺陷和问题。产生问题的主要原因是以上方法都是采用主动成像的方式,由于采用激光或远红外光等作为主动成像的辅助手段而带来一系列的问题。
首先,采用结构光等主动成像方式在室外阳光下使用时,可对成像造成强烈干扰,不能满足成像质量要求;其次,这些方式要求被测物对结构光或激光有良好的反射性能,对于吸光面、大曲面、强反射光滑面,不能形成良好反射,影响检测效果;第三,当激光功率太小时,测量深度会减小,测量精度会下降,当激光功率加大时,又容易造成使用者或被测物的伤害;第四,采用结构光等主动成像方式只能是在结构光照到的位置进行检测,对于结构光之间的空隙,无法形成三维测量数据,所以,该类方法无法做到对被测物细部特征的三维成像;第五,由于结构光照到的部位和其它照不到的位置在成像时的高对比度要求,使被测物的颜色和纹理无法同步测量和展示。
分析以上几种三维成像方式,采用基于双目视觉测量技术中的被动式纯光学成像的技术,是最符合“机器眼”三维成像目标要求的技术。在该技术的基础上,如何有效克服歧义性,实现全自动三维成像,是三维成像技术亟待解决的问题。
3通用式三维即时成像技术
北京清影机器视觉技术有限公司通过完全自主创新,自行开发完成“通用式三维即时视觉传感技术”,研制成功具有通用视觉的三维“多目慧眼”。目前,“多目慧眼”首先实现的是自动三维“感觉”,在秒级以内自动获得被视场景的三维影像,其下步的目标就是“知道”。我们今后的目标,就是依托“多目慧眼”的自动三维视觉感知能力,最终实现“机器的机器视觉”。
(多目慧眼视频呈现效果)
“通用式三维即时视觉传感技术”是在综合分析了现有三维图像技术线路的基础上,采用基于双目视觉测量技术中的纯光学成像原理,采用多相机矩阵的硬件结构,通过空间几何分析对矩阵相机之间的图像进行关联匹配运算,从而自动消除匹配过程的歧义性,实现高速、通用、被动的三维成像。
“通用式三维即时视觉传感技术”已经基本实现了“机器眼”的三维自动感知的六项目标,是实现“机器的机器视觉”的最佳可行之路。