机器视觉主要问题和发展瓶颈
很多人都有这样的疑惑,就是一台机器它为什么能看到你?因为它有了自己的视觉。机器视觉技术是一门涉及人工智能、神经生物学、心理物理学、计算机科学、图像处理、模式识别等诸多领域的交叉学科。机器视觉主要用计算机来模拟人的视觉功能,从客观事物的图像中提取信息,进行处理并加以理解,最终用于实际检测、测量和控制,技术最大的特点是速度快、信息量大、功能多。
机器视觉可以看作是与人工智能和模式识别密切相关的一个子学科或子领域。限制机器视觉发展的瓶颈是多方面的,其中最重要的可以归结为三个方面:计算能力不足、认知理论未明以及精确识别与模糊特征之间的自相矛盾。
1.机器视觉面向的研究对象主要是图像和视频,其特点是数据量庞大、冗余信息多、特征空间维度高,同时考虑到真正的机器视觉面对的对象和问题的多样性,单一的简单特征提取算法(如颜色、空间朝向与频率、边界形状等等)难以满足算法对普适性的要求,因此在设计普适性的特征提取算法时对计算能力和存储速度的要求是十分巨大的,这就造成了开发成本的大幅度提高。
2.如何让机器认知这个世界?这一问题目前没有成熟的答案,早期的人工智能理论发展经历了符号主义学派、行为主义学派、连接主义学派等一系列的发展但都没有找到令人满意的答案,目前较新的思想认为应该从分析、了解和模拟人类大脑的信息处理功能去构建智能机器视觉系统,但神经科学的发展目前只能做到了解和模拟大脑的一个局部,而不是整体(当然计算能力限制也是原因之一)。事实上,我们对人是如何对一个目标或场景进行认知的这一问题仍停留在定性描述而非定量描述上。
3.机器视觉系统经常被人诟病的问题之一就是准确性。以十年前如火如荼的人脸识别算法为例,尽管一系列看似优秀的算法不断问世,但目前为止在非指定大规模样本库下进行人脸识别的准确率仍然无法满足实际应用的需求,因此无法取代指纹或虹膜等近距接触式生物特征识别方法。这一问题的出现并非偶然。因为目标越精细,越复杂,信息越大,则其模糊性和不确定性也越强。人类之所以能够较好的对人脸进行识别,其实也是以牺牲一定的准确性为代价的。而机器视觉在做的事情一方面想要借鉴人脑或人眼系统的灵感去处理复杂而庞大的信息流,另一方面又想摒除人脑在模式识别方面存在的精确性不足的缺陷。这显然是一种一厢情愿的做法。
综合以上三点,机器视觉的发展在短期内难有重大突破,当前的实用技术仍然还是会集中在特定性任务或特定性目标的识别算法的开发上。