1.2 计算机视觉
1.2.1 计算机视觉简介
视觉是人类最重要的感觉之一,大部分的外界信息是通过视觉获得的。人的大脑通过对人眼获取的视觉信息进行处理,从而感知、识别、理解外在的世界。视觉是制造业、检验、文档分析、医疗诊断等民用领域和军事领域各种智能系统不可分割的一部分。计算机视觉(Computer Vision)也称为机器视觉(Machine Vision),有人把它比喻为一种“教会计算机去看世界”的技术。更形象地说,计算机视觉即用照相机和计算机代替人眼对目标进行识别、跟踪与测量,并进一步进行图形处理,使其成为更适合人眼观察或传输给仪器检测的图像。计算机视觉就好比给计算机安装了眼睛(照相机)与大脑(算法),让计算机能够感知外界真实的环境。
人们希望用计算机视觉进行接近甚至超过人类视觉的模拟,获得更丰富、更精确的外在信息。由于计算机视觉的重要性,有些国家把对计算机视觉的研究列为对经济和科学有广泛影响的重大基本问题。计算机视觉可以建立从图像或多维数据中获取信息的人工智能系统,其主要任务是通过对采集的图片或视频进行处理,获得相应场景的三维信息。这里的信息指的是香农信息,即可以用来帮助做一个决定的信息。因为感知可以看作从感官信号中提取信息,因此,计算机视觉也可以看作研究如何使人工智能系统从图像或多维数据中感知的科学。
计算机视觉在目前的挑战主要是如何为计算机和机器人开发具有与人类水平相当的视觉能力。计算机视觉需要图像信号、纹理和颜色建模、几何处理与推理,以及物体建模。一个有能力的视觉系统应该把所有处理都紧密地集成在一起。计算机视觉作为一门学科,开始于20世纪60年代初,但计算机视觉基本研究中的许多重要进展是在20世纪80年代取得的。计算机视觉用各种成像系统代替视觉器官作为输入敏感手段,由计算机代替大脑完成处理和解释。计算机视觉的最终目标是使计算机能够像人类一样通过视觉观察和理解世界,并具有自主适应环境的能力。但是,这个目标只有经过长期的努力才能达到。因此,在实现最终目标前,人们努力的中期目标是建立一个视觉系统,这个系统能够依据视觉敏感和反馈某种程度的智能来完成一定的任务。例如,计算机视觉的一个重要应用领域是自主车辆的视觉导航,目前视觉系统还不能像人类一样识别和理解任何环境,形成自主导航系统,因此,人们努力研究的目标是实现在高速公路上具有道路跟踪能力且可避免与前方车辆碰撞的视觉辅助驾驶系统。
1.2.2 计算机视觉的应用方向
除了视觉定位,计算机视觉本身还包括了诸多不同的研究方向,其中比较基础和热门的研究方向有目标检测(Object Detection)、图像语义分割(Image Semantic Segmentation)、运动跟踪(Motion and Tracking)、三维重建(3D Reconstruction)、视觉问答(Visual Question Answering,VQA)、动作识别(Action Recognition)等。
1.目标检测
目标检测一直是计算机视觉中非常基础且重要的一个研究方向。目标检测,顾名思义就是给定一张输入图片,算法能够自动识别图片中的常见物体,并输出其所属类别和位置,如图1-1所示。当然,这也就衍生出了诸如人脸检测(Face Detection)、车辆检测(Vehicle Detection)等细分类的目标检测算法。
图1-1 物体识别和目标检测示意图
2.图像语义分割
图像语义分割从字面意思上理解就是让计算机根据图像的语义来进行分割。在语音识别领域,语义指的是语音的含义;而在图像领域,语义则指的是图像的内容,即对图片意思的理解。例如,在图1-2所示的图像语义分割示意图中,3个人骑着3辆自行车,其中,左右两个人和自行车只露出一小部分。分割指的是从像素的角度分割出图片中的不同对象,并对原始图片中的每个像素都进行标注,如图1-2中的粉色代表人,绿色代表自行车。
图1-2 图像语义分割示意图
3.运动跟踪
运动跟踪是指对图像序列中的同一个运动目标进行实时的检测、识别、提取,并最终获得运动目标的运动参数。运动跟踪可以实现对运动目标的行为理解,以完成更高一级的目标检测任务。运动跟踪算法需要从图像序列或视频中寻找被跟踪物体的位置,并适应各类光照变换、运动模糊和表观的变化等。当被跟踪物体发生了旋转、缩放等变化时,运动跟踪算法需要通过第一帧图像的建模学习很好地适应,以在后续的图像中完成连续的跟踪。然而,受限于第一帧图像的学习训练样本过少,尽管很多算法在随后的跟踪过程中会进行更新,但是仍然难以得到一个良好的运动跟踪模型。因此,当被跟踪物体的图像信息有较大变化时,对运动跟踪算法提出了巨大的挑战。
4.视觉问答
视觉问答是近年来非常热门的一个研究方向。一般来说,视觉问答系统需要将图片和问题作为输入,结合这两部分信息产生一个用人类语言表述的答案作为输出。针对一张特定的图片,如果想要机器通过自然语言处理来回答关于该图片的某一个特定问题,那么需要机器对图片的内容、问题的含义和意图,以及相关的常识有一定的理解。视觉问答的本质是一个多学科研究问题。
5.三维重建
基于视觉的三维重建是指先通过照相机获取场景物体的数据图像,经分析处理再结合计算机视觉知识,推导并呈现虚拟情境中的三维物体。三维重建的重点在于获取目标场景或物体的深度信息。在目标场景或物体的深度信息已知的条件下,经过点云数据的配准和融合即可实现目标场景或物体的三维重建。三维重建本身具有更细的划分,如航拍地形的三维重建、雕塑的三维重建等。