深度学习与计算机视觉

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟,是人工智能领域的一个重要部分,它主要任务是通过对采集的图片或视频进行处理以获得相应场景的信息。

  传统的计算机视觉系统的主要目标是从图像中提取特征,包括边缘检测、角点检测、基于颜色的分割等子任务。传统特征提取算法的方式有尺度不变特征变换匹配算法(SIFT)、加速鲁棒特征算法(SURF)和二进制鲁棒独立基本特征(BRIEF)。根据输入图像的类型和质量,不同的算法执行的成功程度不同。最终,整个系统的准确性取决于提取特征的方法。

  这种方法的主要问题是需要告诉系统在图像中寻找哪些特性。本质上,假设算法按照设计者的定义运行,所提取的特征是人为设计的。在实现中,算法性能差可以通过微调来解决,但是,这样的更改需要手工完成,并且针对特定的应用程序进行硬编码,这对高质量计算机视觉的实现造成了很大的障碍。

  不过,深度学习的出现解决了这一问题。当前,深度学习系统在处理一些相关子任务方面取得了重大进展。深度学习最大的不同之处在于,它不再通过精心编程的算法来搜索特定特征,而是训练深度学习系统内的神经网络。随着深度学习系统提供的计算能力的增强,计算机将能够识别并对它所看到的一切做出反应,这一点已经有了显著的进展。在本文中,您将看到深度学习在计算机视觉分析中的5个应用。

  1、图像分类

  图像分类是为图像指定标签的任务。当图像中有单个类并且在图像中清晰可见时,这非常有用。例如,一张照片会被归类为白天或夜间拍摄。此外,在交通领域,图像分类可用于检测汽车是否处于停车位,即停车位是否被占用。

  2、带定位的图像分类

  带定位的图像分类是一个更具挑战性的图像分类任务。这涉及到为图像分配类标签并通过边界框,即在对象周围绘制框,来显示图像中对象的位置。

  在负责车辆识别的系统中,这一过程是必要的步骤。对于一个浏览汽车图片的自动系统来说,当场景中只包含一辆汽车,该系统一旦确定了车辆的位置,就可以识别诸如品牌、型号和颜色等属性。当图片中有未知数量的物体时,这项任务就会变得困难。在大多数照片中,特别是在公共场所拍摄的照片中,会有很多可能性,比如不同的人、车辆、树木等,这种情况就变成了目标检测问题。

  3、目标检测

  目标检测适用于包含多个对象的图片,是一个重要的研究领域。例如,用于机器人和自动驾驶汽车的计算机视觉系统会面对非常复杂的图像。毫无疑问,定位和识别每一个物体无疑将是它们实现自动化的关键部分。

  4、图像重建

  图像重建是重建图像缺失或损坏部分的任务。该任务可以被认为是一种没有客观评价的照片滤波器或变换。虽然,这确实有可能保证图像的可见属性能够紧密匹配,但是要求计算机重新创建没有参考的细节显然是不合理的。因此,图像重建系统有很大的局限性,很大程度上取决于有多少原始图像可供学习。

  一种用于图像重建的模型被称为像素递归神经网络。这是一个利用递归神经网络(RNN)来预测图像在二维空间中缺失像素的系统。图像重建应用的例子有照片的恢复或黑白电影。在自动驾驶汽车中,图像重建可以用来观察小型障碍物,比如车辆与被跟踪行人之间的路标。

  5、目标跟踪

  计算机视觉的一个重要目标是能够识别一段时间内发生的事件。目标跟踪就是这样一个例子,目标是在图像或视频中跟踪特定对象。目标跟踪对几乎所有包含多个图像的计算机视觉系统都很重要。例如,在足球训练中,通过目标跟踪可以得到每个球员的时序位置信息,通过研究其体能和战术特点,进行科学的训练。

  写在最后:

  近年来,深度学习的发展不仅突破了很多难以解决的视觉难题,提升了对于图像认知的水平,更是加速了计算机视觉领域相关技术的进步。相信,随着深度学习模型的改进和计算能力的不断提升,自主系统能够继续稳步发展,真正实现可以解释和反应它们所感知到的东西。

来源:天极网


Top