本文的主要针对的是完全不懂深度学习的人群,该行业人员请绕路,谢谢!
什么是深度学习?
深度学习是机器学习领域的一个研究方向,从个人角度来看,深度学习和机器学习最大的不同点在于机器学习具备可解释性、而深度学习属于盲盒操作。
深度学习的发展主要源于卷积神经网络的出现,卷积网络主要用来提取图像特征,要了解卷积神经网络是什么,首先要了解其输入,卷积网络的输入是图片,在计算机中,从0-255表示不同的颜色,所有的颜色均可以由红、绿、蓝来组成,所以图片在计算机中是以一个3层的矩阵存在的。卷积网络就是在这个3层矩阵上,经过层层操作,从而提取到图像特征的。这里的层层操作是利用卷积核来实现的,卷积核有大有小,常用的包含1x1,3x3,5x5,7x7,在每一个卷积层操作中,卷积核的大小和数量是不固定的,卷积核越大,则感受野越大,数量越多,越能提取到更深层次的特征,卷积网络最终的输出为提取到的特征图,通常称为feature map。
如下是卷积核提取特征的计算方式:
常用的卷积网络有Alexnet,VGG,ResNet, MobileNet等。
可以看到从 2013 年 AlexNet 出现之后的几年,模型的精度有了迅速的提升。 2016 年出现的ResNet 系列和 Inception V3 把模型分类精度提升到 80%。在随后的发展过程中,模型分类精度的提升开始变困难,一直到2021 年业界精度最高的模型(ViT-G/14) 的分类精度大概在 90.5% 左右。
上述提到的卷积网络均是用于分类任务的,比如输入一张照片,判断照片中是猫还是狗,除了分类任务之外,深度学习还用于目标检测任务,即判断照片中猫或者狗的具体位置。目标检测任务通常以上述提到的经典分类卷积网络作为backbone,即主干网络,再加上一个head网络,用于预测物体的坐标信息,其中最出名的就是Faster rcnn,以VGG16为主干网络。目标检测常见算法还包括yolo系列和SSD,yolo系列目前已发展到yolov7,在速度方面远超faster rcnn,应用最为广泛。