喜欢摄影的朋友都知道摄影的时候需要遵循一些基本的构图规则,可参考我之前的一篇译文:十种经典的摄影构图规则。去年开始,我就一直在思考一项工作,是否可以结合转轴硬件,实现智能的摄影,让每个人都成为摄影构图专家。基本的思路如下:(1)准备六自由度的三轴相机云台,可根据需要调整相机的拍摄角度;(2)根据当前取景的图分析摄影构图是否符合构图规则;(3)不符合构图规则的话,则驱动云台调整拍摄角度,直到取景内容符合审美规则。查阅了相关资料,硬件层面实现该需求还有些麻烦,成本也较高,所以,我们在考虑是否能直接从图像裁剪的角度去实现智能的摄影构图。那相关的技术有哪些呢?让我们梳理一下:
显著性检测
首先可以想到的是显著性检测,先检测图像中显著性的区域,然后根据构图规则(如三等分原则),对图像做裁剪,将显著的区域移动到等分线上。这种方法的基本假设是,图片中最显著的区域,即是图片最重要的部分(如人物)。我之前整理过显著性检测相关的论文。
基于美学的方法
基于美学的方法,主要思路是选定很多个候选框,然后判断每个框里图像的美学分数,最后裁剪美学分数最高的图像。选取候选框的方法有点类似RCNN的Proposal Search。找候选框的过程,计算量非常大,效率不高。改进的思路可以参考Faster RCNN以及后续的目标检测的改进工作。其实基本思路都比较类似,只是目标检测是得到某个框里内容是某个目标的概率,而摄像裁剪的路线是获得某个目标的美学评分。所以,使用卷积神经网络判断候选区域是否符合美学标准是可行的,有很多现成的网络结构可以借鉴。
一些基于深度学习的且美学友好的摄影裁图论文
[1] Chen Y L, Klopp J, Sun M, et al. Learning to compose with professional photographs on the web[C]//Proceedings of the 25th ACM international conference on Multimedia. ACM, 2017: 37-45.(基于朴素的候选框的方法)
[2] Wang W, Shen J. Deep cropping via attention box prediction and aesthetics assessment[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 2186-2194.(候选框选择网络+美学评判网络)
[3] Li D, Wu H, Zhang J, et al. A2-RL: aesthetics aware reinforcement learning for image cropping[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8193-8201. (使用增强学习提高选择裁剪框的效率)
[4] Wei Z, Zhang J, Shen X, et al. Good view hunting: learning photo composition from dense view pairs[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5437-5446. (改进的美学评判网络+丰富的数据集)
[5] SmartEye: Assisting Instant Photo Taking via Integrating User Preference with Deep View Proposal Network (CHI2019)