神经网络架构搜索

1 神经网络与应用识别

作为计算智能方法的代表，起源于上个世纪四十年代的人工神经网络经历了五六十年代的繁荣，七十年代的低潮，八十年代的再次复苏，到近十年的广泛关注，如今已经成为理论日趋完善，应用逐步发展的前沿方向。Hinton 等人2006 年在《Science》上发表的文章引发了深度神经网络研究的热潮。面对大数据的诸多挑战，以深度信念网络、卷积神经网络和递归神经网络为代表的深度神经网络模型在很多应用领域展示出明显的优势和潜力，特别是随着数据量和数据维数的增加，深度学习的优势愈加突出。例如，Google 借助深度学习开发的AlphaGo 能从海量的对弈中学习正确的决策，微软语音识别采用深度学习使识别错误率显著降低，百度基于深度学习开发的机器人“小度”在跨年龄人脸识别上超越了人类。

经过多年的研究和发展，基于人工神经网络的识别方法也逐渐取代传统的模式识别方法。神经网络已成为当前比较先进的技术，用来解决许多具有挑战性的识别任务如文字识别、语音识别、指纹识别、遥感图像识别、人脸识别、手写体字符的识别等。其中主流的神经网络模型有卷积网络和递归神经网络，卷积神经网络由 Yann LeCun 在 1998 年提出，自从 AlexNe 在 2012 年的 ImageNet 比赛中使用了这一架构拔得头筹，卷积神经网络迅速流行起来并广泛应用到视觉任务。如今，最先进的卷积神经网络算法在进行图像识别时，甚至可以超过人类肉眼识别的准确率。递归神经网络网络提出于 1990 年，被视为循环神经网络的推广，递归神经网络可以引入门控机制以学习长距离依赖，适用于包含结构关系的机器学习任务，在序列识别方面有重要应用。

2 神经网络架构搜索简介

深度神经网络和深度学习算法因为在科研工作与工程任务中都取得了显著的效果从而大受欢迎。它取代了传统的手动提取特征方法，够端到端地自动提取和学习特征。而其中取得显著成功的深度神经网络通常是由于它们成功的架构设计，研究的工作重心从提取特征转移到了寻找最优架构上。通常来说，模型的容量越大网络的性能就越好，能够拟合任意函数。因此为了提升网络性能，网络结构被设计的越来越复杂。例如，VGG-16 约有1.4亿浮点数参数，整个网络占用超过500兆存储空间，需要153亿次浮点操作来处理一个$224\times224$大小的图像。虽然更深的网络层次和复杂的拓扑结构能够更有效地学习特征，但是网络规模的增大意味着人工设计网络时需要花费更多时间来反复试验，即使是专家也需要大量的资源和时间来创建性能良好的模型。

神经网络架构搜索(NAS)是一种自动化学习网络结构的新方法，用于减少繁重的网络设计成本。目前为止，NAS方法设计的网络在识别任务上的表现已经超过了人工设计的架构。NAS可以视作自动机器学习（AutoML）的子领域，与超参数优化和元学习有明显的重叠。不同的NAS方法的区别主要在于三个维度：搜索空间、搜索策略和性能评估，我们对此分别进行了调研。

搜索空间：搜索空间定义了网络的所有可选结构和操作，通常指数级大，甚至无界。在设计搜索空间时结合先验知识，即参考现有的针对当前任务的先进结构设计知识，能够有效减小搜索空间并简化搜索。但这也会引入偏好，从而限制网络学习到超越当前人类知识的结构。

搜索策略：定义搜索空间后，搜索策略引导寻找高性能的模型架构，其中的难点是保证探索和利用的平衡。一方面，希望快速找到性能良好的架构，另一方面，需要避免过早收敛到次优的架构。

性能评估：NSA的目的是找到一个在未知数据上具有良好泛化性能的架构，一旦模型生成，就需要对其性能进行评估。直观的方法是在训练集上训练收敛，并在验证集上得到其性能，但是这种方法会耗费巨大的算力，从而限制了可探索的网络结构。一些先进的方法关注于减小性能评估时的计算代价，但会引入误差。因此，平衡评价的效率和效果是一个需要研究的问题。