昨天,师兄问我:PaddlePaddle支持动态图吗?我才知道,模型还可以是动态的!孤陋寡闻了呀。调研走起~ 交流也是科研的生产力~
何谓“动静”
在TensorFlow中,模型是完全静态的:定义好一个完整的网络结构(Graph),才能开始执行整个图(调入session开始计算),且运行中不能对图进行修改(比如添加网络节点等操作)。
在我初步试用PaddlePaddle的PARL库中,涉及的也是静态图。定义好模型之后,调用executor,executor会将模型的定义提交给transplier,由其提交至C++后台并返回ProgramDesc,executor据此依次执行。整个过程是编译器式的——静态。
而PyTorch提供有动态图机制,PaddlePaddle也是至最新的1.5.x版本开始提供动态图API(目前TF也有Eager Execution提供动态图支持。)。在动态图中,兼用各种逻辑控制语法(如if else等),按照代码顺序执行,变执行边生成本次的计算图,每次都会重新构建。
「 有点类于编译语言和解释性语言的区别。」
- 静态图:声明式编程。一次构建,多次使用;构建稍繁琐复杂;性能好,速度快。
- 动态图:命令式编程。图的代码编写很灵活,可使用Python的控制流(简洁之道!);方便debug;操作可立即获得执行结果,无需等待计算图的全部构建完成。
fluid静态图
fluid内部的静态图执行流程如下:「 图源自官网 」
代码里构建的图为program(类于TensorFlow的graph),executor可理解为TensorFlow的session。过程中经由Transpiler进行了编译,故需事先定义好完整的program,提交至executor后不可修改。
详参见官网的设计思想说明 ,此处不展开啦。https://www.paddlepaddle.org.cn/documentation/docs/zh/advanced_usage/design_idea/fluid_design_idea.html
fluid动态图
动态图的编程和思想就简单些了,build when run. 使用的库:fluid.dygraph 。
simple use
fluid.dygraph.guard() : 创建执行dygraph的上下文,然后在其里随心地灵活使用控制流~
最简单的动态图构建如下。
input0 = np.random.randint(low=1, high=5, size=(2,))
input1 = np.random.randint(low=1, high=5, size=(2,))
# print(inp1, inp2)
with fluid.dygraph.guard():
if np.sum(input0) < np.sum(input1):
x = fluid.layers.elementwise_add(input0, input1)
else:
x0 = fluid.layers.elementwise_sub(input0, input1)
x = fluid.layers.elementwise_sub(x0, input1)
print(x.numpy())
若要反向传播,则在定义loss(Variable)后,直接调用loss.backward(),用loss.gradient()可获得梯度。
advanced
稍复杂些,则使用fluid.dygraph.Layer构建神经网络,代码见下段的下方。策略继承自fluid.dygraph.Layer,初始化以外,还需实现forward前向传播函数。
class Policy(fluid.dygraph.Layer):
def __init__(self, name_scope):
super(Policy, self).__init__(name_scope)
self.affine1 = nn.FC(self.full_name(), size=128)
self.affine2 = nn.FC(self.full_name(), size=2)
self.dropout_ratio = 0.6
self.saved_log_probs = []
self.rewards = []
def forward(self, x):
x = fluid.layers.reshape(x, shape=[1, 4])
x = self.affine1(x)
x = fluid.layers.dropout(x, self.dropout_ratio)
x = fluid.layers.relu(x)
action_scores = self.affine2(x)
self._x_for_debug = x
return fluid.layers.softmax(action_scores, axis=1)
fluid.dygraph.Layer : 本身已实现了train和eval函数,都是通过tracer完成,tracer和engine的详尽(动态图的机制相关)待续。
links:
这篇文给的动态图实例可供参考:https://cloud.tencent.com/developer/article/1493615
官方GitHub也给了些例子:https://github.com/PaddlePaddle/models/tree/develop/dygraph
why is this involved?
因为我们即将的工作中,希望针对当前的优化状态对计算图进行动态执行。
比如:使用两个模型拼接达到更好对效果时,若第一个模型就达到了训练目标,则无需运行第二个模型的网络。即我们希望网络是动态的,层次可选的,可以通过逻辑流来达到控制。虽然静态图也提供有一定的逻辑控制,但编程较为麻烦,且每次运行都是基于第一次构建的完整的计算图,而非当前执行逻辑下的分支图,拼接模型都较大的情况下极为耗费内存。
TODO:
- 逻辑控制 + fluid.dygraph.Layer,能否?即实现图的层次可选。
- 此外动态图也提供了参数持久化,但逻辑控制是否涉入其中,还未试验。