1.一个简单例子

执行如下代码片段，可在定义的目录中生成日志文件，如下：

import tensorflow as tf

#simple demo
# 定义一个计算图，实现两个向量的加法
# 定义两个输入，a为常量，b为随机值
a=tf.constant([10.0, 20.0, 40.0], name='a')
b=tf.Variable(tf.random_uniform([3]), name='b')   # 从均匀分布中输出随机值,[3]代表张量尺寸
output=tf.add_n([a,b], name='add')    #Add all input tensors element wise

with tf.Session() as sess:
    # 生成一个具有写权限的日志文件操作对象，将当前命名空间的计算图写进日
    writer=tf.summary.FileWriter('D:\\tf_dir\\tensorboard_study', sess.graph)
    sess.run(tf.global_variables_initializer())
    f=sess.run(output)
    print(f)
    writer.close()
    pass

执行"tensorboard --logdir=D:\tf_dir\tensorboard_study"，然后在http://localhost:6006/#graphs&run=tensorboard_study 中便可以查看到如下图形：

image.png

2.组件介绍

image.png

3.栏目介绍

3.0 graphs

此栏目下展示网络的结构，相应的组件作用可以参考“2.组件介绍”部分。

一般我们可以定义子命名空间，便可以达到整理节点，使可视化信息更加清晰的目的。具体语法为："with tf.name_scope("layer_0"):"。

tensorboard除了可以展示计算图的结构外，还有其他功能：结点基本信息、运行时间、运行时消耗的内存、各结点的运行设备。

1）结点基本信息

通过左键单击节点，便可在右上角展示其基本信息。如下图：

image

双击节点则可以查看节点细节内容，再次双击则可以把细节内容收起。如下图：

image.png

2）运行时间、消耗内存、运行设备

import tensorflow as tf

a=tf.constant([10.0, 20.0, 40.0], name='a')
b=tf.Variable(tf.random_uniform([3]), name='b')   # 从均匀分布中输出随机值,[3]代表张量尺寸
output=tf.add_n([a,b], name='add')    #Add all input tensors element wise

with tf.Session() as sess:
    writer=tf.summary.FileWriter('D:\\tf_dir\\tensorboard_study', sess.graph)

    # tf.RunOptions.FULL_TRACE代表所有的信息
    run_options = tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE)
    #运行时记录运行信息的proto，pb是用来序列化数据的
    run_metadata = tf.RunMetadata()

    sess.run(tf.global_variables_initializer())
    f=sess.run(output,options=run_options, run_metadata=run_metadata)
    print(f)

    writer.add_run_metadata(run_metadata, 'metadata')
    writer.close()
    pass

通过选择session便可以查看相应迭代轮数下的各项指标表现。如下图：

image

3.1 scalars

tensorboard的标量仪表盘，统计tensorflow中的标量随着迭代轮数的变化情况(如：学习率、loss、auc)。通过tf.summary.scalar()把标量值存入日志文件，tensorboard读取日志文件在SCALARS栏目显示。

1) scalar页面功能说明

image

p1：是否显示数据下载链接。
p2：图表平滑过程中是否忽略异常点。
p3：控制每个run点信息的显示顺序。
p4：代表平滑系数，值越大平滑越多。
p5：横坐标刻度值。STEP：默认选项，横轴显示的是训练迭代次数。RELATIVE：这个相对指的是相对时间，相对于训练开始的时间，也就是说训练用时 ，单位是小时。WALL：指训练的绝对时间。
p6：选择要显示的内容，此处支持正则表达式。
p7：查看大图。
p8：是否对y轴进行对数化处理。
p9：如果拖动或缩放了坐标轴，点击后回到原始位置。
p10：下载显示的数据。
补充：在标量图中拉一个矩形，则把矩形内的数据放大展示。

2）注册一个标量的完整过程

第一步：定义要收集的指标，如：metric_loss = tf.summary.scalar("loss", loss)。

第二步：调用merge_all或merge把summary信息保存到磁盘，以便tensorboard展示。如：merged = tf.summary.merge_all()。

第三步：变量初始化，参见“4.4 变量初始化“；同时定义FileWriter，如：writer = tf.summary.FileWriter('./graph',sess.graph)。

第四步：调用session.run()，计算本次迭代(global_step)的标量值。如：result = sess.run(merged, feed_dict={X: batchX, Y: batchY})。

第五步：把每个step计算好的summary写入日志文件中。如：writer.add_summary(result , global_step)。关于此部分也可参考"参考资料-5"。

3.2 images

图像仪表盘，显式通过tf.summary.image()函数来保存png图片文件，将png图片放到summary中，写入日志文件。tensorboard读取日志文件，在IMAGES栏目下可以展示。

3.3 audio

音频仪表盘，可嵌入音频小文件。可以播放通过tf.summary.audio()函数保存的音频。

3.4 histograms

tensorboard的张量仪表盘，统计tensorflow中的张量随着迭代轮数的变化情况。通过tf.summary.histogram进行记录。

3.5 distributions

tensorboard的张量仪表盘，用另一种直方图展示从tf.summary.histogram()函数记录的数据规律。它显示了一些分发的高级统计信息。

3.6 projector

嵌入式投影仪表盘，可以把高维的embedding通过PCA降维的方式投影到3维空间中，从而进行高维的数据分析。tensorboard从模型运行过程中保存的checkpoint文件中读取数据，与此同时也可以选择另外一种投影方式，如：T-SNE。

3.7 text

文本仪表盘，显示通过tf.summary.text()函数保存的文本片段，包括超链接、列表和表格在内的Markdown支持的功能。

3.8 pr curves

PR CURVES仪表盘显示的是随时间变化的PR曲线，其中precision为横坐标，recall为纵坐标。训练模型时，经常需要在查准率和查全率之间权衡，PR曲线能够帮助我们找到这个权衡点。

3.9 profile

tensorboard的配置文件仪表盘，该仪表盘上包含了一套TPU工具，可以帮助我们调试、优化tensorflow代码，以便更好地利用TPU资源。目前只有在Google Cloud TPU上有访问权限的人才能使用配置文件仪表盘上的工具。

注：summary也是个op，所以也需要sess.run()才能获取真实结果。

4.重要基础功能

4.1 tf.summary.FileWriter

指定一个文件用来保存图。

格式为：tf.summary.FileWriter(logdir, graph=None, flush_secs=120, max_queue=10)。

可以调用其add_summary()方法将训练过程数据保存在filewriter指定的文件中。

tf.summary.scalar('accuracy',acc)               
merge_summary = tf.summary.merge_all()  
train_writer = tf.summary.FileWriter(dir,sess.graph)

for step in xrange(training_step):       #训练循环  
    train_summary = sess.run(merge_summary,feed_dict =  {...})
    train_writer.add_summary(train_summary,step)

如果要显示多次训练的结果，就需要在每次训练过程中给FileWriter设置不同的目录。

4.2 tf.summary.merge_all

merge_all可以将定义的所有summary都保存在日志中，以便tensorboard进行显示。如果没有特殊需要，一般都采用这种方法收集所有要显示的信息。

格式为：tf.summaries.merge_all(key='summaries')，应用大多数情况下括号中啥也不写。

4.3 tf.summary.merge

如果是有选择性地保存summary信息，则要用到merge方法。其格式为：

tf.summary.merge(inputs, collections=None, name=None)

其中inputs参数可以直接用列表表示或者用tf.get_collection()来表示。

4.4 变量初始化

tf.global_variablesinitializer()：用于初始化全局变量(GraphKeys.GLOBALVARIABLES)，并返回一个初始化所有全局变量的操作。一般在模型构建完毕并在会话中加载后，执行此初始化操作。当然也可通过feed_dict初始化，不过这样只初始化feed_dict列表中的变量。

tf.local_variables_initializer()：返回一个初始化所有局部变量(GraphKeys.LOCAL_VARIABL)的操作。局部变量指的是被添加到图中，但未被储存的变量。

五、常见问题汇总

Q1：在`auc`曲线上出现了小回路，如下图：

image

解决办法：一般是时间线错乱导致的，如中断训练之后没有从最近的checkpoint处开始。

Q2：`jupyter`执行脚本，`tensorboard`可视化展示多个graph比较乱？

解决办法：清空日志目录，重启kernel并执行，刷新tensorboard页面即可看到最新graph。

Q3：训练过程中的`AUC`指标如何正常展示？

# 补充描述：如果同时执行auc_value,auc_op则auc_value为0
auc_value, auc_op = tf.metrics.auc(label_tensor, prediction_tensor)
self.merged = tf.summary.merge([auc_value, auc_op ])
summary = sess.run([self.merged], feed_dict={})

解决办法：1）初始化局部变量 2）先执行auc_op操作，再执行auc_value才是正确姿势。

# 1）初始化局部变量的说明
"""
tf.metrics.auc()内部调用了_confusion_matrix_at_thresholds方法
而_confusion_matrix_at_thresholds方法内部有四个局部变量，因为需要局部变量初始化。
详情可看：https://github.com/tensorflow/tensorflow/blob/a6d8ffae097d0132989ae4688d224121ec6d8f35/tensorflow/python/ops/metrics_impl.py#L481
注意：初始化以后如果不再重新初始化的话，则局部变量的值则会被一直复用。所以一般在epoch结束时，会重新初始化局部变量。这样是对一批数据的完整评估。
"""

# 2）先执行auc_op操作，再执行auc_value才是正确姿势
"""
tf.metrics.auc()有两个返回值分别为：auc_value, update_op。auc_value只是update_op操作执行后的一种快速引用方式。
auc_value,auc_op分别依赖于values,auc_ops。这两个值由_confusion_matrix_at_thresholds生成。部分代码如下：
"""
values = {}       #line1
update_ops = {}   #line2
update_ops['tp'] = state_ops.assign_add(true_p,math_ops.reduce_sum(is_true_positive, 1)) #line3
values['tp'] = true_p  #line4
# 说明：line3把增量加到true_p中，把相应的操作赋值给update_ops。line4中的true_p是指前述更新过的true_p，此处只不过定义一种快速引用方式。
# 对快速访问有疑问的朋友可以参考：https://github.com/tensorflow/tensorflow/blob/a6d8ffae097d0132989ae4688d224121ec6d8f35/tensorflow/python/ops/state_ops.py#L164。

[参考资料]

1、Tensorboard 详解（上篇）：https://zhuanlan.zhihu.com/p/36946874。
2、Tensorboard详解（下篇）：https://zhuanlan.zhihu.com/p/37022051。
3、tensorboard的使用一~四：https://blog.csdn.net/duanlianvip/article/month/2019/08。
4、tf中的变量初始化：https://blog.csdn.net/yyhhlancelot/article/details/81415137。
5、使用Tensorflow时的爽物之Tensorboard：https://zhuanlan.zhihu.com/p/26203726。
6、tf.metrics.auc：https://github.com/tensorflow/tensorflow/blob/v1.12.0/tensorflow/python/ops/metrics_impl.py 中的line649。

[图像算法]-(yolov5.train)-tensorboard使用详解

[图像算法]-(yolov5.train)-tensorboard使用详解

1.一个简单例子

2.组件介绍

3.栏目介绍

3.0 graphs

1）结点基本信息

2）运行时间、消耗内存、运行设备

3.1 scalars

1) scalar页面功能说明

2）注册一个标量的完整过程

3.2 images

3.3 audio

3.4 histograms

3.5 distributions

3.6 projector

3.7 text

3.8 pr curves

3.9 profile

4.重要基础功能

4.1 tf.summary.FileWriter

4.2 tf.summary.merge_all

4.3 tf.summary.merge

4.4 变量初始化

五、常见问题汇总

Q1：在`auc`曲线上出现了小回路，如下图：

Q2：`jupyter`执行脚本，`tensorboard`可视化展示多个graph比较乱？

Q3：训练过程中的`AUC`指标如何正常展示？

[参考资料]

推荐阅读更多精彩内容

[图像算法]-(yolov5.train)-tensorboard使用详解

1.一个简单例子

2.组件介绍

3.栏目介绍

3.0 graphs

1）结点基本信息

2）运行时间、消耗内存、运行设备

3.1 scalars

1) scalar页面功能说明

2）注册一个标量的完整过程

3.2 images

3.3 audio

3.4 histograms

3.5 distributions

3.6 projector

3.7 text

3.8 pr curves

3.9 profile

4.重要基础功能

4.1 tf.summary.FileWriter

4.2 tf.summary.merge_all

4.3 tf.summary.merge

4.4 变量初始化

五、常见问题汇总

Q1：在auc曲线上出现了小回路，如下图：

Q2：jupyter执行脚本，tensorboard可视化展示多个graph比较乱？

Q3：训练过程中的AUC指标如何正常展示？

[参考资料]

推荐阅读更多精彩内容

Q1：在`auc`曲线上出现了小回路，如下图：

Q2：`jupyter`执行脚本，`tensorboard`可视化展示多个graph比较乱？

Q3：训练过程中的`AUC`指标如何正常展示？