import tensorflow as tf
logits = tf.constant([[1.0, 2.0, 3.0], [1.0, 2.0, 3.0], [1.0, 2.0, 3.0]])
y_ = tf.constant([[0.0, 0.5, 1.0], [0.0, 0.0, 1.0], [0.0, 0.0, 1.0]])
def soft_cross():
y = tf.nn.softmax(logits)
cross_entropy = tf.reduce_mean(tf.reduce_sum(-y_ * tf.log(y),1))
cross_entropy2 = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=logits,labels=y_))
with tf.Session() as sess:
result = sess.run(y)
print(result)
c_e = sess.run(cross_entropy)
c_e2 = sess.run(cross_entropy2)
print("my cross_entropy result=")
print(c_e)
print("Function(softmax_cross_entropy_with_logits) result=")
print(c_e2)
soft_cross()
上面自己实现了tensorflow的softmax_cross_entropy_with_logits函数。
输入的每一行向量是softmax函数的输入,在手写数字分类的例子中,softmax的输出就是图片中识别数字的概率。tf.reduce_sum(-y_ * tf.log(y),1)
算出了单个图片输出的偏差,到此也是tensorflow的softmax_cross_entropy_with_logits()实现的逻辑,最后平均就是所有输入图片的平均偏差。
如果去看tensorflow的原码,会发现它很理解,似乎执行了很多操作。用自己的那种方法learning_rate比较大时,就会出现NaN.这其实中由于计算了log(0),当然按说softmax()的输出不会出现0,但由于计算机存储小数的问题,就会出现上述问题。tensorflow对此作了优化,但只是避免了NaN的出现,并不会提高模型准确率。