在使用kersa的时候出现如下关于gpu显存不够的的错误:
[ResourceExhaustedError :OOM when allocating tensor with shape []]
该问题是在运行过程中,tensor过大导致的分配不了相应的现存;
在这个问题上一定要好好看上面的shape具体是多少,然后推断究竟是模型中的哪个参数,需要注意的是shape第一个数可能是batch_size,也可能不是。一般的排查点是:
1.训练时batch_size太大,导入的数据太费显存了。这时的shape一定包含Batch_size
2.在训练过程中验证集设置太大,看看shape第一个数是不是验证集的size
3.模型参数尺寸过大。我当时报错的尺寸是500多万*2048,这很显然不是一个合理的参数,模型设置有问题。