首先考虑gpu问题,如果是显存等不足,应该是程序直接终止。
使用watch -n 1 nvidia-smi监视gpu运行状况,后来发现一个特点,可以从风扇转速百分比确定是不是温度过高,在五六十左右是正常的,如果80%以上说明已经过热了。
就我经历的情况而言,gpu温度达到84度,风扇接近100%,风扇是在可以的情况下以尽可能低的转速运行的。这说明温度已经非常高了,风扇不得不全速运行。
解决散热有效的办法就是讲机箱侧板取下,取下后,gpu温度稳定在75左右,风扇转速在65%左右。程序没有再卡死过。
在此之前我怀疑过是jupyter notebook不稳定导致程序崩溃,事实是并不存在这种问题,以后还是优先使用jupyter notebook运行,可以查看各种数据,也可以继续运行,十分方便。