Nan是啥?
Nan , 也就是“not a number”,是用数学无法表示出来的数。
Nan为什么会产生?
在图像分类情境下:
参考:
https://zhuanlan.zhihu.com/p/456113139
https://zhuanlan.zhihu.com/p/622964137
归一化目的是让模型更快更好的收敛 。由于链式法则的累积效应,过大/过小的梯度会导致爆炸或弥散。
梯度是和输入值是有关的,因此要将输入值维护在一个不大不小的区间。有【0,1】和【-1,1】两种。
对于图像,除以255即可。
一般在ReLU函数前加上BatchNorm层,将一个batch的数据进行0均值、1方差的标准化,才能充分利用ReLU=max(x,0)特性。
参考:
https://blog.csdn.net/weixin_44138265/article/details/117677973
https://www.zhihu.com/question/307748349