输入层X 值如果不Normalization ,,太大,导致tanh 后,接近1 不再敏感啊,,隐藏层如果不是对数据normalization照样也会出问题,, 每一层都要Normalize r,B 自己学着平移,,