应用介绍
Muon,全称 MomentUm Orthogonalized by Newton-Schulz,其优化 2D 神经网络参数的方式是:获取 SGD - 动量生成的更新,对每个更新应用 Newton-Schulz (NS) 迭代作为后处理步骤,然后在将更新应用于参数。
Muon,全称 MomentUm Orthogonalized by Newton-Schulz,其优化 2D 神经网络参数的方式是:获取 SGD - 动量生成的更新,对每个更新应用 Newton-Schulz (NS) 迭代作为后处理步骤,然后在将更新应用于参数。