
梯度(gradient)到底是个什么东西?物理意义和数学意义分别是 …
我会使用尽量少的数学符号描述 梯度, 着重于意义而非计算。一个直观的例子,在机器学习领域有个术语叫「梯度下降」,你可以想象在群山之中,某个山的半山腰有只小兔子打算使用梯度 …
非凸优化基石:Lipschitz Condition
在绝大多数的非凸优化的论文里,一般不出现Lipschitz continuous, 一般出现的都是 Lipschitz continuous gradient 或者 Lipschitz continuous Hessian, 那他们是什么意思呢? 其实Lipschitz …
如何评价这篇爆火优化算法框架论文,你们看过么? - 知乎
如何评价这篇爆火优化算法框架论文,你们看过么? ResearchGate和Zenodo论文名:《Dynamic Fold Gradient Descent (DFGD): New AI Algori… 显示全部 关注者 2 被浏览
DDPG怎么仅用matlab的代码实现? - 知乎
DDPG在MATLAB的强化学习工具箱里有内置的实现。 Deep Deterministic Policy Gradient (DDPG) Agents 例子也很多。 Train Agent or Tune Environment Parameters Using Parameter …
机器学习|Tucker张量分解
Tucker分解是张量分解 (tensor decomposition) 中十分重要的一种分解形式,从本质上来说是矩阵分解的高阶泛化,常用于数据降维、稀疏学习、模式挖掘等。本文将介绍Tucker分解的基本形 …
大模型训练时ZeRO-2、ZeRO-3能否和Pipeline并行相结合? - 知乎
行业来一般做法是zero3, tp/pp+zero1 用zero3类似存算分离(spark rdd), 前向/反向需要计算时去allgather weight。 因为weight、gradient、opt shard在同一张显卡上,gradient只需 …
如何求解多梯度下降算法MGDA中的梯度信息? - 知乎
Feb 15, 2023 · 在Matlab中,可以使用函数gradient来求解两个 目标函数 (fun1 fun2)的梯度信息(gfun1 gfun2)。 该函数可以接受一个参数,即要求 梯度 的函数,并返回该函数的梯度。
DAPO全是已有的小trick,为什么这么火? - 知乎
4.Token-Level Policy Gradient Loss 具体的,对于GRPO而言,本身的目标函数对于答案具有偏向性:对于答案正确的,GRPO偏向于选择答案长度较短的回复,而对于答案错误的,GRPO偏 …
LSTM如何来避免梯度弥散和梯度爆炸? - 知乎
题主你好,LSTM只能避免RNN的梯度消失(gradient vanishing);梯度膨胀 (gradient explosion)不是个严重的问题,一般靠裁剪后的优化算法即可解决,比如gradient clipping(如 …
哪里有标准的机器学习术语 (翻译)对照表? - 知乎
梯度裁剪 (Gradient Clipping) 在应用梯度值之前先设置其上限。 梯度裁剪有助于确保数值稳定性以及防止梯度爆炸 [14]。 梯度下降法 (Gradient Descent) 一种通过计算并且减小梯度将损失降 …