当前位置：首页 > news >正文

苏州网站定制小白如何学电商运营

news 2025/7/20 15:31:40

苏州网站定制,小白如何学电商运营,平面设计课程总结,携程旅游网官方网站做攻略DeepSeek-V3网络架构的创新主要在两次，分别是在前馈层的MOE（混合专家模型）和在注意力中的MHA（多头潜在注意力，一种注意力计算规模压缩技术）。 MOE（混合专家模型） 回顾最初的MOE GS…

DeepSeek-V3网络架构的创新主要在两次，分别是在前馈层的MOE（混合专家模型）和在注意力中的MHA（多头潜在注意力，一种注意力计算规模压缩技术）。

MOE（混合专家模型）

回顾最初的MOE

GShard是最早将MoE应用在Transformer上的模型，其提出的框架和思想一直影响至今。

回顾Transformer的前馈层FFN，是将注意力子层的输出作为输入，通过一个带有ReLU激活函数的两层全连接网络对输入进行更复杂的非线性变换，公式描述如下：

$\text{FFN}(x)=\text{ReLU}(xW_1+b_1)W_2+b_2$

MoE其实就是将Transformer中的FFN层替换成了MoE-layer（也可以理解成多个规模较小且稀疏的FFN层），其中每个MoE-Layer由一个gate和若干个experts组成。这里gate和每个expert都可以理解成是nn.linear形式的神经网络，图解如下：
(原图来自https://zhuanlan.zhihu.com/p/681154742)

DeepSeek中的MOE

模型架构：

不同的地方：

为了在负载均衡和模型性能之间取得更好的平衡，DeepSeek开创了一种无辅助损失的负载均衡策略：为每个专家引入一个偏差项，并将其添加到相应的亲和力分数中以确定top- $K$ 路由，具体来说：如果其对应的专家过载，我们将偏差项减少 $b$ ；如果其对应的专家负载不足，我们将偏差项增加 $b$ ，其中 $b$ 是一个称为偏差更新速度的超参数。