那么代价是什么呢?

比起稠密模型来说计算量更小了,相比之下,显存占用更多了。

有点时间换空间、空间换时间的感觉

特点

  • 与稠密模型相比, 预训练速度更快
  • 与具有相同参数数量的模型相比,具有更快的 推理速度
  • 需要 大量显存,因为所有专家系统都需要加载到内存中
  • 在 微调方面存在诸多挑战,但 近期的研究 表明,对混合专家模型进行 指令调优具有很大的潜力

挑战

  • 在混合专家模型 (MoE) 中,尽管较大的批量大小通常有利于提高性能,但当数据通过激活的专家时,实际的批量大小可能会减少,即分给每个专家的批次不是均匀的,这也会导致资源利用效率不高。

参考资料

  1. 一文读懂:混合专家模型 (MoE)-deepseek