RickyYel

❯

❯

brief-of-MOE

2025年9月29日2分钟阅读

那么代价是什么呢？

比起稠密模型来说计算量更小了，相比之下，显存占用更多了。

有点时间换空间、空间换时间的感觉

特点

与稠密模型相比， 预训练速度更快
与具有相同参数数量的模型相比，具有更快的 推理速度
需要 大量显存，因为所有专家系统都需要加载到内存中
在 微调方面存在诸多挑战，但近期的研究表明，对混合专家模型进行 指令调优具有很大的潜力。

挑战

在混合专家模型 (MoE) 中，尽管较大的批量大小通常有利于提高性能，但当数据通过激活的专家时，实际的批量大小可能会减少，即分给每个专家的批次不是均匀的，这也会导致资源利用效率不高。

参考资料

一文读懂：混合专家模型 (MoE)-deepseek

关系图谱

特点
挑战
参考资料

Created with Quartz v4.5.2 © 2026

👨🏻‍💻GitHub
💬Discord Community
📧Contact
🔗RSS