那么代价是什么呢?
比起稠密模型来说计算量更小了,相比之下,显存占用更多了。
有点时间换空间、空间换时间的感觉
特点
- 与稠密模型相比, 预训练速度更快
- 与具有相同参数数量的模型相比,具有更快的 推理速度
- 需要 大量显存,因为所有专家系统都需要加载到内存中
- 在 微调方面存在诸多挑战,但 近期的研究 表明,对混合专家模型进行 指令调优具有很大的潜力。
挑战
- 在混合专家模型 (MoE) 中,尽管较大的批量大小通常有利于提高性能,但当数据通过激活的专家时,实际的批量大小可能会减少,即分给每个专家的批次不是均匀的,这也会导致资源利用效率不高。