本文基本是上面所贴链接文章的备份,如侵权请联系我删除。
历史
GGUF 全称 GPT-Generated Unified Format,其前身是 GGML(GPT-Generated Model Language)
GGML 是一个专为 ML 设计的 Tensor 库,旨在有一个单文件(Single File Sharing)的格式并且易于在不同架构的 GPU 和 CPU 上 inference。但是后来在发展上遇到了灵活性不足,兼容性和难以维护的问题,逐渐被 GGUF 替代
What is GGUF@ggergnaov
:用于高效存储和部署 LLM 的文件格式
LLM 生态的问题和 GGUF 的贡献
- Efficiency: GGUF 使 LLMs 更加紧凑、加载速度更快。解决本地部署在存储空间和RAM上的限制
- Compatibility: GGUF 跨平台、跨设备
- Local Deployment: GGUF 使之更容器
- Customization: GGUF 让用户可以轻松微调和修改模型,包括:调整参数、添加自定义 token。
量化
GGUF 支持不同等级的量化。量化等级从 Q2~Q8,还有一些变体,类似 Q3_K_M、Q5_K_S。
数字越大,需要的内存越多,模型性能衰减较少。
Key Points
- Purpose: 借助高级压缩技术和流水线格式结构(streamlined format structure),优化 LLMs 的存储和部署
- Compatibility:
- 跨平台
- 提供很多脚本将其他格式的模型转为 GGUF
- Advantages:
- 体积小
- 加载快
- 跨设备跨平台
- 原生支持多个量化等级
- Popular Models: LLAMA 系列,AI 社区也积极支持
- Ecosystem:
- 越来越多的工具和库支持 GGUF
- 社区活跃,
- 持续不断的改进 format