LLMs 全称是 Large Language Models,中文是大语言模型。

量化

神经网络的计算通常以浮点计算(FP32)进行,而量化则是将浮点计算替换为更低比特的计算,如 FP16、INT8 等,从而降低模型的存储大小、降低显存占用、提升推理性能,当然,量化的同时需要尽可能保持模型的精度,因此需要设计合适的量化方案。

作者:SteveChen  创建时间:2025-04-21 19:58
最后编辑:SteveChen  更新时间:2025-04-21 20:08