人工智能

LLMs 全称是 Large Language Models，中文是大语言模型。

大语言模型（LLM）是一种能够执行多种自然语言处理任务的机器学习模型，包括生成文本、分类文本、以对话方式回答问题以及文本翻译等。
这类模型利用 Transformer 模型和大量数据集进行训练，因此被称为“大”。这让它们能够识别、翻译、预测或生成文本。Transformer 模型是一种由编码器和解码器组成的神经网络架构，能够同时处理数据，发现词元间的关系，模拟人类处理同样查询时的思考模式。

模型压缩主要分为如下几类：

剪枝（Pruning）
知识蒸馏（Knowledge Distillation）
量化Quantization）

量化

神经网络的计算通常以浮点计算(FP32)进行，而量化则是将浮点计算替换为更低比特的计算，如 FP16、INT8 等，从而降低模型的存储大小、降低显存占用、提升推理性能，当然，量化的同时需要尽可能保持模型的精度，因此需要设计合适的量化方案。

模型量化是一种压缩网络参数的方式，它将稠密神经网络的参数(weight)、特征图等(activation)原本用浮点表示的量值换用定点（整型）表示，最后将定点数据反量化回浮点数据得到结果。模型能够加快模型推理速度，减少模型内存占用。模型量化实现建立在深度网络对噪声具有一定的容忍性上，模型量化相当于对深度网络增加了一定的噪声（量化误差），如果量化位数合适，模型量化基本不会造成较大的精度损失。工业界使用的较为成熟的量化方案有w8a8和w8a16等，这里w8指模型权重用int8的数值来表示，a16指模型的特征图用int16的数值来表示，有时也可以混用两种量化方案，即混合精度量化。

量化技术是一种用来减少模型大小和提高推理速度的技术。量化指的是将模型的参数从高精度表示（如常见的32位浮点数FP32）转换到更低精度的整数表示，以节省内存带宽和计算资源。

W8A8 ：指的是权重（Weight）使用8位整数（INT8）量化，激活值（Activation）也使用8位整数量化。这种量化方式通常会显著减少模型大小，并且在某些情况下可以保持相当高的准确性。SmoothQuant 是一种实现了 W8A8 量化的技术，它能够在保持较高准确性的前提下，将模型的权重和激活值都降低到 INT8 精度。

W8A16 ：指权重使用8位整数量化，但是激活值仍然保留较高的精度，通常是使用16位浮点数（FP16）或者混合精度（Mixed Precision）。这种方式相比于 W8A8，可能会提供更好的模型准确性，但是代价是在激活值上保留了更高的精度，因此可能不会像 W8A8 那样大幅度减少内存使用。

语言模型分类

N-gram模型：这是最基本也是最传统的语言模型。通过考察序列中前 n-1 个词或词元来预测下一个词或词元的概率。例如，二元模型（n=2）基于前一个词来预测下一个词的概率，而三元模型（n=3）则基于前两个词。N-gram模型实现简单，训练迅速，但它们容易受到数据稀疏性和泛化能力不足的影响。数据稀疏性是指训练集中未观察到的词或词元序列，导致这些序列被赋予零概率。泛化能力不足是指 N-gram模型无法捕捉距离较远的词和词元之间的长期依赖和语义关系。
循环神经网络（RNN）模型：这是第一种用于语言建模的神经网络。RNN通过循环连接一次处理一个词或词元序列，并更新代表模型记忆的隐藏状态。隐藏状态随后用于预测序列中的下一个词或词元。RNN模型克服了 N-gram模型的数据稀疏性和泛化能力不足问题，因为它们可以学习任意长度和频率的词或词元序列。它们还可以捕捉长期依赖和词与词元之间的语义关系，因为隐藏状态可以存储整个序列的信息。然而，RNN模型也存在一些缺点，如训练长序列时的梯度消失问题，以及训练和推理的速度较慢。
卷积神经网络（CNN）模型：这是另一种用于语言建模的神经网络。CNN 通过卷积操作对词或词元序列应用滤波器，提取表示语言模式和规律的局部特征。滤波器的大小和形状各异，能够捕捉不同层次和粒度的特征。CNN模型同样克服了 N-gram模型的数据稀疏性和泛化能力不足问题，因为它们可以学习任意长度和频率的词或词元序列。它们还可以捕捉长期依赖和词与词元之间的语义关系，因为滤波器能够覆盖序列的大部分区域。此外，CNN模型在训练和推理速度上相对于RNN模型具有优势，也更稳定和可靠。
Transformer 模型：这是最新和最先进的用于语言建模的神经网络。变换器模型使用自注意力机制对词或词元序列进行编码和解码，并应用注意力机制来关注序列中最相关的部分。注意力机制分为自注意力，即计算序列中每个词或词元对自己和其他词或词元的相关性；和交叉注意力，即计算一个序列中的每个词或词元与另一个序列中的词或词元的相关性。变换器模型同样克服了N-gram模型的数据稀疏性和泛化能力不足问题，因为它们可以学习任意长度和频率的词或词元序列。它们还可以捕捉长期依赖和词与词元之间的语义关系，因为注意力机制可以关注序列的任何部分，无论它们的距离如何。此外，变换器模型在简单性和多样性方面相对于 RNN 和 CNN模型具有优势，使得它们更简单高效，也更加多样化和强大。

深度学习（英语：deep learning）是机器学习的分支，是一种以人工神经网络为架构，对资料进行表征学习的算法。深度学习中的形容词“深度”是指在网络中使用多层。

Transformer模型是由 Vaswani 等人在2017年提出的一种神经网络架构，专为处理序列到序列的任务设计，如机器翻译、文本摘要、文本生成等。Transformer模型主要由两部分组成：编码器和解码器。编码器负责接收输入的词元序列并产生一系列隐藏状态，称为编码器输出；解码器则基于编码器的输出和目标词元序列来生成预测序列，即解码器输出。

自注意力机制是 Transformer模型的核心，使模型能够在不考虑词元间距离的情况下，理解输入或输出序列中任意两个词元之间的关系。自注意力通过计算输入词元的加权和来工作，其中的权重由词元间的相似度或关联性决定。

GPT

GPT，全称为 Generative Pre-trained Transformer，是一种能够生成自然语言文本的神经网络架构。GPT 的核心思想是先在大量文本数据上进行预训练，构建一个大语言模型，然后针对特定的任务进行微调，比如文本摘要、翻译、问答等。通过预训练，GPT 能够学习到丰富的语言模式和知识，进而能够在很少的数据和计算资源的情况下，适应不同的领域和任务。

GPT 是自然语言处理（NLP）领域中最先进、最强大的语言模型之一。NLP 是人工智能中一个重要的分支，它处理的是计算机和人类语言之间的互动。GPT 能够生成流畅、连贯的文本，很多时候这些 GPT 生成的文本与人类编写的问题难以区分。此外，GPT 在很多 NLP 任务上都展现出了高精度和高效率，超越了之前的许多顶尖模型。

作者：SteveChen 创建时间：2025-04-21 19:58
最后编辑：SteveChen 更新时间：2025-06-14 01:34

上一篇： Imagination Technologies图形处理
下一篇： GPT