大模型之LLaMA | 九分钟热度

type

status

date

slug

summary

1.LLama

1.1 简介

Open and Efficient Foundation Language Models (Open但没完全Open的LLaMA)

LLaMA 所采用的 Transformer 结构和细节，与标准的 Transformer 架构不同的地方包括采用了前置层归一化（Pre-normalization）并使用 RMSNorm 归一化函数 （Normalizing Function）、激活函数更换为SwiGLU，并使用了旋转位置嵌入（RoP），整体 Transformer 架构与 GPT-2 类似。

1.2 RMSNorm归一化函数

为了使得模型训练过程更加稳定，GPT-2 相较于 GPT 就引入了前置层归一化方法，将第一个层归一化移动到多头自注意力层之前，第二个层归一化也移动到了全连接层之前，同时残差连接的位置也调整到了多头自注意力层与全连接层之后。层归一化中也采用了 RMSNorm 归一化函数。针对输入向量 RMSNorm 函数计算公式如下：

此外，RMSNorm 还可以引入可学习的缩放因子和偏移参数，从而得到。 RMSNorm 在 HuggingFace Transformer 库中代码实现如下所示：

1.3 SwiGLU激活函数

SwiGLU激活函数是相较于 ReLU 函数在大部分评测中都有不少提升。在 LLaMA 中全连接层使用带有 SwiGLU 激活函数的 FFN（Position-wise Feed-Forward Network）的计算公式如下：

其中，是 Sigmoid 函数。下图给出了 Swish 激活函数在参数 β 不同取值下的形状。可以看到当 β 趋近于 0 时，Swish 函数趋近于线性函数 y = x，当 β趋近于无穷大时，Swish函数趋近于ReLU函数，β取值为 1 时，Swish 函数是光滑且非单调。在 HuggingFace 的 Transformer 库中 Swish1 函数使用 silu 函数代替。

LLaMA中直接将FFN中的ReLU替换为SwiGLU，并将维度放缩为(2/3) ⋅ 4d

1.4 旋转位置嵌入（RoPE）

在位置编码上，使用旋转位置嵌入（Rotary Positional Embeddings，RoPE）代替原有的绝对位置编码。RoPE 借助了复数的思想，出发点是通过绝对位置编码的方式实现相对位置编码。其目标是通过下述运算来给 q，k 添加绝对位置信息：

经过上述操作后，和就带有位置m和n的绝对位置信息。

最终可以得到二维情况下用复数表示的 RoPE：

根据复数乘法的几何意义，上述变换实际上是对应向量旋转，所以位置向量称为“旋转式位置编码”。还可以使用矩阵形式表示

根据内积满足线性叠加的性质，任意偶数维的 RoPE，都可以表示为二维情形的拼接，即：

RoPE 在 HuggingFace Transformer 库中代码实现如下所示：

2.Alpaca

2.1 简介

Stanford Alpaca: An Instruction-following LLaMA Model

Alpaca是在LLaMA基础上使用52K指令数据精调的预训练模型，作者只用了不到600美元的成本训练出了该模型（数据$500 + 机器$100）。初步实验结果表明Alpaca可以达到与OpenAI text-davinci-003相匹敌的效果

2.2 微调方法

第一步：构造175条self-instruct 种子示例任务

第二步：基于上述种子任务，利用text-davinci-003爬取指令数据

第三步：使用爬取下来的52K指令数据在LLaMA上进行精调，最终得到Alpaca

2.3 Self-instruct数据构造

首先由人工构造175条种子数据

将“爬取要求”和种子数据进行适当组合，送入textdavinci-003，要求生成类似的指令数据。要求包括：提升指令多样性、包含真实数据、字数要求、语言要求、拒绝不合适指令等

2.4 指令数据格式

instruction: 描述模型需要执行的指令内容

input（可选）: 任务上下文或输入信息，例如当指令是“对文章进行总结”，则input是文章内容

output: 由text-davinci-003生成的针对指令的回复

3. 总结

LLaMA

开源大模型繁荣发展的开端，一系列相关工作均基于LLaMA开展

模型规模7B、13B、33B、65B满足了开发者和研究者的不同需求

Alpaca：通过少量的指令精调赋予LLaMA指令理解与执行的能力

LLaMA核心技术：

Transformer的decoder结构

旋转位置向量RoPE

前置层归一化（Pre-normalization）并使用 RMSNorm 归一化函数

激活函数SwiGLU

🗒️大模型之LLaMA