大模型相关技术原理以及实战经验(工程化、应用落地)

目录

LLM训练

LLM训练实战

下面汇总了我在大模型实践中训练相关的所有教程。从6B到65B,从全量微调到高效微调(LoRA,QLoRA,P-Tuning v2),再到RLHF(基于人工反馈的强化学习)。

LLM预训练/SFT/RLHF…参数教程代码
Alpacafull fine-turning7B从0到1复现斯坦福羊驼(Stanford Alpaca 7B)配套代码
Alpaca(LLaMA)LoRA7B~65B1.足够惊艳,使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调,效果比肩斯坦福羊驼
2. 使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理
配套代码
BELLE(LLaMA/Bloom)full fine-turning7B1.基于LLaMA-7B/Bloomz-7B1-mt复现开源中文对话大模型BELLE及GPTQ量化
2. BELLE(LLaMA-7B/Bloomz-7B1-mt)大模型使用GPTQ量化后推理性能测试
N/A
ChatGLMLoRA6B从0到1基于ChatGLM-6B使用LoRA进行参数高效微调配套代码
ChatGLMfull fine-turning/P-Tuning v26B使用DeepSpeed/P-Tuning v2对ChatGLM-6B进行微调配套代码
Vicuna(LLaMA)full fine-turning7B大模型也内卷,Vicuna训练及推理指南,效果碾压斯坦福羊驼N/A
OPTRLHF0.1B~66B1.一键式 RLHF 训练 DeepSpeed Chat(一):理论篇 
2. 一键式 RLHF 训练 DeepSpeed Chat(二):实践篇
配套代码
MiniGPT-4(LLaMA)full fine-turning7B大杀器,多模态大模型MiniGPT-4入坑指南N/A
Chinese-LLaMA-Alpaca(LLaMA)LoRA(预训练+微调)7B中文LLaMA&Alpaca大语言模型词表扩充+预训练+指令精调配套代码
LLaMAQLoRA7B/65B高效微调技术QLoRA实战,基于LLaMA-65B微调仅需48G显存,真香配套代码
LLaMAGaLore60M/7B突破内存瓶颈,使用 GaLore 一张4090消费级显卡也能预训练LLaMA-7B配套代码

⬆ 一键返回目录

LLM微调技术原理

对于普通大众来说,进行大模型的预训练或者全量微调遥不可及。由此,催生了各种参数高效微调技术,让科研人员或者普通开发者有机会尝试微调大模型。

因此,该技术值得我们进行深入分析其背后的机理,本系列大体分七篇文章进行讲解。

LLM微调实战

下面给大家分享大模型参数高效微调技术实战,该系列主要针对 HuggingFace PEFT 框架支持的一些高效微调技术进行讲解。

教程代码框架
大模型参数高效微调技术实战(一)-PEFT概述及环境搭建N/AHuggingFace PEFT
大模型参数高效微调技术实战(二)-Prompt Tuning配套代码HuggingFace PEFT
大模型参数高效微调技术实战(三)-P-Tuning配套代码HuggingFace PEFT
大模型参数高效微调技术实战(四)-Prefix Tuning / P-Tuning v2配套代码HuggingFace PEFT
大模型参数高效微调技术实战(五)-LoRA配套代码HuggingFace PEFT
大模型参数高效微调技术实战(六)-IA3配套代码HuggingFace PEFT
大模型微调实战(七)-基于LoRA微调多模态大模型配套代码HuggingFace PEFT
大模型微调实战(八)-使用INT8/FP4/NF4微调大模型配套代码PEFT、bitsandbytes

⬆ 一键返回目录

LLM分布式训练并行技术

近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此,我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。

而利用AI集群,使深度学习算法更好地从大量数据中高效地训练出性能优良的大模型是分布式机器学习的首要目标。为了实现该目标,一般需要根据硬件资源与数据/模型规模的匹配情况,考虑对计算任务、训练数据和模型进行划分,从而进行分布式训练。因此,分布式训练相关技术值得我们进行深入分析其背后的机理。

下面主要对大模型进行分布式训练的并行技术进行讲解,本系列大体分九篇文章进行讲解。

⬆ 一键返回目录

分布式AI框架

    • PyTorch 单机多卡训练

    • PyTorch 多机多卡训练

    • Megatron-LM 单机多卡训练

    • Megatron-LM 多机多卡训练

    • DeepSpeed 单机多卡训练

    • DeepSpeed 多机多卡训练

    • 基于 Megatron-DeepSpeed 从 0 到1 完成 LLaMA 预训练

    • 基于 Megatron-DeepSpeed 从 0 到1 完成 Bloom 预训练

分布式训练网络通信

待更新…

LLM训练优化技术

    • FlashAttention V1、V2

    • 混合精度训练

    • 重计算

    • MQA / GQA

    • 梯度累积

LLM对齐技术

    • PPO(近端策略优化)

    • DPO

    • ORPO

⬆ 一键返回目录

LLM推理

模型推理引擎

    • TensorRT-LLM保姆级教程(四)-新模型适配

    • vLLM

    • LightLLM:纯python开发的大语言模型推理和服务框架

    • MNN-LLM:基于MNN引擎开发的大型语言模型运行时解决方案

模型推理服务

LLM推理优化技术

    • [LLM推理优化技术-概述]()

    • [大模型推理服务调度优化技术-Chunked Prefill]()

    • [大模型推理优化技术-KV Cache优化方法综述]()

    • 大模型吞吐优化技术-多LoRA推理服务

    • 大模型推理服务调度优化技术-公平性调度

    • 大模型访存优化技术-FlashAttention

    • 大模型显存优化技术-PagedAttention

    • 大模型解码优化-Speculative Decoding及其变体

    • 大模型推理优化-结构化文本生成

    • Flash Decoding

    • FlashDecoding++

LLM压缩

近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。
模型压缩主要分为如下几类:

    • 模型剪枝(Pruning)

    • 知识蒸馏(Knowledge Distillation)

    • 模型量化(Quantization)

    • 低秩分解(Low-Rank Factorization)

LLM量化

本系列将针对一些常见大模型量化方案(GPTQ、LLM.int8()、SmoothQuant、AWQ等)进行讲述。

LLM剪枝

目前,大多数针对大模型模型的压缩技术都专注于模型量化领域,即降低单个权重的数值表示的精度。另一种模型压缩方法模型剪枝的研究相对较少,即删除网络元素,包括从单个权重(非结构化剪枝)到更高粒度的组件,如权重矩阵的整行/列(结构化剪枝)。

本系列将针对一些常见大模型剪枝方案(LLM-Pruner、SliceGPT、SparseGPT、Wanda等)进行讲述。

    • [大模型剪枝技术原理:LLM-Pruner、SliceGPT]()

    • [大模型剪枝技术原理:SparseGPT、Wanda]()

    • [大模型剪枝技术原理:总结]()

结构化剪枝

    • LLM-Pruner(LLM-Pruner: On the Structural Pruning of Large Language Models)

    • LLM-Shearing(Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning)

    • SliceGPT: Compress Large Language Models by Deleting Rows and Columns

    • LoSparse

非结构化剪枝

    • SparseGPT(SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot)

    • LoRAPrune(LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning)

    • Wanda(A Simple and Effective Pruning Approach for Large Language Models)

    • Flash-LLM(Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity)

LLM知识蒸馏

Standard KD:

使学生模型学习教师模型(LLM)所拥有的常见知识,如输出分布和特征信息,这种方法类似于传统的KD。

    • MINILLM

    • GKD

EA-based KD:

不仅仅是将LLM的常见知识转移到学生模型中,还涵盖了蒸馏它们独特的涌现能力。具体来说,EA-based KD又分为了上下文学习(ICL)、思维链(CoT)和指令跟随(IF)。

In-Context Learning:

    • In-Context Learning distillation

Chain-of-Thought:

    • MT-COT

    • Fine-tune-CoT

    • DISCO

    • SCOTT

    • SOCRATIC CoT

Instruction Following:

    • Lion

低秩分解

低秩分解旨在通过将给定的权重矩阵分解成两个或多个较小维度的矩阵,从而对其进行近似。低秩分解背后的核心思想是找到一个大的权重矩阵W的分解,得到两个矩阵U和V,使得W≈U V,其中U是一个m×k矩阵,V是一个k×n矩阵,其中k远小于m和n。U和V的乘积近似于原始的权重矩阵,从而大幅减少了参数数量和计算开销。

在LLM研究的模型压缩领域,研究人员通常将多种技术与低秩分解相结合,包括修剪、量化等。

    • ZeroQuant-FP(低秩分解+量化)

    • LoRAPrune(低秩分解+剪枝)

LLM测评

    • C-Eval:全面的中文基础模型评估套件,涵盖了52个不同学科的13948个多项选择题,分为四个难度级别。

    • CMMLU:一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

    • SuperCLUE:一个综合性大模型评测基准,本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成、专业技能与知识、Agent智能体和安全性,进而细化为12项基础能力。

    • AGIEval:用于评估基础模型在与人类认知和解决问题相关的任务中的能力。该基准源自 20 项面向普通考生的官方、公开、高标准的入学和资格考试,例如:普通大学入学考试(例如:中国高考(Gaokao)和美国 SAT)、法学院入学考试、数学竞赛、律师资格考试、国家公务员考试。

    • OpenCompass:司南 2.0 大模型评测体系。支持的数据集如下:

理解长文本安全代码
阅读理解 – C3 – CMRC – DRCD – MultiRC – RACE – DROP – OpenBookQA – SQuAD2.0 内容总结 – CSL – LCSTS – XSum – SummScreen 内容分析 – EPRSTMT – LAMBADA – TNEWS长文本理解 – LEval – LongBench – GovReports – NarrativeQA – Qasper安全 – CivilComments – CrowsPairs – CValues – JigsawMultilingual – TruthfulQA 健壮性 – AdvGLUE代码 – HumanEval – HumanEvalX – MBPP – APPs – DS1000

LLM数据工程

LLM Data Engineering

预训练语料处理技术

    • 数据收集

    • 数据处理

    • 去重

    • 过滤

    • 选择

    • 组合

LLM微调高效数据筛选技术

    • [LLM微调高效数据筛选技术原理-DEITA]()

    • [LLM微调高效数据筛选技术原理-MoDS]()

    • [LLM微调高效数据筛选技术原理-IFD]()

    • [LLM微调高效数据筛选技术原理-CaR]()

提示工程

    • Zero-Shot Prompting

    • Few-Shot Prompting

    • Chain-of-Thought (CoT) Prompting

    • Automatic Chain-of-Thought (Auto-CoT) Prompting

    • Tree-of-Thoughts (ToT) Prompting

LLM算法架构

    • ChatGLM / ChatGLM2 / ChatGLM3 大模型解析

    • Bloom 大模型解析

    • LLaMA / LLaMA2 大模型解析

    • QWen 大模型剖析

LLM应用开发

大模型是基座,要想让其变成一款产品,我们还需要一些其他相关的技术,比如:向量数据库(Pinecone、Milvus、Vespa、Weaviate),LangChain等。

LLM国产化适配

随着 ChatGPT 的现象级走红,引领了AI大模型时代的变革,从而导致 AI 算力日益紧缺。与此同时,中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。本系列将对一些国产化 AI 加速卡进行讲解。

    • MindRecord数据格式说明、全量微调、LoRA微调

    • Qwen-72B、Baichuan2-7B、ChatGLM3-6B

⬆ 一键返回目录

AI编译器

AI编译器是指将机器学习算法从开发阶段,通过变换和优化算法,使其变成部署状态。

    • [AI编译器技术剖析(四)-编译器前端]()

    • [AI编译器技术剖析(五)-编译器后端]()

    • [AI编译器技术剖析(六)-主流编译框架]()

    • [AI编译器技术剖析(七)-深度学习模型编译优化]()

框架:

    • MLIR

    • XLA

    • TVM

AI基础设施

    • [大模型训练基础设施:算力篇]()

AI加速卡

    • AI芯片技术原理剖析(二):英伟达GPU

    • AI芯片技术原理剖析(三):谷歌TPU

AI集群

待更新…

AI集群网络通信

待更新…

    • 分布式训练网络通讯原语

    • AI 集群通信软硬件

LLMOps

LLM生态相关技术

LLM面试题

正在收集中…

⬆ 一键返回目录

服务器基础环境安装及常用工具

基础环境安装:

常用工具:

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容