环球视讯！人手一个ChatGPT！微软DeepSpeed Chat震撼发布，一键RLHF训练千亿级大模型

来源：亿欧网发布时间：2023-04-13 13:47:53

(相关资料图)

人手一个CHATGPT的梦想，就要实现了？

微软开源了一个可以在模型训练中加入完整RLHF流程的系统框架——DeepSpeed Chat。

也就是说，各种规模的高质量类ChatGPT模型，现在都唾手可得了！

项目地址：https://github.com/microsoft/DeepSpeed

一键解锁千亿级ChatGPT，轻松省钱15倍

众所周知，由于OpenAI太不Open，开源社区为了让更多人能用上类ChatGPT模型，相继推出了LLaMa、Alpaca、Vicuna、Databricks-Dolly等模型。

但由于缺乏一个支持端到端的RLHF规模化系统，目前类ChatGPT模型的训练仍然十分困难。而DeepSpeed Chat的出现，正好补全了这个「bug」。

更亮的是，DeepSpeed Chat把成本大大地打了下来。

此前，昂贵的多GPU设置超出了许多研究者的能力范围，并且，即使能访问多GPU集群，现有的方法也无力负担数千亿参数ChatGPT模型的训练。

现在，只要花1620美元，就可以通过混合引擎DeepSpeed-HE，在2.1天内训练一个OPT-66B模型。

而如果使用多节点、多GPU系统，DeepSpeed-HE可以花320美元，在1.25小时内训练一个OPT-13B模型，花5120美元，就能在不到一天的时间内训练一个OPT-175B模型。

前Meta AI专家Elvis激动转发，称这是一件大事，并表示好奇DeepSpeed Chat和ColossalChat相比起来如何。

下面，我们就来看看效果如何。

经过DeepSpeed-Chat的训练，13亿参数版「ChatGPT」在问答环节上的表现非常亮眼。不仅能get到问题的上下文关系，而且给出的答案也有模有样。

在多轮对话中，这个13亿参数版「ChatGPT」所展示出的性能，也完全超越了这个规模的固有印象。

一段代码，生成你的第一个ChatGPT

当然，在体验之前，还需要把环境配置一下：

git clone https://github.com/microsoft/DeepSpeed.git

cd DeepSpeed

pip install .

git clone

https://github.com/microsoft/DeepSpeedExamples.git

cd DeepSpeedExamples/applications/DeepSpeed-Chat/

pip install -r requirements.txt

一杯咖啡，训完13亿参数版ChatGPT

如果你只有大约1-2小时的咖啡或午餐休息时间，也可以尝试使用DeepSpeed-Chat训练一个「小玩具」。

团队特地准备了一个针对1.3B模型的训练示例，可在消费级GPU上进行测试。最棒的是，当你从午休回来时，一切都已准备就绪。

python train.py --actor-model FACEBOOK/opt-1.3b --reward-model facebook/opt-350m --num-gpus 1

配备48GB显存的消费级NVIDIA A6000 GPU：

一个GPU Node，半天搞定130亿参数

如果你只有半天的时间，以及一台服务器节点，则可以通过预训练的OPT-13B作为actor模型，OPT-350M作为reward模型，来生成一个130亿参数的类ChatGPT模型：

python train.py --actor-model facebook/opt-13b --reward-model facebook/opt-350m --num-gpus 8

单DGX节点，搭载了8个NVIDIA A100-40G GPU：

超省钱云方案，训练660亿参数模型

如果你可以使用多节点集群或云资源，并希望训练一个更大、更高质量的模型。那么只需基于下面这行代码，输入你想要的模型大小（如66B）和GPU数量（如64）：

python train.py --actor-model facebook/opt-66b --reward-model facebook/opt-350m --num-gpus 64

8个DGX节点，每个节点配备8个NVIDIA A100-80G GPU：

具体来说，针对不同规模的模型和硬件配置，DeepSpeed-RLHF系统所需的时间和成本如下：

DeepSpeed Chat是个啥？

DeepSpeed Chat是一种通用系统框架，能够实现类似ChatGPT模型的端到端RLHF训练，从而帮助我们生成自己的高质量类ChatGPT模型。

DeepSpeed Chat具有以下三大核心功能：

1. 简化ChatGPT类型模型的训练和强化推理体验

开发者只需一个脚本，就能实现多个训练步骤，并且在完成后还可以利用推理API进行对话式交互测试。

2. DeepSpeed-RLHF模块

DeepSpeed-RLHF复刻了InstructGPT论文中的训练模式，并提供了数据抽象和混合功能，支持开发者使用多个不同来源的数据源进行训练。

3. DeepSpeed-RLHF系统

团队将DeepSpeed的训练（training engine）和推理能力（inference engine）整合成了一个统一的混合引擎（DeepSpeed Hybrid Engine or DeepSpeed-HE）中，用于RLHF训练。由于，DeepSpeed-HE能够无缝地在推理和训练模式之间切换，因此可以利用来自DeepSpeed-Inference的各种优化。

DeepSpeed-RLHF系统在大规模训练中具有无与伦比的效率，使复杂的RLHF训练变得快速、经济并且易于大规模推广：

高效且经济：

DeepSpeed-HE比现有系统快15倍以上，使RLHF训练快速且经济实惠。

例如，DeepSpeed-HE在Azure云上只需9小时即可训练一个OPT-13B模型，只需18小时即可训练一个OPT-30B模型。这两种训练分别花费不到300美元和600美元。

卓越的扩展性：

DeepSpeed-HE能够支持训练拥有数千亿参数的模型，并在多节点多GPU系统上展现出卓越的扩展性。

因此，即使是一个拥有130亿参数的模型，也只需1.25小时就能完成训练。而对于拥有1750 亿参数的模型，使用DeepSpeed-HE进行训练也只需不到一天的时间。

实现RLHF训练的普及化：

仅凭单个GPU，DeepSpeed-HE就能支持训练超过130亿参数的模型。这使得那些无法使用多GPU系统的数据科学家和研究者不仅能够轻松创建轻量级的RLHF模型，还能创建大型且功能强大的模型，以应对不同的使用场景。

完整的RLHF训练流程

为了提供无缝的训练体验，研究者遵循InstructGPT，并在DeepSpeed-Chat中包含了一个完整的端到端训练流程。

DeepSpeed-Chat的RLHF训练流程图示，包含了一些可选择的功能

流程包括三个主要步骤：

第 1 步：

监督微调（SFT），使用精选的人类回答来微调预训练的语言模型，以应对各种查询。

第 2 步：

奖励模型微调，用一个包含人类对同一查询的多个答案打分的数据集，来训练一个独立的（通常比SFT小）奖励模型（RW）。

第 3 步：

RLHF训练，在这一步，SFT模型通过使用近似策略优化（PPO）算法，从RW模型的奖励反馈进一步微调。

在步骤3中，研究者还提供了两个附加功能，来帮助提高模型质量：

- 指数移动平均线（EMA）的收集，可以选择一个基于EMA的检查点，进行最终评估。

- 混合训练，将预训练目标（即下一个词预测）与 PPO 目标混合，以防止在公共基准（如SQuAD2.0）上的性能回归。

EMA和混合训练这两个训练特征，常常被其他的开源框架所忽略，因为它们并不会妨碍训练的进行。

然而，根据InstructGPT，EMA检查点往往比传统的最终训练模型提供更好的响应质量，而混合训练可以帮助模型保持训练前的基准解决能力。

因此，研究者为用户提供了这些功能，让他们可以充分获得InstructGPT中描述的训练经验。

而除了与InstructGPT论文高度一致外，研究者还提供了功能，让开发者使用多种数据资源，训练自己的RLHF模型：

数据抽象和混合能力：

DeepSpeed-Chat配备了（1）抽象数据集层，以统一不同数据集的格式；以及（2）数据拆分/混合功能，从而使多个数据集被适当地混合，然后在3个训练阶段进行分割。

DeepSpeed混合引擎

指示引导的RLHF管道的第1步和第2步，类似于大模型的常规微调，它们由基于ZeRO的优化和DeepSpeed训练中灵活的并行策略组合，来实现规模和速度。

而管道的第3步是在性能影响方面最复杂的部分。

每个迭代都需要有效地处理两个阶段：a）推理阶段，用于token/经验的生成，产生训练的输入；b）训练阶段，更新actor和reward模型的权重，以及它们之间的互动和调度。

它引入了两个主要的困难：（1）内存成本，因为在整个第三阶段需要运行多个SFT和RW模型；（2）生成回答阶段的速度较慢，如果没有正确加速，将显著拖慢整个第三阶段。

此外，研究者在第三阶段增加的两个重要功能——指数移动平均（EMA）收集和混合训练，将产生额外的内存和训练成本。

为了应对这些挑战，研究者将DeepSpeed训练和推理的全部系统能力组成了一个统一的基础设施，即混合引擎（Hybrid Engine）。

它利用原有的DeepSpeed引擎进行快速训练模式，同时毫不费力地应用DeepSpeed推理引擎进行生成/评估模式，为第三阶段的RLHF训练提供了一个更快的训练系统。

如下图所示，DeepSpeed训练和推理引擎之间的过渡是无缝的：通过为actor模型启用典型的eval和train模式，在运行推理和训练流程时，DeepSpeed选择了不同的优化，以更快地运行模型，并提高整个系统的吞吐量。

用于加速RLHF流程中最耗时部分的DeepSpeed混合引擎设计

在RLHF训练的经验生成阶段的推理执行过程中，DeepSpeed混合引擎使用轻量级的内存管理系统，来处理KV缓存和中间结果，同时使用高度优化的推理CUDA核和张量并行计算，与现有方案相比，实现了吞吐量（每秒token数）的大幅提升。

在训练期间，混合引擎启用了内存优化技术，如DeepSpeed的ZeRO系列技术和低阶自适应（LoRA）。

而研究者设计和实现这些系统优化的方式是，让它们彼此兼容，并可以组合在一起，在统一的混合引擎下提供最高的训练效率。

混合引擎可以在训练和推理中无缝地改变模型分区，以支持基于张量并行的推理，和基于ZeRO的训练分片机制。

它还可以重新配置内存系统，以便在每一种模式中最大限度地提高内存可用性。

这就避免了内存分配瓶颈，能够支持大的batch size，让性能大大提升。

总之，混合引擎推动了现代RLHF训练的边界，为RLHF工作负载提供了无与伦比的规模和系统效率。

效果评估

与Colossal-AI或HuggingFace-DDP等现有系统相比，DeepSpeed-Chat具有超过一个数量级的吞吐量，能够在相同的延迟预算下训练更大的演员模型或以更低的成本训练相似大小的模型。

例如，在单个GPU上，DeepSpeed使RLHF训练的吞吐量提高了10倍以上。虽然CAI-Coati和HF-DDP都可以运行1.3B的模型，但DeepSpeed可以在相同的硬件上运行6.5B模型，直接高出5倍。

在单个节点的多个GPU上，DeepSpeed-Chat在系统吞吐量方面比CAI-Coati提速6-19倍，HF-DDP提速1.4-10.5倍。

团队表示，DeepSpeed-Chat能够获得如此优异的结果，关键原因之一便是混合引擎在生成阶段提供的加速。

参考资料：

https://github.com/microsoft/DeepSpeed

关键词：

"宇宙第一股"飞天云动在港上市背后多家机构加持

10月18日，提供AR(增强现实) VR(虚拟现实)内容生产与软件技术服务...

深圳海关为支持加工贸易发展优化办理手续助推加工贸易融入国内大循环

宝安是深圳的产业大区，记者从深圳海关获悉，今年以来，宝安不少加...

照明企业普遍下滑民爆光电却实现业绩大增长？

日前，记者获悉，宝安企业深圳民爆光电股份有限公司(以下简称民爆光...

深圳资助渔业类 18个项目金额达1514元

近日，深圳市规划和自然资源局公布了2022年深圳市农业发展专项资金(...

深圳市罗湖区中医院开通网上问诊平台提供一站式服务

近日，深圳市罗湖区中医院开通了互联网医院网上问诊平台。该院互联...

中国香米产业基地安家深圳大鹏新区累计增收63.89亿

日前，每三年评选一次的中国农业技术推广级别最高奖项——全国农牧...

顺易通获国家级专精特新小巨人认证捷停车已覆盖369个城市

日前，深圳市顺易通信息科技有限公司(以下简称顺易通)获得由国家工...

寻找优秀青年创业者深圳U30启动

记者昨日从深圳市科协获悉，2022年科创中国青年创业榜单——深圳U30...

QS最新商业分析硕士项目排名公布毕业生平均年薪36万元

日前，全球高等教育研究机构QS发布2023商科硕士排名，分5个商科专业...

深圳欢创科技CEO周琨让扫地机器人随芯而动

刚过去的9月，欢创科技获得近亿元C1轮融资。这笔钱将全部拿来做VR。...

涨停雷达：ST板块异动 ST洲际触及涨停

今日走势：ST洲际（600759）今日触及涨停板，该股近一年涨停15次。...

今日热议：涨停雷达：小金属个股异动三祥新材触及涨停

今日走势：三祥新材（603663）今日触及涨停板，该股近一年涨停7次。...

看点：西部材料董秘回复：截至2023年4月10日，公司总股东户数为35,726户

西部材料(002149)04月13日在投资者关系平台上答复了投资者关心的问题。

【独家焦点】异动快报：正平股份（603843）4月13日13点19分触及涨停板

4月13日盘中消息，13点19分正平股份（603843）触及涨停板。目前价格...

香港创新科技及工业局局长孙东答21记者：今年下半年将正式开展100亿港元“产学研1+计划”

在《香港创新科技发展蓝图》发布后，香港正在加速建设国际创新科技...

今日视点：东田微：我司同中际旭创有建立合作关系，与天孚通信未建立合作关系

东田微(301183)04月13日在投资者关系平台上答复了投资者关心的问题。

全球快资讯：美格智能董秘回复：5G+AI将成为智能化社会的两大技术底座，公司也结合行业发展趋势适时进行相关产品布局

美格智能(002881)04月13日在投资者关系平台上答复了投资者关心的问题。

焦点关注：石四药集团(02005.HK)：腹膜透析液(乳酸盐)获得国家药监局批准通过仿制药质量和疗效一致性评价

石四药集团(02005 HK)发布公告，集团的腹膜透析液(乳酸盐–G2 5%)...

73岁张艺谋将拍《英雄联盟》网剧！此前曾告诫章子怡：别为了挣钱去拍剧

2023年4月9日张艺谋在中国电影大数据盛典上透露，今年9月自己将开拍...

文化和旅游部：“五一”假期预订高峰已经提前到来预计民众出游需求将强劲释放

上证报中国证券网讯文化和旅游部4月13日召开新闻发布会。文化和旅游...

热点聚焦：30岁的路口，这些90后选择离开大城市

第一批90后今年33岁了。从2012年踏入职场，第一批90后如今已在职场...

环球视讯！人手一个ChatGPT！微软DeepSpeed Chat震撼发布，一键RLHF训练千亿级大模型

人手一个CHATGPT的梦想，就要实现了？微软开源了一个可以在模型训练...

资讯：奈雪的茶彭心：坚持做好茶让年轻人爱上中国茶

中国经济网北京4月13日讯（记者刘潇潇）4月12日，“CCFA2023中国连...

陕西安康高新区：年底前购新房契税补贴50% 鼓励企业团购

陕西安康高新区出台17条措施促推房地产市场高质量发展。自本政策发...

时间定了！油价又要调整

车主朋友们，请牢记周末首件大事：加满油！国内油价“第八轮”调整...

延发工资、季度销量不过百，爱驰汽车困局难解！

继威马汽车、天际汽车、恒驰汽车后，爱驰汽车（下称“爱驰”）成又...

全球短讯！ST中基（000972）4月13日13点8分触及跌停板

4月13日盘中消息，13点8分ST中基（000972）触及跌停板。目前价格3 ...

世界热文：统一股份董秘回复：公司如果有相应的战略调整，会及时披露

统一股份(600506)04月13日在投资者关系平台上答复了投资者关心的问题。

【天天时快讯】青岛食品董秘回复：股价波动是市场行为，公司的生产经营一切正常

青岛食品(001219)04月13日在投资者关系平台上答复了投资者关心的问题。

青岛食品董秘回复：公司对海牛队的赞助事宜正与对方进行洽谈

青岛食品(001219)04月13日在投资者关系平台上答复了投资者关心的问题。

SHANGHAIGROWTH(00770 HK)发布公告，于2023年3月31日，公司未经审...

动态焦点:花旗：下调华晨中国(01114.HK)评级至“中性” 目标价降至3.1港元

小摩发布研究报告称，将华晨中国(01114 HK)评级从“买入高风险”...

新闻图集

老小区居民用上直供水丨“最后100米”百名记者蹲点社区（村）

观热点：价格高昂且充电设施匮乏，近半数美国人不愿购买电动汽车

天天信息:2023年3月新能源汽车产销继续保持较快增长

邀游客淡季来打卡，三亚发放千万元旅游消费券

焦点快播：恒为科技（603496）：4月13日该股突破长期盘整

天天观热点：市场监管“28条”服务“百千万工程” 广东力争今年底地理标志商标达135个

每日看点!我国大推力液体火箭发动机试车台全系统调试完成

环球看热讯：豌豆米的家常做法煮法豌豆米的家常做法介绍

焦点！绅士之庭琉璃神社在线观看绅士之庭琉璃神社

高盛策略师：今年余下时间美股波动可能加大

环球百事通！厦门温泉酒店推荐（地址＋营业时间）

天天消息！第八届海峡两岸神农炎帝经贸文化旅游招商系列活动启动

环球视讯！人手一个ChatGPT！微软DeepSpeed Chat震撼发布，一键RLHF训练千亿级大模型

热点聚焦：30岁的路口，这些90后选择离开大城市

环球视讯！人手一个ChatGPT！微软DeepSpeed Chat

资讯：奈雪的茶彭心：坚持做好茶让年轻人爱上中

陕西安康高新区：年底前购新房契税补贴50% 鼓励

时间定了！油价又要调整

延发工资、季度销量不过百，爱驰汽车困局难解！

世界消息！报告：房地产行业或将经历一个漫长调整

环球动态:融创归来！今年第三家成功复牌房企

碳酸锂何时止跌？新能源汽车销量或是关键

在抖音安家，多少流量能喂饱这只“鹅”？