IBM高级研发工程师武维：如何分布式训练深度学习模型？

雷锋网 • 6年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网AI研习社按 ：随着深度学习神经网络规模越来越大，训练一个深度神经网络（Deep Neural Networks, DNNs）往往需要几天甚至几周的时间。为了加快学习速度，经常需要分布式的 CPU/GPU 集群来完成整个训练。本文就就来为大家简单简单介绍一下如何进行分布式训练深度学习模型。

在近期雷锋网 (公众号：雷锋网) AI 研习社的线上公开课上，来自 IBM 系统部研发工程师武维博士为大家做了一期主题为「深度学习中的分布式训练」的在线分享，错过了直播的同学们如果看了本文有疑惑之处还可以到雷锋网 AI 慕课学院观看 视频回放 。

以下是雷锋网对视频直播内容做的简要回顾：

武维，IBM 系统部研发工程师，曾就职于华为大数据产品部及 IBM 中国研究院，担任系统工程师/研究员；西安交通大学系统工程博士，目前主要研发方向为深度学习中的分布式训练框架与模型。

分享提纲：

为什么要分布式训练深度学习模型及分布式TensorFlow架构。

TensorFlow图内复制和图间复制。

深度学习模型异步训练和同步训练。

Case Study：如何把单机模型分布式化。

分布式模型训练性能介绍。

分享内容：

大家好，我是武维，今天分享的第一部分介绍一下为什么要采用分布式训练以及分布式 TensorFlow 的架构，第二部分讲 TensorFlow 图内复制和图间复制，第三部分是关于分布式训练中的同步训练和异步训练的简要介绍。第四部分是关于如何把单机模型分布式化成分布式模型，第五部分是关于分布式训练的性能介绍。

为什么要采用分布式训练呢，分布式训练主要处理什么问题，以及如何处理的？

下图是关于TPU架构数据中心的图

IBM高级研发工程师武维：如何分布式训练深度学习模型？

第一个原因，是增加训练的吞吐量；第二个原因是是针对大模型训练，大模型通常在一个设备中放不下。

下面左图中的横坐标可以认为是 GPU 个数，纵坐标为处理图片的速度。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

针对大模型怎么去训练？现在的办法是把模型拆解到不同的GPU卡里面，每个GPU卡里面训练一部分，这样就可以把一个大模型分布式训练起来。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

如何实现这个流程

IBM高级研发工程师武维：如何分布式训练深度学习模型？

左边是TensorFlow的一个基本的运行流程。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

TensorFlow 的发展过程

IBM高级研发工程师武维：如何分布式训练深度学习模型？

分布式TensorFlow架构，它的架构是基于Master 和 Slaver的架构。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

以上是从master 和slaver 的角度讲深度学习分布式架构，下面从worker 的角度来看：

IBM高级研发工程师武维：如何分布式训练深度学习模型？

深度学习首先要训练参数，在分布式里面会把参数存放在参数服务器，如果 worker 需要运算的话，首先从参数服务器读取参数到到 CPU 上。目前来说，大多数的深度学习训练都是在 GPU 设备上进行的，所以需要把读取的数据复制到 GPU 上，GPU 就可以从左往右开始运算。最后通过求导找到变量所对应的梯度，然后在将梯度复制到机器上所对应的的 CPU 上，CPU 再通过网络通信把他发送给参数服务器，这是从整个 worker 角度去看分布式架构。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

TensorFlow 在分布式训练里面有两个比较重要的概念分别是「图内复制」和「图间复制」。分布式训练意味着有一个集群，先定义一个分布式集群。下面是图内复制，这种情况适合单机多卡。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

如果是多台计算机的时候，分发数据带来的数据瓶颈就会比较大，如果采用图内复制，数据传输会产生瓶颈。这个时候需要用图间复制，两个图可以中间共享变量，解决了训练数据分发的问题，这种方式适用于多机多卡训练。图间复制有多个客户端，图内复制只有一个客户端。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

TensorFlow 封装了高级 API，会自动把参数部署到参数服务器上，把运算操作设定到 worker 上，这些就实现了一份代码可在多个 worker 上运行，简化了客户端程序的编写。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

如何分布式寻找最优W？同步训练和异步训练有什么区别？

随机梯度下降法：第一个式子数值求偏导，计算量太大，不实际。通常用微积分求导，解析解。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

分布式随机梯度下降法

IBM高级研发工程师武维：如何分布式训练深度学习模型？

异步训练过程：异步训练为TensorFlow上每个节点上的任务为独立训练方式，不需要和其他节点在参数服务器上同步梯度。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

同步训练过程：同步训练需要和其他节点在参数服务器上Reduce梯度。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

第四部分是如何编写分布式训练模型示例，大家可以观看视频回放。

下图是单机版线性回归模型示例

IBM高级研发工程师武维：如何分布式训练深度学习模型？

第五部分是 分布式训练的性能比较

评价指标通常分为模型方面和平台方面。在模型方面常用指标是：准确率、召回率、AP等。平台方面

主要看吞吐量、加速比。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

异步训练的吞吐量比同步训练好，所以异步训练要比同步训练的快。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

同步算法和异步算法的比较

IBM高级研发工程师武维：如何分布式训练深度学习模型？

以上就是本次分享的主要内容，代码实现部分建议同学们直接观看回放视频，也可关注嘉宾武维的GitHub地址。

微信公众号：「AI 研习社」长期提供免费视频直播课程，欢迎关注！

。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

随意打赏

富士胶片IBM超大规模数据智能化存储技术沙龙在北京顺利举行

砍柴网 • 18秒前

2024年3月26日，"富士胶片IBM超大规模数据智能化存储技术沙龙"在北京IBM中国创新中心举办。活动邀请到数据行业专家、行业用户分享数据存储与管理经验，数据存储行业厂商分享应对超大规模数据存储与管理的前沿技术和产品及落地实践。近年来随着各行各业的现代化、智能化转型和人工智能的蓬勃发展，数据呈现爆
IBM又启动裁员：有部门裁了80%，要求自愿离职的员工站出来；传抖音内部最大一次高层活水调整；苹果春季发布会被曝取消丨雷峰早报

雷锋网 • 1月前

要闻提示1.网传抖音内部进行最大一次高层活水调整，五大行业重新划分2.百川智能商业化进程加速，前中关村科金副总裁邓江加入3.MiniMax正在进行新一轮大规模融资，阿里领投4.商汤在年会上用数字人复活了汤晓鸥教授，网友：他复活了他自己5.iPhone地震预警APP辟谣收费：没有收费，以后可能会推出收费功能6.苹果春季发
2023年半导体专利报告：三星超万件，IBM、高通、台积电紧随其后

砍柴网 • 2月前

1 月 27 日消息，知识产权管理公司 Anaqua 基于公开数据，统计分析 2023 年全球半导体专利相关信息，发现美国地区申报的专利数量最多，已经连续两年位居榜首。该公司利用先进的 AcclaimIP 专利分析软件，分析美国商标和专利局公示的半导体相关专利，发现 2023 年达到 348774 件，与 2022 年
Meta和IBM等组织创建AI联盟，以共享技术和降低风险

i黑马 • 4月前

Meta和IBM正联手40多家公司和组织创建一个致力于开源人工智能AI工作的行业组织，旨在共享技术并降低风险。据周二的声明，这个名为“AI联盟”的联合体将专注于负责任地开发AI技术，包括安全和安保工具。联盟还将寻求增加开源AI模型的数量——而不是一些公司青睐的专有系统，开发新硬件，并和学术研究人员合作。文章评价匿名用户
量子计算技术重磅升级：IBM展示最新的模块化量子处理器

砍柴网 • 4月前

12月5日讯当地时间周一（12月4日），美国国际商用机器公司（IBM）在官方博客发文，展示了“量子效用”（Quantum Utility）所需的硬件和软件，其中包括新的量子处理器芯片和量子计算系统。量子计算是一种快速崛起的技术，它利用量子力学定律来解决对经典计算机来说过于复杂的问题。但要在现实世界中制造一台可靠的、性
富士胶片携手IBM共同开发50TB磁带存储系统实现更高数据存储容量

砍柴网 • 7月前

富士胶片株式会社和 IBM宣布共同开发了原始记录容量达50TB的磁带存储系统，为目前全球最高磁带容量（*1）。富士胶片已开始生产高密度磁带，用于IBM企业级磁带驱动器 TS1170。第六代 IBM 3592 JF磁带采用了新开发的精细混合磁性颗粒技术，可实现更高的数据存储容量。技术创新实现 50TB原始容量富士胶片通过
中盐集团：食盐储备足，不要盲目抢；传大疆车载寻融资，估值 15 亿美元；IBM 研发 AI 模拟芯片｜极客早知道

极客公园 • 7月前

中盐集团回应食盐抢购现象：储备充足不要盲目抢购8 月 24 日中午 12 点，日本福岛第一核电站的核污染水排海工作正式启动，受日本核污染水排海影响，我国部分市场发生食盐抢购现象。今日晚间，中国盐业集团有限公司发布「中盐集团关于保障食盐市场供应的声明」，中盐集团表示，我国食盐来源主要分为三类：井矿盐、湖盐、海盐。当前我
IBM押宝日本2nm晶圆厂， Rapidus何许人也？

虎嗅网 • 8月前

自2022年12月IBM宣布与日本企业Rapidus合作，至今，IBM全心全意下放其2nm技术给Rapidus，不仅派驻了上百名工程师亲自参与，还表示将不设上线的投入大量精力，不惜牺牲其他项目的利益，也要帮助日本搞定2nm芯片制造。本期视频，我们就来聊聊，IBM为何选择与Rapidus合作。
IBM二季度营收154.8亿美元，数据和AI产品收入同比增长10%

砍柴网 • 8月前

IBM当地时间7月19日公布二季度报，第二季度营收154.8亿美元，分析师预期155.4亿美元；二季度软件收入66.1亿美元，同比增长7%，分析师预期63.5亿美元，该部门增长最快的部分是数据和人工智能产品，同比增长10%。IBM第二季度净利润从上年同期的14亿美元同比增长13%至16亿美元；二季度咨询收入50.1亿美
助力攻坚2nm工艺！IBM将大力扶持这家日本芯片新贵…

砍柴网 • 9月前

7月3日讯 IBM的一位高管近期表示，该公司目前正把帮助日本芯片制造初创企业Rapidus作为首要任务，因新兴的芯片代工业务对确保长期的全球供应至关重要。Rapidus是一家由日本一些最大的电子公司支持的企业，其目前正在攻坚2nm（纳米）工艺技术，并计划在2025年开始试产，2027年大规模量产。当今最先进的半导体是在

评论