2020设计之旅01-清单45【机器学习】独家解读！阿里重磅发布机器学习平台PAI3.0【上】

产品壹佰 • 4年前扫码分享

第45期：用时约3分【机器学习】独家解读！阿里重磅发布机器学习平台PAI3.0【上】

阿里机器学习平台PAI3.0

PAI团队在Notebook中开发了FastNerualNetwork插件，使用该插件可以将原本黑盒的深度学习网络建构成可视的流程。

如何探寻算法最优的超参数组合是一直以来困扰算法工程师的难题，调参工作不仅考验算法工程师对于算法推导认知的功底，还会带来大量手动尝试的工作量，工作效率很低。

PAI-AutoML自动调参引擎不仅包含基于ParallelSearch思想的Gridsearch、Randomsearch两种传统调参模式，还包含PAI团队基于PopulationBasedTraining理论原创的EvolutionaryOptimizer调参模式，这种调参方式可以渐进式的帮助用户以最小代价探寻最优参数组合。

，EvolutionaryOptimizer在调参过程中保留所有参数的表现以备追溯，并且调参模式与训练流程打通，做到自动选参、自动训练、自动评估、自动部署的整个链路自动化。

PAI平台提供PAI-STUDIO（可视化建模和分布式训练）、PAI-DSW（notebook交互式AI研发）、PAI-EAS（在线预测服务）三套服务，每个服务既可单独使用，也可相互打通。用户可以从数据上传、数据预处理、特征工程、模型训练、模型评估，到最终的模型发布到离线或者在线环境，一站式完成建模。

统计一个搜索引擎每日访问数量和每个关键字的点击率，真正的计算也就是计数和标量乘法，这里的“大”体现在数据规模上。但是机器学习，特别是现在的深度学习，对每一份数据，可能需要计算多次，每次计算都涉及复杂的数值计算，比如矩阵乘法、卷积等。这就必然引入其他专门的硬件做加速，比如GPU、TPU、FPGA等。

基于TAO的通用优化技术，在经典的图像CNN模型、NLPRNN/Transformer模型、最近流行起来的BERT模型、以及语义相关性DSSM模型上，均获得了显著的性能优化效果，从1.3倍到4倍不等。在解决单个计算设备性能优化的同时，TAO还提出了自动化分布式的广义编译优化的思想，我们称之为Auto-parallel功能。在Auto-parallel功能里，用户只需要提供一个原始的高层次模型描述，TAO会根据用户模型特点，自动探索出适宜的分布式执行策略，并完成分布式相关的计算图改造变换。

集群资源复用：训练价格降至35%

PAI平台拥有大量的计算资源，包括CPU、GPU、FPGA等。众所周知，GPU作为专用硬件加速器，在提供了高性能计算能力的同时，其成本也远远高于普通计算硬件。平台层面如何有效发挥这些GPU硬件资源的计算效率，对于降低用户计算成本，提供平台差异化优势都有着重要的意义和价值。

PAI希望实现“用更少的硬件，支持更多业务更快完成业务迭代”。为了完成这个目标，我们针对性地研发了GPU分时复用技术。整套技术实现遵循了数据驱动的思想，包括实时在线性能数据反馈通路、细粒度GPU资源复用、虚拟显存以及基于历史数据的资源预估策略这几个关键模块。在PAI平台的设计理念中，将AI基础设施也抽象定义为一个广义的反馈数据驱动的互联网系统，而实时在线性能数据反馈通路则是驱动这个反馈系统的关键模块，包括GPU资源复用，Blade以及TAO的研发过程中，均相当程度上依赖于这套反馈系统所提供的优化insights以及基础数据保障。

2020设计之旅01-清单45【机器学习】独家解读！阿里重磅发布机器学习平台PAI3.0【上】