解析中科曙光AI布局：不只有AI服务器还有云服务

网易科技 • 5年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

编者按：上周，中科曙光在苏州举办的英伟达GPU技术大会上推出了全新XMachine系列AI服务器。期间，曙光智能计算技术总监许涛接受了网易智能等媒体的专访，阐述了曙光XMachine服务器的特点以及曙光在AI领域的布局策略。

文/小羿

图：曙光XMachine服务器

中科曙光发力AI服务器领域，最近推出了XMachine系列AI服务器。据悉，XMachine系列服务器采用统一硬件平台，两块不同主板(CPU、GPU)，三种不同拓扑，其最大的特点是采用CPU主板和GPU底板解耦合设计，可根据CPU和GPU的发展各自独立升级，降低用户更新换代成本。

XMachine系列服务器基于Intel Skylake CPU，最多可支持8卡NVIDIA NVLink的GPU、10卡训练GPU、20卡推理加速卡。这一系列服务器有很多种组合，而本次推出的型号主要包括X745-G30、X785-G30、X795-G30、X740-H30四款。

其中，X745、X785和X795的产品更多的是面向于训练，兼顾推理场景。而X740主要面向推理端，可以支持四块NVIDIA T4这样的GPU卡。

解析中科曙光AI布局：不只有AI服务器还有云服务

图：曙光智能计算技术总监许涛

以下为曙光智能计算技术总监许涛对XMachine系列和曙光的阐述（经网易智能整理）：

| 同一平台不同选择 CPU主板和GPU板可独立升级

问： XMachine系列AI服务器为何要设计成多种组合？

许涛： 主要有两点原因，一方面是因为目前在深度学习应用场景中，会分为推理和训练等不同的应用场景，这种不同的应用场景对GPU服务器的要求是不一样的。例如，训练环境下它需要用到的是功耗比较高、计算能力比较强的大型的GPU卡，而推理需要像英伟达T4这样的小卡。因此，不同的需求导致它对前端GPU服务器的需求也不太一样，在这样不同需求的驱动下，XMachine服务器可以在同一个平台上满足不同的应用、不同的需求。

另一方面，英伟达现在出的GPU卡的形态也有所变化，不像以前只有PCI－E接口的，它现在大力推动NVLink这种结构GPU卡的普及，所以我们设计这个产品的时候也需要考虑跟PCI－E接口和NVLink接口的配合。

基于以上两个层面，我们设计服务器的时候就尽量希望能在同一个平台上把这些所有的需求考虑进去。XMachine服务器的主板和GPU板做了分离式设计，两个板可以按照自己的演化速度朝前推进。从远期规划来讲，XMachine系列至少会有两块不同的主板、三块不同的底板、三种不同的连接拓扑，这样理论上算下来我们会有18种不同的机型。

问： 18种不同机型的设计，会不会给用户造成选择困难？

许涛： 理论上来讲会有18种不同的搭配或者组合，实际出货的时候会给用户建议。在曙光的团队里，不仅有给用户做硬件推荐的，还有解决方案团队，我们希望提供给用户的是一个完整的解决方案，从客户应用出发推荐一个比较合适客户的硬件配置、拓扑结构。

问： XMachine系列AI服务器未来如何进行CPU主板和GPU主板的独立升级？

许涛： XMachine系列升级更多的还是强调结合设计和模块化设计，这个地方最显著的就是我们想做的是统一平台，平台基本上不会再动了。后面这些不同的主板和不同的GPU是可以互相调换的，互相搭配使用的。

如果从保护投资的角度来考虑，在人工智能的需求里面对CPU的诉求不是很强烈，那后续CPU可以保持不升级，等新的GPU出来以后，可以直接在GPU底板上去更换原来的GPU。如果再时间更长一些来看，等P3E4型的GPU出来以后，我可以将底板和GPU捆绑，整体的进行切换，然后用户只需要单独购买一块底板就可以了，放在原来的服务器里面也可以满足他的需求。

还有一个情况，如果用户发现我的CPU的诉求更强烈一些，我现在要急迫的换CPU，而GPU这块由于成本过于高昂，短期内不愿意去换，我只需要单独买一块我们自己的主板，把它换上去就可以了。

| AI 服务器设计上最大的挑战是功耗与散热

问： AI服务器与传统服务器的差别是什么？在设计上有什么挑战吗？

许涛： 以高计算力为需求的产品，现在慢慢的就从传统的服务器独立出来，因为它的设计和传统的服务器不太一样。主要原因是，传统服务器的功耗和散热相对来说比较低，但高算力服务器功耗会非常的高，像我们现在设计的服务器最高的功耗会达到3200瓦，这还是额定的功率，如果说是推荐的HGX的下一代产品，给出的参考功率是单排10千瓦。功耗对AI服务器来讲是一个非常大的挑战。

因为功耗很大，带来了一个新的问题就是散热压力非常大，我们要在设计服务器的时候就要考虑到如何将热量从服务器来带走，这是AI服务器和传统的服务器最大的区别了，也是最大的挑战。

另外，相比传统服务器，GPU服务器单机的造价会非常高，所以在稳定性、兼容性上要求都更高。

问：您会不会担心这样的设计被其他服务器厂商效仿？

许涛： 我觉得模仿这个事情是没有办法避免的，如果你想一直保持比较先进的架构或者结构的话，就需要不停地去演进这个产品。从另外一个角度来讲，一个产品的成熟也是一个反复迭代的过程。XMachine系列服务器未来会有新的版本不停迭代，让它变得越来越适用于用户应用场景，或者越来越适用于新技术的发展。在演进过程中需要大量的测试资源和技术投入，也会有一定的技术门槛。

所以，我们不担心产品被模仿，如果其他厂商真的模仿了我们，说明我们引领了这个市场潮流。

问：从芯片的角度看如何选择，是选择寒武纪芯片的服务器，还是选择英伟达芯片的服务器？

许涛： 其实对通用的用户来讲，可能英伟达的产品更适合他，因为他们可以快速的商业化，快速的部署。但是如果用户是一些科研机构或者是对人工智能的技术有非常独特的需求，可能会选择一些更加特异化的产品，比如寒武纪、FPGA，或者是一些其他的硬件产品来做这种人工智能的应用或者服务器的选型。

也就是说，GPU或者以GPU为代表的加速器是未来一段时间人工智能非常重要的一个加速单元，但是并不是唯一的。大家能看到的GPU的产品，在未来应该也会遇到竞争对手，像AMD刚刚发布的MI60。目前，在AI训练端，英伟达市场份额最大，但在推理端，选择的空间还有很大。用户的选择越多，这个市场才会越繁荣。

| 未来五年，市场对高算力服务器有非常强劲的需求

问：如何看待国内GPU服务器市场的发展？

许涛： 国内GPU服务器基本都是从OEM或者ODM厂商走过来的，但目前国外厂商的服务器在本土化过程中很难适应国内的需求，比如做定制化或者与一些大型厂商做应用测试的时候，就很难做到。

我们也发现经过传统的方式做出来的服务器或者ODM服务器越来越难满足客户的需求，这时候只能说走自主研发的道路。曙光推出的这种GPU服务器不是国内第一家，但我们希望依托自身优势可以做得最好。

问：曙光为何要布局AI服务器？

许涛： 传统的服务器虽然可以用于人工智能推理或者训练，但是并没有完全为人工智能市场开发一整套的产品，这就导致这些厂商在AI市场中的产品非常单一。从客户的角度来看，尤其是国内客户诉求越来越多，每个用户需求点都不太一样。所以曙光更多的还是考虑到通过一系列的GPU服务器，为用户提供整套的选择，他可以在不同的应用条件下选择不同的产品。

我们认为，在未来5年里面人工智能将保持一个非常高速的发展，这会对高算力服务器有非常强劲的需求，而且随着这种需求的持续增长，对服务器的需求肯定也会有一些新的要求。曙光这个时间点上推出我们的服务器，希望在后续的市场增长里面能够积极响应市场需求，能够把市场需求转化成产品，能更好地配合市场，拉动公司的增长。这是对曙光来讲最大的意义。

另外，曙光的GPU服务器的定位并不是仅限于AI领域。曙光最早是做高性能计算的企业，所以除了做AI服务器，还会持续关注传统高性能计算，以及异构计算领域。

| 在特定领域提供云计算服务，吸引中小企业入驻

问：面向云服务市场，曙光有什么样的策略？

许涛： 首先，面向小微企业，曙光会在云端部署很多的GPU服务器，帮助小企业把他们的应用部署到云端去，面向市场提供这种服务。我们最初的设计就类似于孵化器一样，在未来一段时间，这种非常小型的idea后来做的越来越好，可以选择跟我们合作在“先进计算中心”的云平台上部署业务。

先进计算平台期望的就是在未来帮助用户，特别是小型的用户提供计算服务。随着AI对计算的强劲需求，先进计算中心就可以通过运营上的优势，资源复用的优势来帮助这种小型或者微型的客户解决他们面临的非常实际的问题。

对这些企业来讲，不管是本地部署还是云部署总是需要资源的，我们可以在计算中心里面单独提供资源，提供运维、管理，或是提供本地化的支持，帮助他们规划整个计算中心的整体方案，做特殊的定制化的云服务。

未来，曙光可能会在全国各地建很多的先进计算中心，有自营的，也有可能和当地政府或机构合建，为用户提供计算支持和计算服务。但需要注意的是，曙光不是在做通用云平台，而是在某些特殊的领域或者特殊的行业提供专业的云服务。（完）