青云科技AI智算平台助力算力基础设施向通算、智算、超算一体化演进

砍柴网  •  扫码分享

云计算市场竞争走向存量市场的较量,留给所有玩家的空间都更加逼仄。对于已经穿越过十余年风浪的青云 科技 而言,如何在这些剧烈的变化中寻找新航道,再一次对其战略眼光提出了考验。

当下最火热的技术莫过于AI,随着ChatGPT成功带来的新一代AI浪潮,引发了全球科技巨头在AI大模型层面的“军备竞赛”。作为AI大模型的发展基石,AI算力的需求也得到大幅提升——无论是基于通用大模型微调的行业应用,还是垂直行业的大模型训练,都需要大量的AI算力进行支撑,其规模还在随着大模型的成熟落地而不断攀升。

而在AI大模型热潮涌现之前,AI作为一种新的生产力工具已经在各行业场景中发挥作用。伴随AI技术的迅速发展,算力基础设施由通用算力为主,向通算、智算、超算一体化演进,市场对AI算力乃至多元算力的需求愈加强烈。

打出“AI算力牌”,能否成为青云科技备战下一个10年的重要支撑?

在国家政策的大力倡导下,全国各地都在积极打造大型智算中心,以推动国家新一代人工智能公共算力开放创新平台的建设。同时,“东数西算”工程也推动着各地包括智算中心、超算中心在内的算力中心建设,以提升国家整体算力水平。

毫无疑问,云计算作为AI算力不可或缺的基础设施,AI算力需求的爆发正在为云计算市场带来更多增量。有业内人士认为,随着企业对AI投入占比的持续增加,对于底层算力的需求,会带来10倍乃至100倍的市场规模增长。

一方面,智算中心 投资 巨大,能否盈利取决于运营效率和平台能力;另一方面,相比于建设,中后期的运营则更为复杂,要面对更为现实的技术和应用落地问题,比如:云计算、超算、智算等多元算力如何统一调度?传统应用、云原生应用、AI应用如何同时兼顾?如何支持异构CPU/GPU、提供高效的网络与存储?大规模智算中心如何高效的运维和运营?

在智算中心高速扩张的早期阶段,由于缺少统筹规划和技术经验,项目失败不在少数。某大厂斥巨资建设的智算中心,由于只支持国产GPU,上线时发现很多应用根本无法支撑,导致整个智算中心无法投入运营。与之类似的还有超算中心想要兼顾智算中心的功能,虽然超级计算机提供高精度算力,但却是为科学计算、超算等场景而生的,对于AI所需要的大规模、低精度算力并不适用,因此这一想法也并不现实。

不难发现,智算中心并不缺建设者,关键挑战反而是在建设后的运营阶段,谁能更好地解决这一难题,谁就能优先拿到AI算力的门票,而青云科技无疑是其中的佼佼者。

作为中国最早一批推出公有云服务的云服务商,青云科技在算力的调度、运维、运营等方面,已历经了十多年的大规模市场验证。2020年在洞察到国家“新基建”政策背后的算力中心和多元算力的需求后,青云科技提前三年就开始布局算力领域,从而具备了服务算力中心建设三要素(架构/能耗管理、多元算力操作系统以及多算力集群运营)的能力。

青云AI智算平台具备九大关键能力——多区多业务资源整合、高速并行存储、混合组网、分布式调度与管理、灵活调度、容器推理服务平台、算法开发支持、模型仓库(MaaS)、AI训练平台。

例如,在资源调度上,青云科技在多个方面进行了优化:为了适应AI行业特点,实现了立即调度扩容数万卡资源;在通信链路上,所有的节点、服务器、存储都打上了路径标签,可计算调度最短链路,让数据不绕路;支持异构平台,加速国产GPU芯片替代;使用“K8s+Slurm”对作业感知的管理,实现最大系统利用率;广泛的调度选项、动态灵活的资源调度可配置,使得运营管理员可以通过排队、调度、手动调度等方式,解决AI系统中最具挑战性的优先事项。

在混合组网上,青云科技也基于传统的云计算领域,增加了高速网络,在多区域(AZ)构建了统一服务计算平台,能够支持跨区域高速网络互联、不同类型资源池互联、独立计算和存储IB网、专属访问存储高速网络、业务网络互连下发任务等。用户在申请资源时,无论是按卡还是按节点申请,都能保证数据的安全隔离。

在AI训练平台上,青云科技集成了常用的训练模型框架,并提供GPU服务器在线申请、自动调度的集群,使得AI训练的所有网络和环境都可以一键生成。

整体而言,青云科技在AI算力领域的成功并非偶然,而是在AI算力调度和运营方面下了“狠功夫”的必然结果。目前,除了国家超算济南中心,青云AI智算平台还应用在清华天津电子院智算科研教学平台、上海科发SciPlus科研云等算力融合创新场景中,成为各类算力中心运营者的关键工具,助力算力中心建立从建设到运营的闭环。

随意打赏

提交建议
微信扫一扫,分享给好友吧。