华为星河AI数据中心网络:构建网络智慧大脑,充分释放算力潜能

如今,我们正加速进入AI时代,大模型能力持续升级,GPU性能迭代加速,千卡、万卡、十万卡规模的智算中心集群建设如火如荼。这一过程中,算力成为高频词汇,而网络较少被提及,承担的则是打通每片算力卡,充分释放每一分算力潜能的关键。

因此,AI的发展势必牵引着数据中心网络的升级。AI时代,数据中心网络应该如何变革?华为全联接大会2024期间,华为数据通信产品线数据中心网络领域总裁王武伟面向全球推出全新升级的星河AI数据中心网络方案给出了答案。

“就像人体一样,在AI时代,我们认为数据中心网络需要具备智慧的大脑和健壮的身躯。”王武伟介绍,首先,利用AI技术,提供智能化部署和运维,提高网络部署和运维的效率和准确率;其次,需要大带宽、高性能、高吞吐、高可靠的网络为多元算力场景提供稳固的网络基础,保障业务不中断。

为实现AI推动网络变革,网络加速AI发展,华为打造星河AI数据中心网络解决方案,打造智慧运维“1”张图、智简部署“1”平台、多元算力“1”张网的数据中心网络,通过前沿的AI技术使能网络智能化,并运用智能化的网络赋能AI训练,为AI时代提供了一个强大的网络基础设施。

好管理,易部署:AI加速网络智能化升级

大模型的出现加速了各行业拥抱AI的进程,网络智能化部署也迎来了关键拐点。据华为预测,到2026年,50%的网络供应商将在其解决方案中支持AIOPS,20%的初始网络配置将采用生成式人工智能技术。

今年,华为推出网络大模型应用NetMaster。基于华为盘古大模型进行训练,集成了华为在数据通信领域超过500亿语料和1万多名网络专家的经验,使得NetMaster具备了强大的语义理解能力,能够深入理解网络运维中的各种复杂问题,并提供精准、高效的解决方案。

同时,NetMaster与华为独家网络数字地图一起,脑图联动,加速数据中心自动驾驶网络(AND)迈向L4,助力客户最终实现零运维——AI运维值守,免人工参与。目前通过AI值守运维,80%运维流程可以免干预。

ADN如何实现向L4迈进?首先是从网络服务化走向AI生成式自动化,基于热力图、安全矩阵动态梳理,快速识别、还原海量互访关系,通过AI辅助业务方案设计、校验,自动生成工作流,自动下发网络配置,应用上线时间从周级缩短到小时级,业务开通时长降低90%。其次,从网络配置仿真走向网络性能仿真,确保应用100%成功发布。最后,从网络故障1-3-5走向故障AI自处置,通过AI思维链学习,无码对接三方系统数据,自动生成并且执行应用排障工作流,分钟级应用故障修复,业务恢复时长降低90%。

值得一提的是,目前,大模型的升级迭代速度可以用“天”来计算,智能算力供不应求,算力服务提供商一方面是加大智算中心的投入,从计算到存储到网络都是智算方案;另一方面是将传统数据中心升级为智算中心,网络势必将迎来重大变更升级。

星河AI数据中心网络解决方案的智简部署“1”平台通过数字孪生实现网络事前仿真事后校验,保障网络变更100%准确;同时依托网安融合能力,通过AI构建智能安全矩阵,百万安全策略智能分析,实现配置0差错。

高效率,高可用:充分释放智能算力潜能

正是在算力需求激增的背景下,如何充分市场每一分算力的潜能,成为整个智算产业生态关注的话题。众所周知,在大模型训练中,AI训练集群网络丢包率会极大影响算力效率,比如万分之一或者千分之一的丢包率,整个训推的效率会极速的下降。

目前,算力特别是智能算力的租赁和使用单位价格仍然处于高位,从IDC最新发布的《中国智算服务市场(2023下半年)跟踪》报告显示,2023下半年中国智算服务市场整体规模达到114.1亿元人民币,同比增长85.8%,短时间内近一倍的增长率,从侧面反映了算力成本的高企。

因此客户都希望能在极短的时间内完成模型训练,尽可能减少成本,毕竟只要停下来,每一刻都是损失。这一背景下,星河AI数据中心网络能够统一承载智算、通算和存储等不同应用场景,独创网络级负载均衡(NSLB)算法,实现网吞吐提升到95%,AI训练效率提升超10%。

具体来看,基于CloudEngine系列交换机提供的全场景iReliable技术,实现三级极速切换,实现亚毫秒级快切,保障业务零中断。

算力效率方面,依托独创网络级负载均衡(NSLB)算法,有效解决传统以太组网负载不均问题,实现全链路智能调优,网络吞吐可提升至95%,为头部互联网客户解决了传统以太网络有效吞吐仅50%的问题。

同时,全新发布的星河AI数据中心网络方案对NSLB算法再升级,从静态网络级负载均衡升级为动态网络级负载均衡,实现在超大规模集群下,模型训练从单任务演进到更复杂的多任务的场景下仍然保持95%的超高吞吐;另外,在业界主流的组网架构中,实测模型训练性能对比静态NSLB再次提升10%+

全场景,最灵活:助力千行万业数智转型

AI大模型时代,智算成为焦点,但是在很长一段时间内,通算和智算仍会是平衡发展。在数据中心网络向AI时代演进的过程中,华为研发了多款高性能交换机,来满足客户不同场景下的数据中心网络建设诉求。

面向通算场景,提供了业界端口最灵活的5合1交换机CloudEngine8865系列和350ns的低时延交换机CloudEngine6885系列;面向智算场景,推出业界首款面向AI场景的数据中心交换机CloudEngine XH16800系列,提供业界最高密的640*400GE的端口能力。

值得一提的是,为了进一步支撑大规模AI集群训练,华为发布业界首款51.2T(128*400GE)液冷盒式数据中心交换机CloudEngine XH9230和业界首款100T(128*800GE)盒式以太数据中心交换机CloudEngine XH9330。

据悉,这两款交换机,除了能够支撑构建更大规模的智算集群外,还有在算力效率和算力可用率方面进行了提升。算力效率方面,基于首创网络级负载均衡NSLB,AI训练效率提升超10%;算力可用率方面,通过独家闪启技术,实现设备异常重启/升级不断训练。

与此同时,光模块作为数据中心网络中的“关键环节”,因其故障导致的AI训练中断,每年的算力投资浪费约1400万。为此,华为的星联系列光模块也适配智算网络场景做了进一步升级。针对AI训练场景,华为星联光模块配套星河系列智算数据中心交换机,实现断链不断训,可靠性提升10倍。

“持续提升网络能力,充分释放算力,为客户创造更大的价值,这是我们的坚定信念与追求。”王武伟介绍,华为星河AI数据中心网络解决方案基于差异化技术创新优势获得客户的认可,并在金融、政府、互联网、制造等行业广泛应用,加速千行万业数智化转型。

免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。