首页|傲世皇朝注册|平台
首页|傲世皇朝注册|平台
全站搜索
 
 
新闻详情
 
当前位置
超级AI以太网交换机来了!
作者:管理员    发布于:2024-06-29 01:20    文字:【】【】【
       

  业内很多人都没注意到,包括我的很多网工朋友都没注意,市面上有一款吊炸天的“

  毕竟,交换机这种通用网络产品发展了几十年,时至今日,任何网络技术,很难撩起人们的兴奋点。

  这款叫做X400的交换机,端口规格是128×400G,看起来似乎“平平无奇”。

  因为业内同行们,也差不多是这个规格(单芯片51.2T方案,64×800G或128×400G)。

  跟同行们的51.2T方案相比,用这款交换机组网训练大模型,训练性能可以提升1.6倍。

  这意味着,基于X400交换机构建的以太网集群,大模型训练性能可以完全对标同速率的IB网络。

  国内数通大厂和互联网巨头们,纷纷发布了51.2T交换机,大多搭载的是Tomahawk5方案,而这款X400交换机,是首款采用Spectrum-4的。

  相比其他方案,Spectrum-4具备一些独特的优势,专门应对AI业务场景:

  ❶自适应路由实现完美负载均衡 ❷多租户流量隔离,互不打扰 ❸交换链路带宽利用率高 ❹训推任务实现低延时,低抖动和低尾延时。

  更为重要的是,AI大模型大多基于GPU构建,训练集群的网络优化离不开NCCL集合通信库支持。

  X400和IB一样,与NCCL天然无缝衔接,而其他交换方案需要对NCCL进行额外修改和优化。

  这么说吧,同样是RoCE,X400能吊打传统RoCE交换机,软件层的优化,功不可没。

  搞过数据中心网络的都知道,在对网络延迟和丢包比较敏感的场景,通常都会启用ECN技术,现在市面上用的比较多的叫做“DCQCN”。

  ECN是一种网络拥塞通知和管理机制,它在监测到网络中即将发生拥塞的时候,不会将报文丢弃,而是添加拥塞标记,让发送方动态调整拥塞控制窗口(CWND),从而避免拥塞。

  说白了,快要拥塞的时候,就通知发送方步子迈小点儿,没有拥塞的时候,步子就迈大点儿。

  但是呢,这个“步子”的大小(拥塞窗口大小)是非常有学问的,步子太大容易扯着蛋,步子太小就会影响吞吐量。

  能够动态地找出那个最优的“窗口”,既保证不拥塞,又有最高的吞吐量,深深困扰了广大数据中心网工们。

  这家伙鬼的很,它要用AI的办法来解决AI问题,搞出了一个AutoECN的算法,相当于每台交换机都内置了一个流量调参大模型。

  在实际流量环境中,X400交换机会实时采集流量特征,并通过带外管理口进行上下游流量特征同步(这种同步不会占用带内带宽资源)。

  被采集到的流量状态会作为输入,给到交换机内置的AutoECN模型,然后模型会根据输入,完成实时推理,得到此时最优的ECN参数,实时设置。

  跟传统的ECN/DCQCN相比,AutoECN的拥塞控制阈值是一个完全动态调整的最优值,也不怕由于CNP报文发送不及时导致的控速失效。

  同样一组流量,在启用了DCQCN和AutoECN的交换机上传输,后者对传输效率的改进非常明显。

  如上图,AutoECN提供了三种模型:时延优先、吞吐优先、均衡模型。然后分别用两种特征的流量来打,每种模型的表现,都大幅超过传统ECN(传输每一组流量时,所用时间越短越好)。

  当你的业务更挑时延,就用时延优先模型,如果更偏向吞吐,就用吞吐优先模型,如果两种都想兼顾,那就用均衡模型。

  总之不管流量多变态,AutoECN总能基于AI技术,动态调参,给出一个最优方案。

  如果你的业务对网络延迟格外敏感,希望更低的延迟和抖动,基于X400交换机构建的AI Fabirc方案还额外准备了一项秘技:RTT-CC。

  RTT-CC不需要像ECN那样对拥塞数据包进行显式标记,而是通过持续监控和评估数据包的往返时间,预测网络拥塞。

  X400 AI Fabirc方案的RTT-CC功能,采用了基于硬件的反馈环路,动态监测拥塞并实时调整发送窗口大小和速率,性能更好,时延表现更优。

  如此,同时具备RTT-CC和AutoECN的拥塞控制技术,可以更好地满足低延迟、高吞吐、零丢包的严苛场景需求。

  在数据中心网络中,涉及到多路径传输的时候,传统RoCE方案通常会用ECMP等技术,来实现多链路负载分担。

  但是吧,ECMP的负载分担,是基于流的(Flow Based,根据每条流哈希值的不同,调度到不同的链路上),粒度太粗犷。

  极端的情况,会因为哈希不均匀或者流的大小悬殊,导致流量都被调度到一条链路上,而其他链路没活可干,整网传输效率打折。

  这样,让每条路都均匀负载分担,提升整网吞吐量,打满每条链路,喂饱每块GPU。

  当然,这种逐包负载均衡,因为每个包走的路况不一样,到达服务器端的时候,数据包先后顺序可能会错乱,如果服务器没点特殊本事,就会吃不消。

  于是,跟X400交换机配套的服务器,也配备了支持保序功能的智能网卡,可以对乱序的数据包,进行重组。

  凭借这三项超能力(AutoECN、RTT-CC、自适应路由),X400交换机成功扛下了智算中心万卡集群乃至十万卡集群的严苛诉求。

  不止如此,X400交换机在软件层面,还采用了大量技术来提升可靠性和可维护性。

  同时,X400交换机遵循S3IP-UNP规范设计,支持开源SONiC和第三方网络OS,对希望构建大规模算力集群的客户,都具备极大的灵活性。

  浪潮信息在2024 IPF大会上,正式发布了这款X400超级AI以太网交换机,专门面向生成式AI场景打造。

  浪潮信息提供了端网协同的X400 AI Fabric解决方案,即插即用,最大支持512K张GPU的超大规模集群。

  与业内传统RoCE组网方案相比,带宽利用率超过95%,时延降低30%,大幅提升大模型训练速度。

  浪潮信息凭什么能造出性能如此拉满的AI交换机?实战效果甚至还超越了一众数通大厂的RoCE产品?

  同时,浪潮信息作为头部互联网客户的核心网络供应商,具备丰富的数据中心与智算中心的组网经验。

  基于对AI基础设施和应用的理解以及持续深入的网络研发实践,浪潮信息发布了这款全新的超级AI以太网交换机X400,成为业界瞩目的顶流产品。

  大模型时代,一切都在重塑,浪潮信息X400,筑起通往大模型的超级高速路!

   傲世皇朝电脑挂机下载

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  没观众、没提词器、不得插嘴,拜登和特朗普今日辩论,外媒评:最年长美总统与重罪犯的对决

  初中试卷出现众多涉华为题目,含华为总部在哪、孟晚舟回国路线,官方回应;钟薛高直播间女主播晕倒;荣耀否认采用华为麒麟芯片丨雷峰早报

  与中坚力量共成长,2024建信信托艺术大奖评委会特别奖获奖艺术家凌海鹏超级AI以太网交换机来了!?

相关推荐
  • 交换机网络嗅探方法 如何欺骗交换机缓存
  • 超级AI以太网交换机来了!
  • 交换机基本知识交换机知识入门
  • A-B罗克韦尔 Stratix 5800 高性能网管型交换机
  • 网卡故障导致广播风暴的诊断及排除心得
  • 紊帜缤簸执纷修警胖草词移累坤(银)
  • 登陆难 交换机故障现象综合说明
  • 设备故障分析报告模板
  • 设备故障分类-233docx-原创力文档
  • 常见管理交换机故障诊断课件ppt(41页)
  • 脚注信息
    友情链接: