首页|傲世皇朝注册|平台
首页|傲世皇朝注册|平台
全站搜索
 
 
新闻详情
 
当前位置
智领全栈模力全开|锐捷网络引领智算中心全栈服务能力建设
作者:管理员    发布于:2024-07-18 14:20    文字:【】【】【
       

  在数据驱动的新时代,AI引领着全球技术革新的浪潮。AI的广泛应用不仅为我们的生活带来了便利,更为各行各业的转型升级提供了新的动力。随着AI技术的飞速发展,对于强大的计算能力和高效的数据处理需求日益迫切,这直接推动了智算中心的建设和发展。

  近日,由益企研究院和CDCC主办,OCTC开放计算委员会协办的“2024中国智算中心全栈技术大会、第5届中国数据中心绿色能源大会”在上海闭幕!锐捷网络股份有限公司解决方案经理刘洋带来了主题为《面向未来AI智算中心全栈技术的思考与探索》的精彩分享,深入分析了智算中心的发展趋势,探讨了构建高效、绿色、可持续发展的算力中心网络的重要性,并分享了锐捷网络在这一领域的创新实践和前瞻性思考。

  AI技术正持续为各行各业赋能,带来深远的产业变革。ChatGPT点燃了 傲世皇朝注册AIGC行业的热潮,Sora将文生图的业态拓展到了文生视频领域,OpenAI发布的GPT4o则从输入层面提供了更多模态,包括文字、语音、图片和视频,以及对人类情绪的把控。目前,AI应用正逐渐下沉至端侧,许多PC已经内置了AI软件和应用,这表明AI正在不断改变我们的工作、学习和生活方式。

  AI业务应用的背后是大语言模型的支撑。随着业态的发展,大语言模型快速迭代,模型参数量和所需的算力集群规模不断提升。例如,从GPT1到GPT4,模型参数量显著增加,GPT4的参数量达到了1.8万亿,需要1.5万张高性能GPU算力卡支持。大模型参数在不断增长,算力需求也在增加,在网络层面需要支持大规模组网,能够应对万卡甚至10万卡以上的集群规模,且具备灵活的扩容能力。

  越来越多的AI应用采用MOE专家并行方式,引入了更多的机间All to all通信,对机间网络提出了更高的挑战,如端到端无损、低延时、少拥塞、零丢包和高带宽利用率。

  随着国家推出双碳政策,智算中心建设面临着高能耗的挑战。GPU卡、服务器和网络的能耗不断提升,新建机房和机柜需要进行相应的改造以适应能耗要求。

  大规模组网:大规模GPU集群组网和分布式并行计算,解决集群规模与GPU效率的平衡,网络需要承载数千上万卡的算力集群建设

  高带宽低延时:LLM引入MOE后,机间网络通信占比提升,低时延及高带宽利用率成为影响训练效率的网络关键指标

  绿色低能耗:贯彻“双碳政策”,建立绿色节能可持续发展的低功耗算力中心,不断优化TCO实现降本增效的业务目标

  锐捷网络提出的AIGC智算中心网络体系,核心在于使用以太网方案统一承载多种业务,包括算力网络、存储网络、管理网络等,统一网络技术栈,降低运维成本。

  大规模方面,通过单芯片数据中心交换机和多平面组网技术,构建了八轨网络通信架构,支持在不改变网络架构的前提下,通过迭代交换机产品来扩展算力集群规模。使用25.6T交换芯片和400G端口的交换机可以实现2K至8K规模的集群,如果是200G的端口,就可以实现4K至16K规模的集群,而升级到51.2T交换芯片后,可以支持更大规模的集群。

  高性能方面,对于机间网络的拥塞问题,锐捷网络引入RDMA技术,结合PFC(优先级流控)和ECN(源速率调节)技术,确保网络层面的可靠传输。锐捷网络的运维平台能够辅助进行RDMA智能调优,根据期望值生成Headroom、PFC、CEN相关水线参数,并在集群运行过程中创建测试任务,通过AI智能分析生成调优建议。

  对于带宽利用率的问题,基于传统ECMP会有HASH不均的问题,AILB技术能够显著提升网络带宽利用率。在不同场景下,AILB技术相比传统ECMP提升了带宽利用率,并减少了拥塞和丢包。

  能耗方面,采用LPO光模块线性直驱技术替代光模块中的DSP组件,有效降低光通信的成本、时延和功耗。少了DSP组件,可以降低92%的时延,减少46%的能耗,成本折算减少约20%的成本。

  锐捷网络积极参与多个生态组织,通过以太网技术路线为整个产业赋能。在国内,参与了GSE全调度以太网制定标准;在海外,加入了UEC超以太网联盟贡献价值。

  许多公司正在建设自己的智算中心,无论是自建自用还是做算力租赁,都需在硬件设施基础上构建服务能力,包括软件增值服务,比如算力调度、运维等功能。

  目前,客户类型主要分为自建自用和算力租赁两种。自建自用的客户,如大模型公司、实验室等,更关注如何优化业务训练和推理效率。而算力租赁客户则关注如何提供确定性的SLA。

  针对不同客户的需求,智算中心需不断简化运维和部署,达到降本增效的结果。锐捷网络提出了面向智算中心全栈服务能力建设,包括算力部署规划服务、基础设施建设与交付服务、以及交付后的运营和运维服务四个阶段。

  算力集群规划服务上,锐捷网络应用了仿真平台,该平台可根据用户输入的多种参数,如GPU卡品牌、算力、交换机类型、网络规模、目标模型、是否引入MOE等,提供定制化的规划服务。

  算力仿真平台能够根据用户输入,展示集群组网拓扑,并评估性能指标,如GPU利用率、计算吞吐和训练时延。平台还能根据不同的并行策略,自动计算出最优的配置,以最大化集群运算效率,降低规划成本。通过算力仿线D并行策略,根据当前的GPU卡和网络条件,自动计算出最优的设置,从而在一定程度上降低整体规划成本,实现降本增效。

  对于未来AI算力基础设施,锐捷网络提出了两个观点。建设跨域算力资源池,随着业务模型参数量的持续增长,单一算力集群扩展至万卡规模面临机房空间、供电和分期建设等限制。未来的解决方案可能涉及建设多个算力中心,并通过跨域互联形成资源池,实现十万卡甚至更大规模的算力中心建设。在算力中心内部基础设施方面,构建超高算力密度的以太网超节点成为趋势。在国内,单卡算力性能受限,难以获得高性能的整机柜GPU服务器。作为应对,需要构建超高算力密度的以太网超节点,提升算力密度弥补单卡性能不足,通过提升Scale-up优化集群运算效率。

  锐捷网络参与ODCC网络项目组,推动ETH-X超节点项目,包括整机柜交换节点设计和量化仿真分析平台,以实现超节点算力平台的概念设计。超节点设计突破了单一服务器的限制,支持更高密度的GPU部署。

  · 弹性部署:单柜、背靠背、集群等,支持不同数量GPU scale-up集群

  · 开放多源:Scale-up基于GPU的标准以太网、智算柜承载多源GPU、支持异构卡混合部署等

  对于智算中心网络建设,提出超节点算力平台集群组网,通过创新的整机柜设计,可以128个机柜通过TH5进行光纤组网,构建在51.2T设备上,最大支持8192GPU卡规模的集群,实现Scale-up与Scale-out的高效互联,确保了数据的高速传输和低延迟通信。

  我们使用量化仿真平台对不同规模集群和不同HBD size下的性能进行理论推算,为硬件配置和系统优化提供了重要的数据支持。

  在训练场景中,扩展HBD size的大小,允许更多GPU卡互联,有效减少了模型单次迭代的耗时。单机柜内GPU卡数量的增加至64卡,提升了训练效率,但同时也观察到边际效益的递减。而在更大规模的集群中,如64K卡,HBD size的扩增带来了更显著的效率提升,单次迭代时间大幅减少。

  在推理场景中,关注TTFT和decode吞吐等性能指标,以评估推理性能。实验数据显示,在64卡和128卡B200 GPU配置下,提升HBD size可以显著降低TTFT并提升单卡吞吐,突显了规模效应对性能的积极影响。随着GPU卡数量的增加,HBD size扩增带来的性能提升在大规模集群中尤为明显。

  最终得出单机柜的64卡配置为性能和成本提供了最佳平衡。在大规模集群中,HBD size的扩展对训练和推理性能的提升效果显著,体现了大规模集群在AI算力基础设施中的关键作用。

  锐捷网络致力于在网络基础之上构建从IaaS到PaaS的全栈服务能力,为客户提供更加全面和定制化的解决方案,与更多行业伙伴建立深度合作关系,共同推动AI和智算中心技术的发展与应用。智领全栈模力全开|锐捷网络引领智算中心全栈服务能力建设?

相关推荐
  • 网络常识 交换机和路由器基础知识大全
  • 智领全栈模力全开|锐捷网络引领智算中心全栈服务能力建设
  • 浪潮网络发布第一款支持“产品可视化管理”的交换机
  • 新华三H3C华为
  • 2024年中国交换机产业链图谱研究分析(附产业链全景图)
  • 新华三h3c工业交换机深圳代理商IE4300-28P
  • 交换机端口链路类型解读
  • 袖珍型2路RS232485数据光猫 光纤收发器 OX-377SM-FCAB系列
  • 信锐RS5300-52T-4F-GW智能安视交换机即插即用(交换机 系统设备)
  • 华为数通试题
  • 脚注信息
    友情链接: