在AI营运商使用各种平行处理策略(如模型分区)加速AI模型训练的过程中,KAI资料中心建构工具能够进一步优化AI丛集的设计。此过程中的关键挑战,包括GPU之间的资料移动效率,通常需要通过实验来进行解答。这些挑战涉及GPU互连的扩展设计、扩展网路的频宽与拓扑结构、网路负载平衡以及训练框架参数的调整等问题。
KAI资料中心建构工具的工作负载模拟解决方案能够重现真实AI训练中的网路通讯模式,从而加速实验流程、缩短学习曲线,并深入揭示效能下降的潜在原因。这些原因往往是在真实训练过程中难以察觉的,进而帮助用户识别并解决问题。用户可以接触到包括GPT和Llama在内的大型语言模型工作负载库,并选择不同的模型分区架构,如资料平行(DP)、全分片资料平行(FSDP)以及三维平行处理。
利用KAI资料中心建构工具中的工作负载模拟应用程式,AI营运商可以实验不同的平行处理参数,调整分区大小及其在AI基础设施中的分布,进一步瞭解分区内外的通讯对作业完成时间的影响。该工具还能帮助识别效能不佳的集体运算,分析网路利用率、尾部延迟和壅塞情况,进而优化整体作业完成时间。
KAI资料中心建构工具的新增功能,使AI营运商、GPU云端供应商以及基础设施供应商能够在实验室设置中导入真实的AI工作负载,验证不断演进的AI丛集及新元件设计。这样一来,使用者能够进行更多的实验与调整,最佳化模型分区架构、参数及演算法,进一步提升AI工作负载的效能。
是德科技网路测试与安全解决方案事业部副总裁兼总经理Ram Periakaruppan表示,随着AI基础设施的规模和复杂性不断增长,对于全面验证与最佳化的需求变得至关重要。为了避免高昂的延迟与返工成本,这些验证必须提前至设计和制造周期的早期阶段进行。KAI资料中心建构工具的工作负载模拟功能,将为AI元件和系统设计注入前所未有的真实性,帮助最佳化工作负载,从而达成最高效能。
KAI资料中心建构工具是是德科技KAI架构的一部分,该架构为一套端到端的解决方案,旨在帮助客户通过模拟真实世界的AI工作负载来验证AI丛集元件,并进一步扩展资料中心的AI处理能力。
发表意见
中时新闻网对留言系统使用者发布的文字、图片或檔案保有片面修改或移除的权利。当使用者使用本网站留言服务时,表示已详细阅读并完全了解,且同意配合下述规定:
违反上述规定者,中时新闻网有权删除留言,或者直接封锁帐号!请使用者在发言前,务必先阅读留言板规则,谢谢配合。