在AI营运商使用各种平行处理策略(如模型分区)加速AI模型训练的过程中,KAI资料中心建构工具能够进一步优化AI丛集的设计。此过程中的关键挑战,包括GPU之间的资料移动效率,通常需要通过实验来进行解答。这些挑战涉及GPU互连的扩展设计、扩展网路的频宽与拓扑结构、网路负载平衡以及训练框架参数的调整等问题。

KAI资料中心建构工具的工作负载模拟解决方案能够重现真实AI训练中的网路通讯模式,从而加速实验流程、缩短学习曲线,并深入揭示效能下降的潜在原因。这些原因往往是在真实训练过程中难以察觉的,进而帮助用户识别并解决问题。用户可以接触到包括GPT和Llama在内的大型语言模型工作负载库,并选择不同的模型分区架构,如资料平行(DP)、全分片资料平行(FSDP)以及三维平行处理。

利用KAI资料中心建构工具中的工作负载模拟应用程式,AI营运商可以实验不同的平行处理参数,调整分区大小及其在AI基础设施中的分布,进一步瞭解分区内外的通讯对作业完成时间的影响。该工具还能帮助识别效能不佳的集体运算,分析网路利用率、尾部延迟和壅塞情况,进而优化整体作业完成时间。

KAI资料中心建构工具的新增功能,使AI营运商、GPU云端供应商以及基础设施供应商能够在实验室设置中导入真实的AI工作负载,验证不断演进的AI丛集及新元件设计。这样一来,使用者能够进行更多的实验与调整,最佳化模型分区架构、参数及演算法,进一步提升AI工作负载的效能。

是德科技网路测试与安全解决方案事业部副总裁兼总经理Ram Periakaruppan表示,随着AI基础设施的规模和复杂性不断增长,对于全面验证与最佳化的需求变得至关重要。为了避免高昂的延迟与返工成本,这些验证必须提前至设计和制造周期的早期阶段进行。KAI资料中心建构工具的工作负载模拟功能,将为AI元件和系统设计注入前所未有的真实性,帮助最佳化工作负载,从而达成最高效能。

KAI资料中心建构工具是是德科技KAI架构的一部分,该架构为一套端到端的解决方案,旨在帮助客户通过模拟真实世界的AI工作负载来验证AI丛集元件,并进一步扩展资料中心的AI处理能力。

#AI #工作负载 #资料中心 #建构 #KAI