GPU性能提升1000倍背后英伟达掀翻行业的另一把「镰刀」

 

  前几日,英伟达市值冲破3万亿美元,将苹果公司甩在身后的故事还没来得及回味。英伟达市值登顶全球*的新闻再次登上各大热搜(发稿前,英伟达市值已出现较大回落)。

  过去,我们看到了很多有关英伟达GPU和CUDA护城河的介绍。诚然,经过多年的投入,他们已经建立起了难以逾越的优势。但除此以外,英伟达还有很多隐形护城河,其中,互联技术也是其在AI浪潮中取得成功过程中不可忽视的一大关键。

  日前,黄仁勋在Computex的主题演讲中,再次透露了未来几年GPU和互连技术的路线图;而另一边,八大芯片巨头抱团取暖,成立UALink推广组意在制定行业标准,以打破市场*英伟达的壁垒和垄断。

  如今大模型时代来临,随着越来越多的加速器被集成到一起,性能损耗和带宽瓶颈逐渐显现,如何高效传输数据成为了AI芯片互联领域亟待攻克的瓶颈。

  长期以来,冯·诺依曼架构面临的一个核心挑战是CPU的计算速度与内存访问速度之间的不匹配,尤其是与存储设备的速度相比更是天壤之别。这就是业界著名的“内存墙”,其不均衡的发展速度对日益增长的高性能计算形成了极大制约,成为训练大规模AI模型的瓶颈。

  与此同时,随着高性能存储技术的进步,计算机组件间通信的带宽再次成为限制性能提升的关键因素。从“Pascal”P100 GPU一代到“Blackwell”B100 GPU一代,八年间GPU的性能提升了1053倍。

  在此趋势下,GPU作为AI时代的核心处理器,单卡GPU算力和显存有限,无法满足训练需求。为适应算力需求,需要联合大量GPU甚至多台服务器协同工作,分布式训练诉求快速提升。

  在分布式系统中,大模型训练对算力基础设施的要求从单卡拓展到了集群层面,这对大规模卡间互联的兼容性、传输效率、时延等指标提出了更高的要求。

  龙8游戏唯一官方网站

  众所周知,总线是数据通信必备管道,是服务器主板上不同硬件互相进行数据通信的管道,对数据传输速度起到决定性作用。

  目前最普及的总线年提出的PCIe(PCI-Express)协议,PCIe主要用于连接CPU与其他高速设备如GPU、SSD、网卡、显卡等。2003年PCIe1.0版本发布,后续大致每过三年会更新一代,目前已经更新到6.0版本,传输速率高达64GT/s,16通道的带宽达到256GB/s,性能和可扩展性不断提高。

  NVLink是全球首创的高速GPU互连技术。作为一种总线及其通信协议,NVLink采用点对点结构、串列传输,用于连接GPU与支持NVLink技术的CPU,在内存墙无法突破的情况下,*化提升CPU和GPU之间通信的效率,也可用于多个英伟达GPU之间的高带宽互连。使用NVLink连接两张NVIDIA GPU,即可弹性调整记忆体与效能,满足专业视觉运算最高工作负载的需求。

  2014年,NVLink 1.0发布并在P100 GPU芯片之间实现,两个GPU之间有四个NVLink,每个链路由八个通道组成,每个通道的速度为20Gb/s,系统整体双向带宽为160GB/s,是PCIe3 x16的五倍,这使得数据在CPU内存与GPU显存之间的移动速度得到了大幅提升,从而让GPU加速的应用能够大幅提升运行速度。

  2017年,英伟达推出了第二代NVLink,两个V100 GPU芯片之间通过六个NVLink 2.0连接,每个链路也是由八个通道组成,每个通道的速度提升至25Gb/s,从而实现300GB/s的双向系统带宽,几乎是NVLink1.0的两倍。

  NVSwitch是英伟达在2018年发布的一项技术,旨在解决单服务器中多个GPU之间的全连接问题。NVSwitch允许单个服务器节点中多达16个GPU实现全互联,这意味着每个GPU都可以与其他GPU直接通信,无需通过CPU或其他中介。

  2020年,推出NVLink 3.0技术。它通过12个NVLink连接连接两个GPU A100芯片,每个链路由四个通道组成。每个通道以50Gb/s的速度运行,从而产生600GB/s的双向系统带宽,是NVLink2.0的两倍。随着NVLink数量的增加,NVSwitch上的端口数量也增加到36个,每个端口的运行速度为50GB/s。

  2022年,NVLink技术升级到第四代,允许两个GPU H100芯片通过18条NVLink链路互连。每个链路由2个通道组成,每个通道支持100Gb/s(PAM4)的速度,从而使双向总带宽增加到900GB/s。NVSwitch也升级到了第三代,每个NVSwitch支持64个端口,每个端口的运行速度为 50GB/s。

  尽管拥有极高的带宽,NVLink却在每比特数据的传输上比PCIe节能得多。

  高效率:Infinity Fabric设计用于提供高效率的数据传输,支持多个设备之间的高速通信;

  模块化:Infinity Fabric支持AMD的Chiplet架构,允许不同功能的芯片模块通过高速互连进行组合;

  内存共享:Infinity Fabric支持CPU和GPU之间的内存共享,有助于提高异构计算效率;

  扩展性:Infinity Fabric的设计允许它随着技术进步和需求增长而扩展。

  不同于英伟达NVLink仅限于内部使用,AMD已经开始向合作伙伴开放其Infinity Fabric生态系统,完善生态布局。

  UALink提议的*个标准版本UALink 1.0,将连接多达1024个GPU AI加速器,组成一个计算“集群”,共同完成大规模计算任务。

  据悉,UALink将在第三季度成立一个UALink联盟,定义AI计算舱中加速器和交换机之间扩展通信的高速、低延迟互连,以监督UALink规范未来的发展。UALink 1.0将在同期向加入联盟的公司提供,而具有更高带宽的更新规范UALink 1.1,计划在2024年第四季度推出。这些规范将支持多种传输,包括PCI-Express和以太网。

  目前RDMA有三种不同的技术实现方式:Infiniband、RoCE、iWARP,后两者是基于以太网的技术。

  约90%的AI部署都是使用的InfiniBand,而不是以太网。这些部署将英伟达的网络收入推至每年100亿美元。

  超以太网联盟(UCE),是一个由英特尔、AMD、HPE、Arista、Broadcom、思科、Meta和微软为打破英伟达垄断而共同创建的组织。UCE认为,通过调整以太网的架构,可以让以下一代高速太网的性能像InfiniBand网络一样好,并更具成本与开放性优势,从而让更多的企业加入进来。

  虽然InfiniBand在很多情况下表现都不错,但它也有缺点,比如只能在特定范围内使用(例如InfiniBand适合那些运行少量非常大的工作负载(例如GPT3或数字孪生)的用户,但在更加动态的超大规模和云环境中,以太网通常是*),而且成本也不低,将整个网络升级到InfiniBand需要大量投资。相比之下,以太网因为兼容性强,成本适中,以及能够胜任大多数工作负载,所以在网络技术领域里一直很受欢迎,建立了一个庞大的“以太网生态”。

  AMD也表示将重点支持以太网,特别是超以太网联盟。虽然Infinity Fabric提供了GPU之间的一致互连,但AMD正在推广以太网作为其*的GPU到GPU网络。

  光互联凭借高带宽、低功耗等优势,几乎成为未来AI互联技术公认的发展方向。

  尤其是围绕光电共封装和硅光子中继层技术的光互连,正在成为AI领域的热门赛道。

搜索