环球门户网

英特尔代表取笑用于未来AI和HPC应用的新PonteVecchio计算GPU

更新时间:2024-11-03 12:06:51

导读 在HotChips34期间,英特尔再次详细介绍了其在SapphireRapidsHBM服务器平台上运行的PonteVecchioGPU。在英特尔院士兼首席GPU计算架构师HongJ...

在HotChips34期间,英特尔再次详细介绍了其在SapphireRapidsHBM服务器平台上运行的PonteVecchioGPU。在英特尔院士兼首席GPU计算架构师HongJiang的演讲中,我们从蓝队获得了有关即将到来的服务器强国的更多详细信息。PonteVecchioGPU具有三种配置,从单一OAM到配备XeLinks的x4子系统,可以单独运行,也可以使用双插槽SapphireRapids平台。

OAM支持4GPU和8GPU平台的all-to-all拓扑。补充整个平台的是英特尔的oneAPI软件堆栈,它是一个零级API,提供低级硬件接口以支持跨架构编程。oneAPI的一些主要功能包括:

oneAPI和其他工具与加速器设备的接口

精细的增益控制和低延迟加速器功能

多线程设计

对于GPU,作为驱动程序的一部分提供

因此,在性能指标方面,2-StackPonteVecchioGPU配置(如单一OAM上的配置)能够提供高达52TFLOP的FP64/FP32计算、419TFLOP的TF32(XMXFloat32)、839TFLOPBF16/FP16和1678TFLOPs的INT8马力。

英特尔还详细说明了其最大缓存大小和每个缓存提供的峰值带宽。PonteVecchioGPU上的寄存器文件大小为64MB,提供419TB/s的带宽,L1缓存也为64MB,提供105TB/s(4:1),L2缓存为408MB并提供13TB/s带宽(8:1),而HBM内存池高达128GB并提供4.2TB/s带宽(4:1)。PonteVecchio中有一系列计算效率技术,例如:

英特尔解释说,更大的二级缓存可以为2D-FFT案例和DNN案例等工作负载带来巨大的收益。显示了完整PonteVecchioGPU与配置为80MB和32MB的模块之间的一些性能比较。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。