制造世界上最大的芯片--晶圆级引擎2(WSE-2)的公司Cerebras今天公布了其仙女座超级计算机。仙女座将16个晶圆大小的WSE-2芯片组合成一个集群,拥有1350万个人工智能优化的内核,该公司称可提供高达1 Exaflop的人工智能计算马力,或120 Petaflops的16位半精度。
这些芯片被安置在16个CS-2系统中。每个芯片为人工智能核心提供高达12.1 TB/s的内部带宽(96.8 Terabits),但数据是通过分布在16个机架上的124个服务器节点的100 GbE网络输送给CS-2处理器的。这些服务器总共由284个第三代EPYC米兰处理器提供动力,每个处理器有64个核心,总共有18176个核心。
全套系统功耗500千瓦,这比某种程度上可比的使用GPU加速的超级计算机的功率要低得多。然而,在这种大规模并行的超级计算机上扩展工作负载长期以来一直是主要的抑制因素之一--在某一点上,扩展往往会被打破,因此增加更多的硬件会导致回报点迅速减少。
Cerebras表示,它的实现与GPT级大型语言模型匹配,如GPT-3、GPT-J和GPT-NeoX,且几乎是线性扩展。Andromeda还可以处理25亿和250亿个参数的模型,由于内存的限制,标准的GPU集群根本无法处理。
Cerebras WSE-2是世界上最大的单芯片处理器,每颗7纳米的芯片都是专门为解决人工智能工作负载而设计的,85万个人工智能专用内核分布在46225平方毫米的硅片上,装着2.6万亿个晶体管。该芯片有40GB的片上SRAM内存,20PB的内存带宽,以及220PB的聚合结构带宽。每个WSE-2消耗15千瓦的电力。
在大多数大型系统中,工作负载的扩展会导致回报的减少,这通常是由于代码、内存、结构和/或网络的限制。然而,Cerebras已经表明,其CS-2系统通过数据并行化,在不改变底层代码的情况下几乎可以实现线性扩展,该公司的仙女座超级计算机在完全启动后的10分钟内就开始压缩工作负载。
16台CS-2使用该公司的MemoryX和Swarm-X互连来简化和协调跨系统的模型分割。这种方法将模型参数存储在MemoryX机柜中的片外,同时将模型保留在片上,允许单个系统计算比以前更大的人工智能模型,并解决通常限制处理器组扩展性的典型延迟和内存带宽问题,这使得该系统可以在多达192个CS-2系统上近乎线性地扩展。
Andromeda部署在加州圣克拉拉的Colovore数据中心。该公司已经向客户和学术研究人员开放了算力,包括阿贡国家实验室,该实验室称它已经将整个COVID-19基因组放入一个序列窗口,并以"近乎完美的线性扩展"在多达16个节点上运行该工作负载。该项目现在是著名的ACM戈登贝尔特别奖的入围者,其他用户包括JaperAI和剑桥大学。