作为特斯拉自行定制的超算平台,Doji 旨在为该公司的人工智能(AI)/ 机器学习(ML)应用提供支撑。尤其是利用其自动驾驶车队采集的视频数据,以展开相关训练。 此前这家电动汽车巨头已经拥有一台基于 NVIDIA GPU 的大型超算,但 Dojo 已用上特斯拉的自研芯片和全套基础设施。
Electrek预计,这台定制超算可提升特斯拉使用视频数据训练神经网络的能力,相关计算机视觉技术可为其自动驾驶工作提供至关重要的支撑。
事实上,早在去年的 AI Day 活动期间,特斯拉就已表示在抓紧打造 Dojo 超算。在每套芯片+训练块的基础上,该公司还致力于构建一套完整的 Dojo 机柜(或 Exapod 集群)。
时隔一年,特斯拉在周五的 AI Day 活动期间,公布了 Dojo 项目取得的最新进展。
该公司证实,其现已能够通过一个 Dojo 块(tile)取代六张 GPU、且更具成本优势。
更确切地说,该公司已成功地从一套“芯片+训练块”、发展到了现在的“系统托盘”/ 完整机柜。
每个托盘包含了六个这样的计算块,且性能相当于 3~4 个满载的超算机架。
目前该公司正在将主机接口集成到系统托盘上,以构建一套完整的大型主机组件,以将这些系统托盘安装到一个 Dojo 机柜中。
不过在将几个机柜组合成 Dojo Exapod 所需的基础设施之前,该公司仍需对其展开更多研发测试。
Dojo 首席系统工程师 Bill Chang 补充道 —— 为应对前所未有的散热和功率密度,他们必须重新审视数据中心基础设施的各个方面,以开发定制的高性能散热与电力系统。
尴尬的是,今年早些时候的基础设施测试,还对当地电网的变电造成了巨大的冲击。最终在导致电网跳闸并被政府致电“问候”之前,他们已将功耗推升到超过 2 兆瓦。
最后,特斯拉分享了 Dojo Exapod 的关键规格数据 —— 1.1 EFLOP @ BF16 / CPP8 性能、1.3 TB SRAM、以及 13 TB 的高带宽 DRAM 。
如果一切顺利,该公司计划在 2023 年 1 季度拥有首个完整的 Exapod 集群(目前计划在帕罗奥托拥有 7 个),同时试图借助该活动招募到更多人才。