Tachyum宣布推出全球第一个通用处理器:128核,5.7Ghz[CSIA]
 
 
Tachyum宣布推出全球第一个通用处理器:128核,5.7Ghz
更新时间:2022/5/13 13:30:38  
【字体: 】        

据报道,初创公司Tachyum创造了世界上最强大的处理器之一:ProdigyT16128通用处理器。
  
  ProdigyT16128拥有128个64位CPU内核,运行频率高达5.7GHz,16个DDR5内存控制器和64个PCIe5.0通道,可以处理通用计算、高性能计算(HPC)和AI工作负载,这全部在单个芯片上实现。
  
  Tachyum将Prodigy称为世界上第一个“通用处理器”,并表示它从一开始就被设计为能够运行众多世界上最密集的计算应用程序的多用途CPU。Prodigy不仅在单个芯片上处理所有这些不同的任务,而且它的功耗预算比传统硬件低10倍,成本只有三分之一。
  
  Tachyum大胆宣称Prodigy超级计算机芯片的性能是市场上英特尔最快的Xeon芯片的四倍,在高性能计算应用中的原始性能是Nvidia的H100的三倍。同时,能效提高10倍。
  
  Tachyum表示,为了在单核架构中创造如此令人印象深刻的性能,它从头开始构建了具有矩阵和矢量处理能力的Prodigy,而不是事后才考虑它们。Prodigy支持一系列数据类型,包括FP64、FP32、TF32、BF16、Int8、FP8和TAI,所有这些都来自各个CPU内核本身。
  
  Prodigy处理器在2023年问世时可能会改变游戏规则。AMD、英特尔和Nvidia的最新服务器硬件都依赖于单个硬件——即使在单个CPU或GPU中——来执行这些不同的工作负载。这方面的一个例子是Nvidia的RTX系列GPU,它需要专用的机器学习Tensor核心才能让AI工作,而专用的RT核心则需要用于光线追踪应用程序。
  
  另一方面,Prodigy将能够在单个内核上运行光线追踪和AI应用程序,并且不需要将数据转移到微处理器内部的另一个芯片上。
  
  在单个芯片内运行所有这些不同的HPC工作负载可能会极大地改变服务器格局:公司将能够将更多芯片打包到服务器场中,同时降低功耗和冷却。
  
  ProdigyT16128采用未知来源的5nm工艺技术运行,并在非常小的(就其提供的功率而言)64mmx84mmFCLGA封装内运行。
  
  Tachyum表示,在HPC工作负载方面,该芯片能够执行12AIPetaFLOPS和90TeraFLOPS。Prodigy芯片还可以运行适用于x86、ARM、RISC-V和ISA的二进制文件。从某种角度来看,单个NvidiaA100只能实现5AIPetaFLOPS。
  
  每个内核特别能够执行2个1024位向量单元、4096位矩阵运算和每个时钟4个乱序指令。还支持虚拟化和高级RAS。该芯片还包括超过128MB的具有纠错功能的L2+L3高速缓存。为了满足其所有内核的需求,该芯片配备了16个DDR5内存控制器,额定速度高达7200MT/s,每个插槽的最大容量为8TB。
  
  T16128是TachyumProdigy系列中的旗舰型号,产品堆栈中的中端和入门级插槽分别由64核T864和32核T832填充。生产将于2023年开始,因此我们应该会在明年某个时候看到这些芯片的实际基准。
  
  附:Prodigy通用处理器更多介绍
  
  Tachyum今天推出了世界上第一个通用处理器Prodigy,它将CPU、GPU和TPU的功能统一在一个处理器中,创建了一个同构架构,同时以多次成本提供了巨大的性能改进低于竞争产品。
  
  在公司承担了征服纳米级芯片及其驱动系统的处理器性能平台的使命之后,Tachyum成功推出了其第一款商业产品。ProdigyCloud/AI/HPC超级计算机处理器芯片的性能是最快的Xeon的4倍,在HPC上的原始性能是NVIDIA的H100的3倍,在AI训练和推理工作负载上的原始性能是6倍,同时性能高达10倍力量。Prodigy已准备好克服数据中心功耗增加、服务器利用率低和性能扩展停滞等挑战。
  
  新推出的Prodigy处理器的亮点包括:
  
  128个高性能统一64位内核,运行频率高达5.7GHz
  
  16个DDR5内存控制器
  
  64个PCIe5.0通道
  
  多处理器支持4-socket和2-socket平台
  
  适用于风冷和液冷数据中心的机架解决方案
  
  SPECrate2017整数性能大约是英特尔8380的4倍和AMD7763HPC的大约3倍
  
  双精度浮点性能是NVIDIAH100的3倍
  
  AIFP8性能是NVIDIAH100的6倍
  
  与其他CPU和GPU解决方案不同,Tachyum的Prodigy旨在从头开始处理矩阵和矢量处理,而不是事后才考虑。Prodigy的向量和矩阵特性包括对一系列数据类型(FP64、FP32、TF32、BF16、Int8、FP8和TAI)的支持;每个内核2×1024位向量单元;AI稀疏和超稀疏支持;并且在跨越缓存行时不会对未对齐的向量加载或存储进行惩罚。这种内置支持为AI训练和推理工作负载提供高性能,提高性能并降低内存利用率。
  
  Prodigy明显优于目前超大规模、HPC和AI市场中性能最好的处理器。
  
  Prodigy为云工作负载提供最高性能的x86处理器的3倍,与用于HPC的最高性能GPU相比最高3倍,为AI应用程序提供最高6倍的性能。
  
  通过在使用更少电力的同时提高性能,Prodigy通过提供无与伦比的碳足迹减少解决了可持续数据中心增长的问题。随着人工智能的普遍性继续受到关注,这一点尤其重要:Prodigy将在这个新世界市场中实现前所未有的数据中心TCO节省。
  
  “长期以来,我们一直相信我们有能力克服摩尔定律,将超大规模数据中心转变为真正的通用计算中心。随着Prodigy的推出,我们开始了这场革命,”Tachyum创始人兼首席执行官RadoslavDanilak博士说。“Prodigy能够实现人脑级人工智能,同时降低数据中心功耗并降低超大规模数据中心和超级计算机系统的TCO,对于预计价值1000亿美元的行业来说是一个突破。通过推出Prodigy,我们不仅在推动技术进步,也在让世界变得更加绿色。”
  
  Prodigy的样品将于今年晚些时候开始,并于2023年上半年开始量产。Tachyum的Prodigy系列包括八种产品,从高端的128核HPC/AI到32核的最低功耗版本,以应对广泛的市场,包括云计算、超级计算、大人工智能和边缘计算。
 
来源:半导体行业观察        
 
  • 上一篇: 英特尔发布IPU发展规划,初代产品与谷歌合作开发
  • 下一篇: 美光宣告232层3D-NAND即将到来,未来十年的路线图将超过400层
  •   打印此文  收藏此页  关闭窗口  返回顶部      
     
    热点文章>>


       
    相关文章>>