全球首款RISC-V 3D GPU即将亮相[CSIA]
 
 
全球首款RISC-V 3D GPU即将亮相
更新时间:2022/6/17 15:32:09  
【字体: 】        

据报道,超低功耗图形IP领导者ThinkSilicon将在2022年EmbeddedWorld上展示业界首款基于RISC-V的GPU——NEOX™G系列和A系列。该公司还将推出NEMA®|pico-VG,这是用于MCU驱动的SoC的NEMA®|GPU系列的最新产品,它支持丰富的矢量图形,并通过将CPU利用率降低高达95%来提高系统效率。
  
  NEOX™G系列和A系列——智能GPU架构的新时代
  
  NEOX™|G(图形)和A(深度学习加速器)系列IP代表了智能GPU架构的新时代,可编程计算着色器在实时操作系统(RTOS)上运行并由轻量级图形和机器学习框架提供支持。通过使用相同硬件模块的可配置编程库,可以轻松针对图形、机器学习、视觉/视频处理和通用计算工作负载定制大量多线程系统。新产品作为一个GPU平台,将在32位SoC中实现,解决无数应用,包括下一代智能手表、增强现实(AR)眼镜、用于监控和娱乐的视频,以及用于销售点的智能显示器/交互终端。
  
  NEMA®|pico-VG–适用于功率、尺寸和成本受限产品的高性能图形
  
  ThinkSilicon的新型NEMA®|pico-VGGPU是最新添加的高性能和超低功耗图形,适用于电池驱动、功率受限的产品中的显示器。多核、矢量和2.5D光栅图形GPU在0.21平方毫米的微小硅片区域内支持90-500MHz、70fps和800x600分辨率的时钟频率。在单个IP解决方案中结合硬件加速的矢量和光栅图形,使开发人员可以根据所显示的图形内容自由和灵活地选择最佳渲染技术。NEMA®|pico-VG使用智能压缩算法来有效管理宝贵的内存空间,与纯软件解决方案相比,CPU使用率最多可降低95%。RTL硬件模块和软件的结合使NEMA®|pico-VG成为智能手表、健身/GPS追踪器和智能家居设备等功率、尺寸和成本受限产品中理想的高性能图形子系统。NEMA®|pico-VG生产就绪型RTL预计将于2022年第四季度开始向客户发货。
  
  “推出首款基于RISC-V的GPU是图形行业和ThinkSilicon的一个重要里程碑,”ThinkSilicon的IP许可、销售和营销总监UlliMueller说。“我们的超低功耗、高性能图形解决方案旨在激发开发人员为各种产品和市场创造卓越的用户体验,同时显着降低能耗。我们期待在即将到来的嵌入式世界活动中展示我们的最新创新。”
  
  在EmbeddedWorld上,ThinkSilicon还将展出他们的NEMA®|GUI-Builder,这是一种快速且易于学习的工具,使程序员能够通过使用拖放通用控件减少SoC平台(MCU/MPU)上的GUI开发时间和输入元素。NEMA®|GUI-Builder通过利用NEMA®|GPU系列的强大3D功能,自动生成具有较小内存占用的功率和性能优化的C代码。NEMA®|GUI-Builder包括ThinkSilicon的NEMA®|GFX软件API及其高效压缩技术NEMA®|TSC,它也可以与非ThinkSiliconGPU一起使用。
  
  RISC-V能改变GPU吗?
  
  RISC-V能处理GPU的事务吗?这项工作正在进行中,可以通过创建一个具有自定义可编程性和可扩展性的小型区域高效设计来实现这一目标。
  
  任何研究过GPU架构的人都知道这是矢量处理器的SIMD构造。它是一种超高效的并行处理器,已用于从运行模拟和出色的游戏到教导机器人如何获取AI以及帮助聪明的人操纵股票市场的所有事物。它甚至在我写这篇文章的时候检查我的语法。
  
  但GPU领域已经成为一个私有领域,其内部工作是由AMD、Intel、Nvidia等开发者的IP和秘密武器所完成的。如果有一套新的图形指令设计为3D图形和媒体处理呢?嗯,可能有。
  
  新的指令正在RISC-V基本向量指令集上构建。他们将根据核心RISC-VISA的精神,添加对特定于图形的新数据类型的支持,作为分层扩展。支持向量,先验数学,像素和纹理以及Z/Frame缓冲区操作。它可以是融合的CPU-GPUISA。lilibrary-RISC3D组称它为RV64X(图1),因为指令将是64位长(32位将不足以支持一个健壮的ISA)。
  
  1.RV64X图形处理器除了专用的纹理单元和功能块外,还包括多个DSP。
  
  该组织表示,他们的动机和目标是希望创造一个小型、高效的设计,具有自定义的可编程性和可扩展性。它应该提供低成本的IP所有权和开发,而不是与商业产品竞争。它可以在FPGA和ASIC目标上实现,并且是免费和开源的。最初的设计目标是低功耗微控制器,将兼容KhronosVulkan,并支持其他api(OpenGL,DirectX等)。
  
  GPU+RISC-V
  
  目标硬件将有一个GPU功能单元和一个RISC-V核心。该组合以64位指令编码为标量指令的处理器的形式出现。关键在于编译器将从带前缀的标量操作码生成SIMD指令。其他功能包括可变问题、基于谓词的SIMD后端;分支跟踪;精确的异常;和矢量前端。设计将包括一个16位定点版本和一个32位浮点版本。前者适用于FPGA实现。
  
  该团队说:“不需要使用RPC/IPC调用机制来将3DAPI调用发送到未使用的CPU内存空间或从未使用的CPU内存空间发送到GPU内存空间,反之亦然,”
  
  “融合”CPU-GPUISA方法的优势在于可以在微代码中使用标准图形管道,并且可以支持自定义着色器。甚至可以包括光线追踪扩展。
  
  该设计将采用Vblock格式(来自LibreGPU的努力):
  
  这有点像VLIW(但不是真的)。
  
  指令块之前带有寄存器标记,这些标记为该块内的标量指令提供了额外的上下文。
  
  子块包括向量长度,旋转,向量/宽度覆盖和预测。
  
  所有这些都添加到标量操作码中!
  
  没有矢量操作码(也不需要任何操作码)。
  
  在矢量上下文中,它是这样的:如果标量操作码使用寄存器,并且该寄存器在矢量上下文中列出,则将激活矢量模式。
  
  激活会导致硬件级别的for循环发出多个连续的标量运算(而不只是一个)。
  
  实现者可以自由地以他们想要的任何方式来实现循环-SIMD,多问题,单执行;几乎任何东西。
  
  RV32-V向量处理2到4个元素的8位,16位或32位/元素的向量操作。对于用于64位和128位固定和浮点XYZW点的常规3D图形渲染管线,还将有专门的指令。8、16、24和32位RGBA像素;8位,每个组件16位UVW纹素;以及灯光和材质设置(Ia,ka,Id,kd,Is,ks等)。
  
  属性向量表示为4×4矩阵。该系统将本地支持2×2和3×3矩阵。向量支持也可能适用于使用AI和机器学习应用程序中常见的8位整数数据类型的数值模拟。
  
  设计中可以包含自定义光栅化器,例如样条线,SubDiv曲面和面片。该方法还允许包含自定义管线阶段,自定义几何/像素/帧缓冲阶段,自定义细分器和自定义实例化操作。
  
  RV64X
  
  RV64X参考实现包括:
  
  指令/数据SRAM缓存(32kB)
  
  微码SRAM(8kB)
  
  双功能指令解码器(实现RV32V和X的硬连线;用于自定义ISA的微编码指令解码器)
  
  四向量ALU(32位/ALU-固定/浮动)
  
  136位寄存器文件(1k个元素)
  
  特殊功能单元
  
  纹理单位
  
  可配置的本地帧缓冲区
  
  RV64X是可扩展的架构(图2)。它的融合方法是新的,对于自定义数据类型使用可配置寄存器也是如此。用户定义的基于SRAM的微代码可用于实现扩展,例如自定义光栅化器阶段,光线跟踪,机器视觉和机器学习。单一设计可以应用于独立的图形微控制器或具有可扩展着色器单元的多核解决方案。
  
  2.RV64X可以从简单的低端设计(左)扩展到多核解决方案(右)。
  
  RISC-V的图形扩展可以解决可伸缩性和多语言问题。这可以实现更高级别的用例,从而带来更多的创新。
  
  下一步是什么
  
  RV64X规范仍在早期开发中,可能会发生变化。正在建立一个讨论论坛。近期目标是使用指令集模拟器构建示例实现。这将在使用开放源代码IP和设计为开放源代码项目的自定义IP的FPGA实现上运行。
 
来源:半导体行业观察        
 
  • 上一篇: 第一个可量产的柔性处理器
  • 下一篇: 瑞萨成功开发22nm MRAM,替换MCU中的闪存?
  •   打印此文  收藏此页  关闭窗口  返回顶部      
     
    热点文章>>


       
    相关文章>>