最近,华为发布了Ascend 910 AI处理器和相应的Mind Spore AI框架,成为华为在人工智能领域又一次重要的发布。Ascend 910性能分析这次Ascend 910的主要目标是在云端应用,以训练为主。常规的AI芯片主打推理,而相对而言针对训练的AI芯片技术门槛更高。首先,训练AI芯片的算力需求和芯片规模常常要远大于推理芯片,因为在训练中需要处理的数据量会远大于推理,而规模更大的芯片则在工程上提出了更高的挑战,在内存访问、散热等方面都需要仔细设计。例如,目前主流的训练芯片都会使用HBM等基于3D/2.5D封装的内存接口以实现超高速内存访问,而这就大大提高了设计门槛。其次,AI训练芯片对于规模化(scalability)的要求非常高。在AI训练应用中,分布式训练是一个必选项,例如训练模型时常常会使用分布在8台服务器上的64块训练加速芯片。如何在硬件上支持多卡多机训练,保证训练性能随着使用加速芯片数量接近线性增长也是一项非常具有挑战的工作,这需要加速芯片能支持高速数据接口,这也是Nvidia提出NVLink(用于单机多卡)以及收购Mellanox(用于多机)的原因。在性能方面,我们看到Ascend能实现256 TFLOPS的FP-16算力,或512 TOPS的INT8算力,而功耗是310W。目前,训练主要使用FP-16实现,而512 TOPS的INT-8算力目前预计主要针...
发布时间 :
2019
-
09
-
06