得益于台积电 3D 晶圆键合(wafer-on-wafer)技术,总部位于英国的 Graphcore 能够在不大刀阔斧改变自家专用 AI 处理器内核的情况下,显著提升其计算性能。Graphcore 高管称,名为 Bow 的新型组合芯片,将被率先投放于伦敦的某个地区。

在电压低于前身的情况下,Bow 还可运行得更快速(1.85 vs 1.35 GHz),意味着计算机迅雷神经网络的速度提升了 40%、同时能耗降低了 16% 。更棒的是,用户无需修改软件,即可获得这些益处。
Graphcore 首席技术官兼联合创始人 Simon Knowles 表示:“我们正在进入一个先进封装的时代,通过将多个硅芯片组装在一起,我们得以在其它方面弥补性能增长不断放缓的摩尔定律”。
作为比较,英特尔 Foveros 方案选择了将切割后的芯片连接到其它芯片或晶圆上。而台积电的 SoIC WoW 技术,则是将两个完整的芯片晶圆键合到了一起。
每个芯片上的铜焊盘在晶圆对齐时匹配,再将两个晶片叠压到一起时让焊盘熔断。我们可将至视作某种冷焊,接着将顶部晶圆削薄到仅数微米,最后将键合晶圆切割成芯片。

在 Graphcore 的案例中,其在一块晶圆上填满了该公司的第二代 AI 处理器,拥有 1472 个智能处理单元(IPU)和 900MB 片上缓存。
这些处理器已在商业系统中得到应用,并在最近一次 MLPerf 基准测试中交出了相当不错的答卷。
至于另一个晶片,其拥有一套相应的供电芯片(不包含晶体管或其它有源器件),配备了电容并通过硅通孔(TSV)来垂直连接。
值得一提的是,电容器组件形成在硅片上深且窄的沟槽中(类似 DRAM)。通过将这些电荷储存组件放置在靠近晶体管的位置,以实现更平滑的功率传输,从而使 IPU 内核在较低电压下运行得更快。

若缺乏这一方案,Graphcore 就必须将 IPU 工作电压提升到更高,才能维持 1.85 GHz 的工作频率。此外借助电源芯片,也可助力其达成该时钟频率、并减少能源开销。
Graphcore 高管补充道,Wafer-on-Wafer 技术使得芯片之间的链接密度可高于将单个芯片连接到晶圆上,但也面临一批晶圆中难免有少数存在缺陷的问题。
通过键合两片晶圆,会使得成品芯片的缺陷率翻番。为了缓解这种情况的发生,Graphcore 选择了一套机智的应对方法 —— 与其它 AI 处理器一样,IPU 由许多重复、冗余的处理器内核和其它部分组成。
公司联合创始人兼首席执行官 Nigel Toon 指出,任何缺陷都可通过内置的保险电路,让它们与 IPU 的其余部分隔离开来。

有趣的是,尽管 BOW 尚未在供电芯片上堆砌晶体管,但 Simon Knowles 暗示道 —— 当前工作只能算是迈出了第一部,该公司将在不久的将来“走得更远”。
此外该公司披露了一些计划,比如将打造可训练“人脑规模”人工智能的超级计算机 —— 在神经网络中具有数百亿的参数数量级。
而以英国数学家 I.J.“Jack”Good 命名的“Good 计算机”—— 由 512 个系统 / 8192 个 IPU)、大容量存储、CPU 和网格组成 —— 将能够处理超过 10 ExaFlops(千亿亿次)的浮点运算。
在 4PB 内存和每秒超 10PB 带宽的加持下,Graphcore 预计每台超算造价在 1.2 亿美元左右,且有望于 2024 年交付使用。