SK 海力士探索 H3 混合存储:发挥 HBM 与 HBF 各自优势,优化 AI 推理负载能效

SK海力士提出H3混合存储架构,结合HBM高带宽内存与HBF高带宽闪存,优化AI推理负载能效。H3架构将HBF作为HBM的二级扩展,存储只读数据,提升处理海量只读数据LLM推理的效率。测试显示,配备H3的GPU单位功耗吞吐量提高2.69倍。

2 月 12 日消息,SK 海力士在一篇发布于本月 4 日的论文中提出了 H3 混合存储架构,其混合配置 HBM 高带宽内存与 HBF 高带宽闪存,充分发挥两种介质各自的优势而避免其短板。

SK 海力士在论文中表示,HBF 与 HBM 相比,带宽相当、容量更大、访问延迟更长、写入耐久更差、功耗更高,因此 H3 将 HBF 作为 HBM 的“二级扩展”,HBF 存储只读数据、HBM 则负责其余数据。

▲ IT之家简略手绘概念图(非论文图片),H3 即 HBM+HBF 的整体 具体在结构方面,H3 上 GPU 与 HBM 的 Base Die 通过中介层互联,HBM Base Die 内置了 HBM 控制器和与 HBF 系统配套的“延迟隐藏缓冲”,HBM Base Die 再通过中介层与 HBF Base Die 连接,后者则包含 HBF 堆栈的控制器。

这一设计使得 H3 能存储大量只读数据,适合 LLM 推理工作负载环境,特别是那些采用共享预计算键值缓存的用例。仿真测试结果表明,相较于仅使用 HBM 的传统系统,配备 H3 的 GPU 单位功耗的吞吐量提高了 2.69 倍,显示出该架构在处理具有海量只读数据的 LLM 推理方面的成本效益。

参考资料:

  • H3: Hybrid Architecture Using High Bandwidth Memory and High Bandwidth Flash for Cost-Efficient LLM Inference

版权声明:本站文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

评论加载中...