网站首页 文章专栏 重大突破!科学家发明光速 AI 计算架构,有望消除性能瓶颈
芬兰阿尔托大学研究团队成功演示名为“并行光学矩阵-矩阵乘法器”(POMMM)的新一代光学计算基础架构,旨在解决人工智能(AI)模型训练和执行中的核心瓶颈。该技术利用单次相干光的传播过程完成整个矩阵与矩阵的乘法运算,运算延迟可达纳秒级,远胜于电子计算的微秒级。研究团队已在 GitHub 上开放了所有代码和数据,预计未来三年内能效有望实现百倍提升。
11 月 25 日消息,科技媒体 livescience 昨日(11 月 24 日)发布博文,报道称来自芬兰阿尔托大学的研究团队成功演示名为“并行光学矩阵-矩阵乘法器”(POMMM)的新一代光学计算基础架构,旨在解决人工智能(AI)模型训练和执行中的核心瓶颈。
IT之家援引博文介绍,现代 AI 模型,尤其是大语言模型(LLM),其性能受限于处理“张量”(Tensor)数据的速度。
Tensor 是 AI 模型中用于组织数据的加权结构,处理速度的上限直接决定了模型规模的上限。POMMM 架构的出现,为突破这一限制提供了全新思路。

传统光计算虽然在小规模下比电子计算更快、更节能,但存在一个致命缺陷:难以并行处理。与可以大规模串联以指数级提升算力的图形处理器(GPU)不同,大多数光学系统只能线性运行。
因此,尽管光计算潜力巨大,但开发者普遍倾向于选择 GPU 的并行处理优势。像 OpenAI、Google 等公司开发的顶级 AI 模型,正是依赖数千块 GPU 并行运行才得以实现。
POMMM 技术能够利用单次相干光的传播过程,完成整个矩阵与矩阵的乘法运算。其核心原理在于,通过空间光调制器将数字张量编码为光的相位和振幅,光束穿过实现傅里叶变换的透镜组后,运算结果以干涉图像的形式被高速探测器捕捉。整个算术过程在光的“飞行”中瞬间完成,无需电子环路或内存读取,实现了物理层面的“自然同步计算”。

研究团队基于现成的光学元件搭建了原型机,在标准光学平台上耗时六个月完成组装。测试结果显示,对于最大 50x50 的矩阵,该原型的平均绝对误差(MAE)低于 0.15,归一化均方根误差(RMSE)则保持在 0.1 以下。
这一精度已能满足许多边缘推理应用的需求。尽管当前原型机的能效仅为 2.62 GOP/J(每焦耳执行 26.2 亿次操作),远低于顶尖 GPU,但其潜力巨大。团队强调,这项技术的优势在于其扩展性与速度,运算延迟可达纳秒级,远胜于电子计算的微秒级。
为了加速技术验证和社区发展,研究团队已在 GitHub 上开放了所有代码和数据。这种透明化的做法增强了外界对该技术突破的信心,并吸引了全球光子学实验室和 AI 加速器开发者的关注。
研究人员指出,探测器的动态范围和校准漂移是目前需要攻克的难题,但未来的技术路线图非常清晰。通过将空间光调制器和探测器阵列等关键部件集成到低损耗的氮化硅光子芯片上,能效有望实现百倍提升。
根据团队预测,集成了专用光子芯片的原型机有望在三年内问世,预计能将能效提升至 300 GOP/J,远超电子 GPU 目前约 30 GOP/J 的能效瓶颈。不过,考虑到封装、温控和激光器集成等工程挑战,距离实现大规模量产可能还需要五年以上的时间。
IT之家附上参考地址
