中国实现世界首颗超高并行光计算芯片,这是一项具有重大意义的科技突破。光计算芯片利用光的特性进行高速运算,其并行处理能力远超传统电子芯片。这意味着在处理大规模数据和复杂计算任务时,光计算芯片能够展现出无与伦比的优势,如人工智能训练、气象模拟、金融风险评估等领域。它将为各个行业带来革命性的变化,提高计算效率,加速科学研究和产业发展。这一成就彰显了中国在芯片技术领域的卓越实力和创新能力,有望引领全球计算技术的发展潮流。
本文来自微信公众号:电子工程世界 (ID:EEworldbbs),作者:付斌
昨天,一则新闻刷爆了朋友圈:中国科学院上海光学精密机械研究所空天激光技术与系统部谢鹏研究员团队在解决“光芯片上高密度信息并行处理”难题上取得突破,研制出超高并行光计算集成芯片“流星一号”,该芯片首次在50GHz光学主频下验证了并行度>100的片上光信息交互与计算。
那么问题来了,这个芯片到底是做什么的,光计算又是什么?
研究的内容是啥?
现在计算机都是围绕电子学而展开,所谓光子计算,就是围绕光子学而设计的计算芯片。
早在1979年,我国科学家钱学森就看好光子学,并围绕光子学提出了光子工业的概念。在论文中,钱学森就提到了光子计算机:“光子技术的一个肯定要推进的方面是光子计算机。现在已经开始了一些集成光路的基础工作,将来可能是继电子计算机之后,超过电子计算机的光子计算机。从原理上估计,光子计算机的运算能力可以为电子计算机的百倍、千倍以至万倍。”
这几年,钱学森提出的理论已经成为了现实,光计算已经拥有了诸多突破。目前,光学神经网络、神经形态计算、通用处理器等技术已得到展示。然而,可扩展性仍然是一个关键问题,因为更高的光计算能力需要更多的片上元件。例如,大多数片上可编程光子单元尺寸约为10至100微米,一个4英寸晶圆最多只能容纳10000个。进一步增大光子芯片尺寸会导致累积计算误差、更高成本、调制不同步以及封装风险,从而限制了系统的可扩展性。因此,可扩展的片上光计算技术需求迫切,但目前仍在开发中。为了利用光子的固有自由度,并行光计算得到了探索。
在众多光计算技术中,基于马赫-曾德尔干涉仪(MZI)网格的光计算支持使用仅空间编码矢量的可编程矩阵乘法,这有望通过有效整合更多维度(如频率通道)来实现并行光计算。然而,能够通过结合频率和空间自由度进行并行矩阵-矩阵计算的光学张量核心仍未得到充分探索。本研究则提出并演示了一种由孤子微梳源和MZI网络驱动的并行光计算架构。
根据研究团队的叙述,针对光计算高密度宽谱数据信号色散误差问题、高密度信道串扰问题、光学矩阵高精度驱动问题,研究团队从底层物理机制出发,建立了并行光计算物理模型,提出了一种适用于片上信息并行处理的纠错方法,将多波长并行计算一致性提升至90%以上;团队系统性地设计了与波分复用兼容的多波长光源,配合系统调制频率需求,抑制了通道间信息串扰;面向并行光计算器件大带宽需求,团队通过逆向设计方法,提升器件带宽与鲁棒性,使光计算芯片带宽>40nm,满足了系统需求。
换句话说,这个研究解决了并行架构一些挑战,为提升光计算性能开辟了新途径,为发展低功耗、低时延、大算力、高速率的“超级光子计算机”带来了可能性。
并行光计算输出光谱一致性
具体到芯片层面来看,就是研究团队自主研制的核心光芯片“流星一号”,具体为孤子微梳源和MZI网络驱动的并行光计算架构,而该芯片的最大亮点就是并行度>100上。
该集成芯片采用90nmCMOS兼容工艺在绝缘体上硅(SOI)平台上制造。MZI结构由两个分束器和两个相移器组成。MZI中的分束器采用宽带MMI。MZI中的相移器通过在波导层顶部图案化的电阻加热器实现。为了减轻热串扰,每个相移器的驱动功率保持在毫瓦级,并采用了额外的热隔离结构。
芯片系统包含了集成微腔光频梳,作为芯片级多波长光源子系统;大带宽、低时延、可重构光计算芯片,作为高性能并行计算核心;高精度、大规模、可扩展的驱动芯片,作为光学矩阵驱动子系统;基于该系统,验证了并行度>100的片上光子信息交互与计算原型,在50GHz光学主频下,单芯片理论峰值算力>2560TOPS,功耗比>3.2TOPS/W。
超高并行光计算架构
光计算之所以这么受欢迎,不仅仅是因为性能强,更重要在于功耗低。谢鹏也在最近采访中表示:“‘流星一号’的突破不仅在于算力提升,更在于其低功耗特性,未来可大幅降低数据中心能耗,助力绿色计算。”
光计算到底是啥?
伴随ChatGPT、DeepSeek为代表的人工智能革命性成果的诞生,随之而来的就是4~6个月翻倍一次的算力需求,但目前摩尔定律正在逐步放缓,传统纳米电子计算架构面临物理极限(如功耗、散热和尺寸限制),算力越来越难以追赶AI的增长速度。
当前,解决电子芯片的“功耗墙”“存储墙”的路径包括三类路径:一是通过先进制程继续缩小电子逻辑器件,包括光刻、封装、材料多方面,如极紫外(EUV)光刻机、GAAFET、CFET、二维材料晶体管等;二是通过3D封装互连和Chiplet实现多芯片异质集成;三是直接舍弃传统路线,如碳基计算、量子计算(光量子也属于其中一环)、光计算,其中,光计算或光电混合计算是当前距离产业最近的路线。
光计算作为非冯·诺伊曼结构代表,具有可扩展、低功耗、超高速、宽带宽、高并行度的天然优势,是后摩尔时代破解高维张量运算、复杂图像处理等大规模数据快速计算的关键技术之一。
众所周知,光具有波粒二象性,其中利用波动性可以实现光经典计算,利用粒子性可以实现光量子计算。光量子计算目前也在不断迭代中,不过相比来说,光经典计算走得更快一些。
细分到光计算,也有许多路线,包括数字路线和模拟路线,不过其中只有基于光学神经网络(ONN)的光计算技术是受关注度较高、产业化应用前景较好的两大类技术路线。
线性矩阵计算是ONN的基础,其实现方式主要分为基于空间光学和基于片上集成光学两种路线。非线性激活函数有两种实现方案:一是“光-电-光”的转换方案,二就是“全光”方案。
基于空间光学的方案在自由空间中的传播特性进行计算,具有天然的并行性优势,包括光学4f成像、空间光衍射、Fabry-Perot激光器、偏振光束分裂器、波分复用系统等。
片上集成将光学元件集成到芯片上,以实现更小尺寸、更高集成度和更稳定性能的ONN。包括MZI干涉结构、MRM波分结构、亚波长衍射结构等方案。目前,MZI路线最大的有点是成熟、可以量产、并且比较稳定;MRM这个工艺的稳定性和成熟度还不是很好;衍射方的优点在于功耗可以更低,但它可能会牺牲可编程性。总之,过去三年MZI是落地最快的一个场景。而此次的超高并行光计算芯片也选择了MZI路线。
谁在做光计算?
目前,光计算领域初创企业聚焦在ONN,全球范围内,中国和欧美在光计算领域基本处于并跑状态。
在多数媒体宣传中,普遍将光计算描绘为比GPU高1000倍以上的一种技术。光子作为信息载体确实具有独特的优势,有实现千倍算力提升的潜力,但显然目前肯定实现不了这样的效果。
在这种情况下,如何突破现有算力生态的瓶颈,真正把光的“能量”带到产业中去,才是企业当下需要考虑的问题。从初创企业的动作来看,大部分也在推出性能高出现有电子芯片几倍或者十几倍的芯片,提升幅度也许不是很大,但能够真正进入行业。
国内方面:
上海曦智科技:成立于2018年,是中国最早进行光计算产业化的公司之一,其技术源于麻省理工学院,公司创始人沈亦晨博士是MZI干涉方案代表性论文的第一作者。其围绕光子矩阵计算(oMAC)、片上光网络(oNOC)和片间光网络(oNET)三大核心技术开发产品,目前最新推出的曦智天枢光子矩阵规模达到128x128,采用“OPU光学处理单元+ASIC光电混合处理器”,是曦智上一代产品等效光算力的4倍,是一个当下即可落地,实现单位算力能耗快速提升的实用解决方案。软件层面,曦智科技同样构建了完整的开发工具链以实现光计算芯片的实用化。智规划明年底完成的256x256光子矩阵产品样片,2027年正式发布。
苏州光本位科技:成立于2022年,其技术源于牛津大学,采用MRR波分系统与相变材料(PCM)结合的方案,公司称之为“PCM+Crossbar方案”,光本位科技则在光芯片的技术路线中选择了一条特殊路线——光本位采用硅光+相变材料的异质集成以及独有的Crossbar光子矩阵计算结构,成为首家实现光计算芯片存算一体的商业化公司。主要产品是光计算板卡,目前正在调试矩阵规模为128×128的光计算板卡,预期峰值算力可超过1000 TOPS,算力密度已超越先进工艺的电芯片,预计在今年推出商业化光计算板卡产品。
北京芯算科技:成立于2023年,技术源于麻省理工学院,采用MRR波分系统与相变材料(PCM)结合的方案,创始人杨文强毕业于中国科学院光所,2023年推出高维光计算芯片和光电混合计算原型板卡,该板卡集成了片上多波长光源芯片、光子矩阵运算芯片、波分复用模组和光电转换模组等,算力已突破100 TOPS。
北京光子芯力:成立于2024年,技术源于清华大学,采用亚波长衍射结构方案。“光子芯力”的产品是一款光电融合计算芯片,团队开创性地采用全波计算技术路径,第一代光芯片已经流片完成,目前正与多家客户合作开发落地方案。
国外企业:
Lightmatter:成立于2017年,总部位于美国加利福尼亚州,技术源于麻省理工学院。创始人尼古拉斯·哈里斯是MZI干涉方案代表性论文的共同作者。产品线包括光子计算平台(Envise)、芯片互连产品(Passage)、适配软件(Idiom。
Luminous Computing:成立于2018年,总部位于美国加利福尼亚州,CTO Mitchell Nahmias博士期间专注于光学AI芯片研究,技术源于普林斯顿大学Paul Prucnal课题组的MRR方案。2023年,公司展示了O波段TRX光子链路芯片,该芯片使用45nm工艺,具有16个通道,能在112Gbps下工作,功耗约为4.3pJ/bit(不含激光器功耗)。
Optalysys:成立于2013年,总部位于英国利兹,技术源于剑桥大学,2019年推出了商用分立光学处理系统FT:X2000,该产品基于空间光传输可等效于卷积操作的原理,通过集成微透镜实现器件小型化,可用于处理高分辨图像和视频。目前,Optalysys的产品聚焦在光计算安全加密领域。
Lighton:成立于2016年,总部位于法国巴黎。2020年推出了基于离轴光全息技术的空间光学计算系统,主要应用于机器学习、卫星图像分析和自然语言处理等智能计算领域。2021年,成功将“Appliance”光学处理单元(OPU)集成到法国Jean Zay超级计算机上,能够在超大规模上加速随机算法,并可与标准硅处理器和NVIDIA的A100 GPU技术协同工作。
Fathom Computing:成立于2014年,总部位于美国加利福尼亚州,其光子原型计算机在2014年时识别手写数字的准确率约为30%,到2018年已超过90%。然而,该公司近年来并未公开更多进展。
目前光电融合可以解决很多问题
目前,突破算力限制有两条创新路线:第一条是存算一体路线,本质有近存计算和存内计算两类方式,通过将存储单元放在计算逻辑芯片上,解决存储与计算之间带宽和数据搬运的问题;第二是通过非GPU架构,如美国Sambanova的流式计算架构、谷歌TPU专用的ASIC架构,通过将芯片上的晶体管重新排列,提高晶体管在计算时的利用率。
很显然,两种路线都不能解决数字芯片最根本的晶体管数量问题。并不是说两条路线不好,而是未来两条路线最终一定还会绕回晶体管密度这个问题上。所以,通过将光子和电子混合在一起,就能解决这根本性的问题。与此同时,近存计算或流式架构同样适用于光电混合计算芯片上,从而实现更大的底层突破。
之所以晶体管很难进一步提高单位面积的绝对计算密度,是因为登纳德缩放比例失效,如果把晶体管继续做小会产生量子极限的隧穿效应,而如果以两倍的主频运行会同时带来两倍的热量,单位面积芯片如果不能把这些热量散发出去就会导致芯片融化。这两个问题的本质都在于铜导线存在电阻,晶体管收放电都会产生热量,而光则不会产生热量,因此可以通过提高其主频或复用波长数量进一步增加单位面积的绝对算力。
总体来说,当前光计算产品主要以“光电融合”方式实现,芯片内部包含光芯片、电芯片及其他外围器件,光芯片进行整数运算,电芯片负责浮点运算。不过,目前光计算产业链仍处于发展起步阶段,成熟度较低。但已有一些性能功耗比不错的产品,成为GPU的重要互补。
随着全球人工智能产业高速发展,光计算芯片正迎来新一轮增长机遇。预计到2027年,全球光芯片市场规模将达到56亿美元。引用行业一句话:“当电子芯片还在2纳米悬崖边徘徊时,光计算芯片已点燃新的火炬。”
参考文献
[1]Yu,X.,Wei,Z.,Sha,F.et al.Parallel optical computing capable of 100-wavelength multiplexing.eLight 5,10(2025).https://doi.org/10.1186/s43593-025-00088-8
[2]钱学森.光子学、光子技术、光子工业[J].中国激光,1979,6(1):1.钱学森.[J].Chinese Journal of Lasers,1979,6(1):1.
[3]信熹资本:https://mp.weixin.qq.com/s/6uUf-AO91dt1Zv6QQrVodw
[4]维科网光通讯:https://mp.weixin.qq.com/s/yPWRxbijBxx8R81I5zr2wQ
[5]集成光学PIC:https://mp.weixin.qq.com/s/VV6BNY9GdIn4YSeWs6zZng