量子计算:开启算力革命新时代

iCYH科技之眼·2023年09月05日 15:07
当前先进封装、DSA、存算一体等融合创新再续摩尔定律;展望未来,随着算力需求高速增长,量子计算发展势在必行。预计2030年专用量子计算机实现商用,2050年第一台商用可编程通用量子计算机问世,此后与经典计算机长期并存,逐步实现替代。

核心观点:

半导体多方向技术进步,融合创新再续摩尔定律。随着先进制程逼近物理极限,沿着延续摩尔定律的方向,涌现出许多新技术:

(1)以Chiplet为代表的先进封装技术在提高互联速度、降低能耗等方面效果显著,成为降本增效的必经之路;

(2)领域专用架构DSA:针对特定领域定制加速单元,挖掘结构特性、显著提高性能,解决通用结构在特定问题上效率低下的问题;

(3)存算一体技术试图颠覆冯诺依曼架构,打破“存储墙”、“功耗墙”,提高数据并行度和能量效率。

展望未来:经典计算难以满足算力需求,量子计算颠覆创新道阻且长。随着人工智能加速应用,经典计算将难以满足指数级增长的算力需求。量子计算运用量子态的叠加性,使得量子比特拥有更强的信息编码能力,并可实现多个量子比特的量子纠缠,性能上限远超经典计算。目前量子计算仍存在退相干、噪声与误差、可扩展性等问题,仍处于硬件开发的早期阶段,代表技术路线包括超导量子、离子阱量子、光量子等;预计2030年前后各技术路线均实现量子优越性,同时较为先进的超导、离子阱、光量子路线实现专用量子计算机商用;乐观估计2050年前后第一台商用可编程通用量子计算机问世,此后量子计算机与经典计算机长期并存,随着技术进步而逐步提升渗透率;乐观估计2070年前后迎来“iPhone时刻”,实现渗透率的飞跃。

1. 摩尔定律还能走多远

1.1 先进封装:降本增效的必经之路

摩尔定律描述的是一定周期(12-18个月)内晶体管密度提升1倍,而当代尖端制造工艺实现的大致上是每3年晶体管密度提升1倍。基于时代对算力需求的提升,I/O发展速度的局限性,近存计算/异构集成的发展趋势,芯片尺寸做大的限制,以及尖端工艺制造成本的急剧提升,先进封装工艺成为时代发展的必然。

1.1.1 先进封装的引入

半导体制造的工艺过程由晶圆制造(Wafer Fabrication)、晶圆测试(Wafer Probe/Sorting)、芯片封装(Assemble)、测试(Test)以及后期的成品(Finish Goods)入库所组成。前道工序是从整块硅圆片入手经多次重复的制膜、氧化、扩散,包括照相制版和光刻等工序,制成三极管、集成电路等半导体元件及电极等,开发材料的电子功能,以实现所要求的元器件特性。后道工序是从由硅圆片分切好的一个一个的芯片入手,进行装片、固定、键合联接、塑料灌封、引出接线端子、按印检查等工序,完成作为器件、部件的封装体,以确保元器件的可靠性,并便于与外电路联接。

图一:半导体制造工艺过程(资料来源:川财证券、驭势资本,本翼资本整理)

封装(packaging)是半导体制造流程往后的一道工序:把一片硅造出来,用某种方法将其连接到板子上。以前封装企业不像一般前道制造企业那么受重视,封装供应链常被称归于“后道”工序。但随着前道生产制造工艺技术行进步伐的放缓,行业的注意力开始往封装转移。尤其是先进封装工艺,已经成为承托未来半导体技术发展的重要依据。

“先进封装”是相较于“传统封装”而言的,其定义存在差别。比如部分资料将先进封装窄化为2.5D/3D封装;某些专家则认为芯片级封装(chip scale packaging)和晶圆级封装(wafer level packaging)就可以算作先进封装。但不同的“先进封装”定义有共性,即封装尺寸显著缩减、不同信号连接点间距变得很小。研究机构Yole的数据显示,2021年先进封装市场规模已经达到了约350亿美元;并且到2025年这一数字将上升至420亿美元。

1.1.2 先进封装助力摩尔定律延续:以Chiplet为例

随着ChatGPT带来新的AI应用热潮,数据中心对高算力的GPU 芯片需求急速增长。相较于传统消费级芯片,算力芯片面积更大,存储容量更大,对互连速度要求更高,而 Chiplet 技术可以很好的满足这些大规模芯片的性能和成本需求,因而得到广泛运用。Chiplet 即小芯粒,它将一类满足特定功能的 die(裸片),通过 die-to-die内部互联技术将多个模块芯片与底层基础芯片封装在一起,形成一个系统芯片。

图二:AMD 2023年6月14日正式发布的Chiplet产品 MI300 AI加速卡(资料来源:HighYield、AMD,本翼资本整理)

Chiplet 工艺将不同工艺节点的小芯粒通过先进封装技术互联形成大芯片,将大面积芯片成本从晶圆制造环节转嫁到封装环节,提升大面积芯片良率。除了成本和良率上的优势,Chiplet 将 SOC 拆成了模块化的小芯片,实现 IP 复用,加快芯片设计迭代速度。实现形式上,die-to-die的高速互连是Chiplet实现的基础。Chiplet的小芯粒可以通过载板或 Interposer互联。若芯片是平铺在封装的衬底上,则称为 2.5D 封装,若是芯片之间堆叠封装,则称为 3D 封装。

图三:2.5D/3D 封装示意图     (资料来源:Semiconductor Engineering,本翼资本整理)

Chiplet 技术在算力芯片领域有如下优势:

(1)大面积芯片降低成本提升良率

近年来,随着先进制程推进,研发生产成本持续走高,大面积单颗 SOC 良率日益下降。Chiplet将单颗 SOC 的不同功能模块拆分成独立的小芯粒(即Chiplet),大大缩小了单颗 die 的面积,起到提升良率、降低成本的作用。

(2)便于引入 HBM 存储

高性能计算应用对内存速率提出了更高的要求,借助3D封装技术的HBM则很好的解决了内存速率瓶颈。HBM即高带宽存储器,其通过使用先进的封装方法(如TSV硅通孔技术)垂直堆叠多个DRAM,并在硅interposer上与GPU封装在一起。HBM 内部的DRAM 3D封装,而HBM与GPU合封于Interposer上属于2.5D封装,是典型的Chiplet应用。

(3)允许更多计算核心的“堆料”

由于Chiplet工艺引入了高速互连的Interposer 或其他中介层,使得芯片厂商得以将多颗计算核心 die 进行合封,以提高芯片整体性能。

图四:SK海力士2023年8月9日发布的321层4D NAND 样品(资料来源:SK HYNIX,本翼资本整理)

 

1.2 DSA:通用结构与专用结构的平衡

1.2.1 DSA的引入

贝尔定律指出:每隔10年,会出现新一代计算机,形成新的产业。新一代计算机有全新的算力特点,向芯片提出新的需求,促使底层硬件芯片持续创新。这指明了未来一个新的发展趋势,也就是AIoT(智能物联网)时代的到来。这会是一个处理器需求再度爆发的时代,但同时也会是一个需求碎片化的时代,不同的领域、不同行业对芯片需求会有所不同。

不同时代的算力特点和需求决定了芯片产品开发模式的不断演进,这就表现为牧本定律。半导体产品发展历程总是在“标准化”与“定制化”之间交替摆动,大概每十年波动一次。牧本定律背后是性能功耗和开发效率之间的平衡。对于处理器来说,就是专用结构和通用结构之间的平衡。最近开始转向追求性能功耗,于是专用结构开始更受关注。

摩尔定律让芯片上的晶体管数量不断增加,但问题是这些晶体管没有被充分利用起来。一个有趣的研究方向是使用新的编译器技术来缩短性能差距。尽管高效编译和实现 Python 这样的高级脚本语言比较困难,但潜在的收益是巨大的。MIT团队发布的论文显示:假设用Python实现一个矩阵乘法的性能是1,那么用C语言重写后性能可以提高50倍,如果再充分挖掘体系结构特性(如循环并行化、访存优化、SIMD等),那么性能甚至可以提高63000倍。

图五:Python 四次优化中矩阵乘法的潜在加速能力(资料来源:MIT-Science-There’s plenty of room at the Top: What will drive computer performance after Moore’s law?,本翼资本整理)

领域专用架构「Domain-specific architecture(DSA)」以硬件为中心,设计针对特定问题和领域的架构。针对特定领域的应用,定制可编程处理器,实现更强大的性能。DSA 通常被称为加速器,因为与在通用 CPU 上执行整个应用程序相比,它们可以加速某些应用程序。此外,DSA 可以实现更好的性能,因为它们更贴近应用的实际需求;DSA 的例子包括图形加速单元(即GPU),用于深度学习的神经网络处理器,以及软件定义处理器(SDN)。

专用处理器通常首先作为通用处理器的附加设备来实现。但是,鼓励专业化的力量必须与要求扩展的力量相平衡,GPU的发展证明了这种权衡。GPU最初是专门为渲染图形而开发的,但如今GPU的应用范围已经扩大到可以方便地处理各种非图形任务。考虑软件部分的矩阵乘法问题,AMD FirePro S9150 GPU只需70毫秒即可生成结果,比优化代码快5.4倍,比原始 Python代码快360,000倍。

1.2.2 体系结构优化思路

体系结构层面的常见优化思路:减少数据移动、降低数据精度、提高处理并行度。

减少数据移动,第一个切入点是指令集。通用指令集为了能覆盖尽可能多的应用,所以往往需要支持上千条指令,导致流水线前端设计变得很复杂,对性能与功耗都会产生负面影响。针对某一个领域设计专用指令集,则可以大大减少指令数量,并且可以增大操作粒度、融合访存优化,实现数量级提高性能功耗比。第二个减少数据移动的常用方法就是充分发挥缓存的作用。主要优化技术:替换算法、预取、大页面、压缩、调度等。

第二类体系结构优化技术是降低数据精度。这方面是这几年研究的热点,特别是在深度学习领域,很多研究发现不需要64位浮点,只需要16位甚至8位定点来运算,精度也没有什么损失,但性能却得到数倍提升。很多AI处理器都在利用这个思路进行优化,包括日本研制的超级计算机“富岳”中的CPU中就采用了不同的运算精度。因此其基于低精度的AI运算能力可以达到1.4EOPS,比64位浮点运算性能(416PFLOPS)要高3.4倍。

图六:超级计算机“富岳”(资料来源:人民视觉,本翼资本整理)

体系结构层次的第三个优化思路是并行。除了多核,还有其他不同层次的并行度,比如指令集并行、线程级并行、请求级别并行;除了指令级并行ILP,还有访存级并行MLP。

1.2.3 DSA的商业可行性

(1)云计算聚合用户需求,便于快速进入市场

优秀 DSA 的潜在提供商,特别是那些针对企业、人工智能或高性能计算工作负载的提供商,不一定需要开发自己的上市基础设施。他们可以依赖提供计算即服务的成熟云服务提供商 (CSP) 生态系统。如果他们能够向CSP及其客户群证明,他们的DSA可为特定工作负载提供卓越的计算性能,那么他们的硬件解决方案就可以集成到 CSP 数据中心基础设施中,并作为硬件实例提供给最终客户的计算周期。

(2)支持 DSA 小芯片异构集成的 2D 和 3D 芯片封装的进步

随着高性能芯片变得越来越大,工艺技术变得越来越昂贵,并且更难以以高工艺良率交付,领先的参与者已经转向分解策略,构建小芯片而不是单个大型单片芯片。这些小芯片可能会根据自己的工艺技术和功能进行优化,随后被集成到先进的封装中。芯片封装过去只包含一个芯片,而先进封装允许将数十个芯片异构集成在一个封装中,以 2D 甚至 3D 排列。这种技术趋势有利于专注于 DSA 小芯片的公司,因为这些小芯片现在可以集成在先进的封装中。

(3)通过代工厂获得成熟和领先的半导体技术制造

代工厂在全球半导体制造中所占的份额越来越大,因为它们可以汇总需求并实现抵消现代半导体生产成本不断上升所需的规模效率。代工厂不仅在技术节点上稳步获得制造市场份额,而且还提供最先进的技术节点,直到最近,集成设备制造商一直保持着这一优势。因此,任何对性能卓越的DSA设计有聪明想法的初创公司都可以快速获得最先进的制造,而无需在制造能力上投资一美元。

1.3 存算一体:经典冯诺依曼架构的颠覆

1.3.1 存算一体的引入

评价芯片主要看PPA三个指标Performance(性能)、Power(功耗)、Area(尺寸)。在以CPU为主的通用计算时代,低功耗和高性能(高精度)是一对难以同时满足的目标,主要是高性能优先。在过去二十年,处理器性能以每年大约55%的速度提升,内存性能的提升速度每年只有10%左右。结果长期下来,不均衡的发展速度造成了当前的存储速度严重滞后于处理器的计算速度。

图七:算力发展速度远超存储器(资料来源:Rambus,本翼资本整理)

冯诺依曼架构的局限,首先是性能。经典的冯诺依曼架构下,数据的存储和计算是分开的,处理器CPU存储器之间通过数据总线进行数据交换。但由于处理器和存储器的内部结构、工艺和封装不同,二者的性能也存在很大的差别。从1980年开始,处理器和存储器的性能差距不断拉大,存储器的访问速度远远跟不上CPU的数据处理速度,这就在存储器和处理器之间行程了一道“存储墙”,严重制约了芯片的整体性能提升。

其次是功耗。如前所述,由于处理器和存储器的分离,在处理数据的过程中,首先需要将数据从存储器通过总线搬运到处理器,处理完成后,再将数据搬运回存储器进行存储。随着半导体工艺的进步,虽然总体功耗下降,但是数据搬运所占的功耗比越来越大。据研究显示,在7nm时代,访存功耗和通信功耗之和占据芯片总功耗的63%以上。

由于以上存储墙和功耗墙两种瓶颈的存在,传统的冯诺依曼架构已经不再适应高速发展的算力需求,对于新型计算架构的需求因此应运而生。

1.3.2 新型计算架构与存算一体的演进

存算一体,或存内计算,是指将传统冯诺依曼架构中以计算为中心的设计,转变为以数据存储为中心的设计,也就是利用存储器对数据进行运算,从而避免数据搬运产生的“存储墙”和“功耗墙”,极大提高数据的并行度和能量效率。这种架构特别适用于要求大算力、低功耗的终端设备。针对新型计算架构的设计,研究者们提出了多种解决方法,大体分为三类:

(1)高速带宽数据通信,包括光互连、2D/3D堆叠。高速带宽数据通信主要通过提高通信带宽缓解存储墙问题。光互连技术可以实现数据的高速传输,降低功耗。2.5D/3D堆叠技术是将多个芯片堆叠在一起,通过增大并行宽度或利用串行传输提升通信带宽。

(2)近存运算。近存计算的基本做法是将数据存储尽量靠近计算单元,从而降低数据搬运的延迟和功耗。目前,近存计算的架构主要包括多级缓存架构和高密度片上存储。

(3)存算一体。存算一体或者存内计算的核心思想是,通过对存储器单元本身进行算法嵌入,使得计算可以在存储器单元内完成。

传统片外存储、近存储计算以及存内计算的功耗对比可参考下图:

图八:各类技术功耗对比(资料来源:AMD、Y.-H. Chen、JSSCC、北京大学,本翼资本整理)

目前存算技术按照以下历史路线顺序演进:

•查存计算(Processing With Memory):GPU中对于复杂函数就采用了这种计算方法,是早已落地多年的技术。通过在存储芯片内部查表来完成计算操作。这是最早期的技术。

•近存计算(Computing Near Memory):典型代表是AMD的Zen系列CPU。计算操作由位于存储区域外部的独立计算芯片/模块完成。这种架构设计的代际设计成本较低,适合传统架构芯片转入。将HBM内存(包括三星的HBM-PIM)与计算模组(裸Die)封装在一起的芯片也属于这一类。近存计算技术早已成熟,被广泛应用在各类CPU和GPU上。

•存内计算(Computing In Memory):典型代表是Mythic、千芯科技、闪亿、知存、九天睿芯等。计算操作由位于存储芯片/区域内部的独立计算单元完成,存储和计算可以是模拟的也可以是数字的。这种路线一般用于算法固定的场景算法计算。

•存内逻辑(Logic In Memory):这是较新的存算架构,典型代表包括TSMC(在2021 ISSCC发表)和千芯科技。这种架构数据传输路径最短,同时能满足大模型的计算精度要求。通过在内部存储中添加计算逻辑,直接在内部存储执行数据计算。

图九:各类技术对比(资料来源:陈巍谈芯,本翼资本整理)

2. 量子技术:多路径争鸣的繁荣

2.1 量子计算:复杂计算问题的未来

经典计算无法满足指数级增长的算力需求,量子计算的发展势在必行。随着人工智能算法的高速迭代进步,在政府/企业/消费领域多元应用场景驱动下,全球算力需求将呈现指数级增长。以下三个关键计算问题,体现了不同层次的用例复杂性:行星尺度天气建模、实时大脑尺度建模和人类进化模拟。到本世纪末,要解决上述三类重大计算问题,就必须大幅提高计算能效,最高可达十个数量级。

行星尺度天气建模对于模拟生态维持方案、预测自然灾害、了解人为气候变化以及模拟行星尺度自我维持生态系统至关重要。为了分析这一主题,科学家考虑了各种附加特征,包括空间分辨率的提高、平流层气候的纳入以及生物地球化学的纳入。

类脑计算有可能成为人工智能发展的下一步。人们已经考虑了神经元数量及其连接,为了实现类脑智能,研究人员将重点放在大脑下一个复杂程度的建模工作上:捕捉神经递质和代谢物的细节,但不包括细胞结构或量子动力学等细节。

人类进化模拟捕捉了人类群体之间的关键互动和生物过程,对于模拟我们的进化未来非常重要。在这些任务中,关键是要了解截然不同的环境和限制如何导致新的进化特征、如何减轻危险的多代影响,以及如何为这些任务选择和准备健康而多样化的人群。

图十:各层次计算能耗估算示意图(资料来源:Conklin, A.A., Kumar, S. Solving the big computing problems in the twenty-first century. Nat Electron 

数据点显示了训练人工智能模型所需的能源增长情况。早期的指数式增长(时代 1)之后是近期的波动和放缓(时代 2),这表明计算基础设施的未来(时代 3)将受到经济学的限制。水平虚线表示今天训练领先模型的平均能源成本,便于表示根据我们愿意承担的计算能源价格,每个问题可能在哪一年得到解决。

图中还显示了解决三层次计算问题的年度能耗预测。每个问题的数字计算时代预计将持续到预测的深色部分结束,之后就需要后数字方法(如量子计算)。这些估算基于每个问题所需的运算次数和当今最佳的 GPU 计算效率。我们假设计算效率每 1.2 年翻一番(乐观)到 3 年翻一番(悲观),从而预测这些能源预算在未来可能发生的变化。如果假定未来模型的预算与今天的模型类似(按今天的价值计算约为 300 万美元),那么人类可能会在 2060 年左右解决行星尺度的天气建模问题,在 2080 年左右实现相当详细的大脑尺度模型,并在本世纪末解决最小尺度的人类进化模拟问题。

上述分析表明,对何时能够解决关键问题的预测对计算技术进步的预测极为敏感。但是,在本世纪余下的时间里,主流数字处理器的进步将无法满足我们的计算需求,即使是最好的数字计算机也无法在本世纪内有效解决我们的重大问题。因此,如果我们要应对这些挑战,就必须采取紧急行动。在短期内,先进封装、特定领域架构和存算一体是容易实现的目标,但长远来看,最优的选择是投资新型计算方法,如量子计算。

经典计算:我们现在用到的计算方式最底层的信息存储和处理单元是比特。一个比特可以处于0或1两种状态之一,通过电路大量的比特连接在一起,并在上面执行一系列的逻辑操作,最终去获取存储着计算结果的那一组比特的状态,这样便能进行各种各样的运算。这种计算方式我们称之为经典计算。

图十一:经典比特与量子比特(资料来源:公开资料,本翼资本整理)

量子计算:基本信息处理单元是量子比特,它是一个最简单的量子系统——两能级系统。作为类比,我们可以分别将这两个能级标记为0和1。由于量子态的叠加性,这样一个系统可以处在0和1的叠加态,也就是说,这个量子比特可以部分是0,部分是1。这种叠加特性赋予了量子比特同时表达多种状态的能力,因此其有更强的信息编码能力。当多个量子比特连接在一起,我们可以将其纠缠在一起,这也是经典比特所不具备的能力。接下来,我们将总览最前沿的量子计算技术路线,以更加深入地了解量子计算的现状。

2.2 超导量子计算

• IBM遥遥领先

IBM公司引领着全球超导量子计算的技术发展,从当前的发展态势来看,包括Google在内的其他超导量子计算公司短时间内很难超越,IBM也代表了美国在超导量子计算机领域的国际地位。

2022年11月,IBM宣布推出的433量子比特Osprey,除量子比特数量的领先外,其多级布线,为信号路由和设备布局提供了灵活性。这种将读出和控制所需的导线和其他组件分离到各自层上的布线有助于保护脆弱的量子比特免受破坏,帮助处理器纳入更多的量子比特。

未来,IBM将专注于以下两个以硬件为中心的大型项目。一个是涉及量子处理器之间的各种类型的通信:实时经典、芯片到芯片量子门(量子多芯片模块)和远程量子通信——以量子为中心的超级计算机的基本组成部分;另一个是引入低温 CMOS 测控。

图十二:IBM公司的量子计算系统(资料来源:Nature,本翼资本整理)

 

图十三:谷歌的量子计算硬件(资料来源:Nature,本翼资本整理)

• 谷歌领先量子纠错

2019年,Google首次实现量子优越性所使用的“悬铃木”量子处理器是53个量子比特,2022年已经扩展至72量子比特。与IBM不同,尽管Google量子比特数远不如IBM,但他们更关注量子比特的质量,在量子纠错方面已取得持续进展。

Google采用5码距的表面码在拥有72个transmon量子比特和 121个可调谐耦合器的“悬铃木”设备上实现了纠错。更为重要的是,以往的纠错研究随着比特数的增加,错误率会提高,都是“越纠越错”,而这次Google首次实现了“越纠越对”。也就是说,突破了量子纠错的盈亏平衡点,这是量子计算“万里长征”中的重要转折点,为实现通用计算所需的逻辑错误率指出了全新途径。

• 国内超导量子计算机代表“祖冲之号”

2023年5月31日,176比特“祖冲之号”量子计算云平台上线,面向全球用户开放,这刷新了我国云平台的超导量子计算机比特数纪录。该项目总工程师、中国科学技术大学教授朱晓波表示,研究团队通过增加66个耦合量子比特的控制接口,改进了Zuchongzhi-2的110量子比特芯片,允许用户操纵176个量子比特。Zuchongzhi-2是2021年制造的可编程量子计算系统,可以执行比当时最快的超级计算机快约10万倍的大规模随机量子电路采样。同时,该平台的目标是在连接性、保真度和干扰时间等关键设计指标上达到全球先进水平。

图十四:“祖冲之二号”量子处理器(资料来源:中国科学技术大学,本翼资本整理)

总的来说,2022年超导量子计算技术路线的成果主要集中于门速度、门保真度、信号的读取、相干时间以及量子比特数量方面。可以预见,超导路线在IBM的带领下,在未来3年仍将持续领跑其他技术路线。不过,科学家也指出,一旦芯片上超导量子比特的数量远远超过1000个,扩大规模就变得非常困难,因为每个量子比特都需要与外部电路相连以便进行控制。因此,IBM计划采用模块化方法,从2024年起将不再执着于增加芯片上量子比特的数量,而是将多个芯片连接到一台机器上。

2.3 离子阱量子计算   

离子阱是最早尝试实现量子计算的物理体系,它本身的原理也很简单,就是利用电荷与磁场间所产生的交互作用力来约束带电粒子,使其行为得到控制。

• 两大离子阱量子计算巨头

2018年12月11日,IonQ公布了两个新型离子阱量子计算机,它具有160个存储量子比特和79个量子比特;2023年5月,IonQ宣布,其量子计算机IonQ Aria 系列的最新旗舰量子系统,正式在AWS量子计算云平台 Amazon Braket 上线,其算法量子比特(评估量子计算系统性能的指标)高达25,是当前世界上最强大的商用量子计算机之一。

IonQ现在所使用的技术是在一个阱中做的量子比特,技术是离子受激光照射后发出光子、光子-离子纠缠、将纠缠光子传送到另一边以使两个离子阱进行纠缠。IonQ的方案中,“离子不动,光动”,就是说声光调制器在离子阱外面寻址不同离子。

另一大离子阱量子计算巨头、霍尼韦尔的子公司Quantinuum也在2023年5月推出了第二代量子计算机H2,并利用它创造了一种寻找已久的神秘粒子——非阿贝尔任意子,迈出了构建容错量子计算机的关键一步。霍尼韦尔使用的是QCCD架构:利用分段式的离子阱,内部离子可以在里面来回穿梭、在不同的区域寻找激光进行相互作用;“光不动,离子在里面动”。

IonQ路线的优点是离子可以简单地实现相互作用,Quantinuum的技术路线若想达到这个效果,就需要把对应离子“挑”出来到相应区域,再去和激光相互作用;Quantinuum着重解决的是单个离子阱里容纳更多的离子的问题。

图十五:IonQ量子计算机(资料来源:IonQ,本翼资本整理)

图十六:霍尼韦尔量子计算机的离子阱(资料来源:霍尼韦尔,本翼资本整理)

• 向容错量子计算机迈进

离子阱的一大优势就是天然离子具有全同性,所以它们的相干时间特别长,并且门保真度也非常高。在此基础上,2022年,离子阱量子计算技术路线的主要成果之一为继续提高状态制备和测量(SPAM)保真度。主要成果来源于Quantinuum和IonQ两家量子企业。两家公司将SPAM保真度,分别提高到了99.9904%、99.96%,处于行业的领先水平,这也得益于离子阱相较于其他技术路线在保真度上的天然优势。

更重要的是,霍尼韦尔旗下量子计算公司Quantinuum通过实验首次演示了在两个逻辑量子比特之间的纠缠门,并以完全容错的方式完成实时纠错;首次演示了比相应物理电路具有更高保真度的逻辑电路;这一里程碑式的成就标志着逻辑量子比特性能优于物理量子比特——这是迈向容错量子计算机的关键一步。

离子阱的最大优势可以在QV这个指数上体现出来(离子阱路线目前最大量子体积(QV)达到了 8192,也是所有量子计算机路线中最大的)。首先是它的量子比特间的全连接度,其次是它的退相干时间长;这两个优势目前弥补了量子比特数目少的缺陷。尽管离子阱方案技术上较为成熟,但可扩展性有限,限制了它向实用化量子计算机的发展。

2.4 光量子计算

• 各项指标均有所突破

在量子计算优越性展示方面,2022年6月,光量子计算的代表企业Xanadu,通过使用最新的可编程光量子计算机Borealis,完成高斯玻色采样实验,展示了量子计算优越性。该公司的下一个目标是建立一个能够扩展至100万量子比特的容错和纠错的量子计算机。

图十七:完全可编程光子处理器Borealis(资料来源:Nature,本翼资本整理)

Xanadu是继中国科大之后第二个通过高斯玻色采样实现量子计算优越性的团队,因此我们从四个方面将Borealis与九章二号进行对比:首先,Borealis的可编程性是九章二号的3倍(2.7% vs 0.9%)。其次,Borealis与九章二号分别使用光子数分辨探测器与阈值探测器,最多探测光子数219 vs 113。但在另外两个方面,Borealis与九章二号也存在一定差距,包括较低的净透射率(33% vs 54%)以及更浅的干涉仪深度(矩阵的1/3元素:0 vs 随机)。不过Xanadu表示,他们的量子优越性实验不是结局,而是朝着容错量子计算机最终目标迈出的重要一步。容错量子计算机可以解决下一代电池开发、药物发现、金融和物流等领域的一系列棘手问题。

• 高维光量子计算显露优势

2022年3月,北京大学团队实现了高维量子计算芯片,在大规模集成硅基光量子芯片上实现了高维量子位初始化、操作和测量器件的单片集成,通过编程重构该量子处理器,运行了上百万次高保真度量子操作,执行了多种重要的高维量子傅里叶变换类算法,进而证明了高维量子计算具有比二进制量子比特编码的量子计算更大的计算容量、更高的计算精度和更快的计算速度等显著优势,有望加速构建大尺度光量子计算机。

光量子的高维量子态主要是用光的路径来进行编码,如编码在4条路径上来形成4维量子态;区别于多自由度,比如两个光子同时对其角动量、偏振、路径等同时进行编码。光量子做高维量子计算主要有三方面的优势:可以减少损耗。简化量子门的构建与编译。一次可以输入更高维度的信息。

2.5 中性原子量子计算

• 中性原子“驶入快车道”

该技术的一个主要优势是可以将多种类型的光镊(其中一些可以快速移动)与它们携带的原子结合起来。该路线目前已经利用光镊技术建立了由200多个中性原子组成的阵列,并且正在迅速结合新的和现有的技术,将这些原子变成完全工作的量子计算机。这种光镊使得该技术比其他平台(如超导体)更加灵活,可以与更大范围的原子互动,而在超导体中,每个量子比特只能与芯片上的直接邻居互动。

图十八:光镊技术演示图(资料来源:Nature,本翼资本整理)

• 2022年“中性原子元年”

2022年,各个路线量子计算机均有一些颇为亮眼的表现,但中性原子路线的量子计算机可以说是2022年度不折不扣的年度黑马,主要成果包括原子比特数的刷新、相干时间和最快双量子比特门速度、大规模原子量子处理器的发布等,无论是在技术还是商业成熟度上,都呈现出跨越式的发展。

2022年3月,美国芝加哥大学团队就成功在实验室中利用中性原子体系实现了创纪录的512量子比特;5月,美国Atom Computing的中性原子量子计算机Phoenix实现了相干时间超过当前操作时间10万倍,为40±7秒,为中性原子商业平台上有史以来最长的相干时间;8月,日本国立自然科学研究所成功地执行了世界上最快的双量子比特门—操作时间仅6.5纳秒:9月,法国Pasqal宣布推出324个原子 (量子比特) 的量子处理器这是2022年11月之前全球量子比特规模最大的量子处理器(在11月被IBM 433量子比特的超导量子计算机芯片打破)。

同时,2022年年末还实现了一些商业化进展:QuEra在AWS上推出256量子比特模拟量子处理器,QuEra的QPU是亚马逊Braket上第一个能够进行“模拟哈密顿量模拟(AHS)”量子计算范式的设备;M Squared公布了英国第一台商用中性原子量子计算机的原型机——Maxwell系统。

2.6 其他技术路线

• 半导体量子计算

目前硅基量子技术的优势在于利用了类似小芯片中集成数十亿个晶体管的半导体纳米结构,因此可以利用当前成熟的半导体技术:得益于硅基自旋量子比特与成熟的纳米加工技术的兼容性,半导体量子计算在2022年,容错上进展明显。

• 拓扑量子计算

简单来说,量子比特是一个单独的个体,与其他量子比特相互作用很容易出错,导致信息丢失。但拓扑量子计算机是将几个量子比特组成起来形成一个固定结构,无论受到外界何种干扰,都不会造成信息丢失。微软的Azure Quantum团队专注于开发拓扑量子比特,与目前正在开发的其他类型的量子比特相比,拓扑量子比特预计更快、更小且更不容易丢失信息。

图十九:微软Azure Quantum团队为创建拓扑量子比特设计的设备

(资料来源:Microsoft,本翼资本整理)

• 金刚NV色心量子计算

金刚NV(Nitrogen-Vacancy)色心是一种在金刚石晶格中的缺陷结构,作为固态量子比特在量子计算中展现了巨大潜力。NV色心的自旋态,由一个氮原子和一个空位缺陷组成,可以被光学和微波激励控制和读取。其具有较长的相干时间和良好的环境隔离性,使其成为稳定存储和处理量子信息的候选器件。研究重点在于优化量子比特初始化、操作和读取技术,同时挑战包括实现NV色心之间的相互作用和耦合,以及提高制备和集成技术。金刚NV色心量子计算在量子计算和通信领域有着广泛的应用前景。

• 量子退火机

目前量子计算机可分为量子逻辑门计算机和量子退火计算机,前述几大主要技术路线都是构建量子逻辑门计算机提出的。量子退火机(Quantum Annealer)不需要量子逻辑门,而是通过伊辛模型寻找最优解,在处理最优化问题上有独特优势。迄今为止,D-Wave已经向市场推出了五代量子退火机,在2022年6月推出了其第六代机器的实验原型——Advantage2™系统。2023年4月19日,D-Wave Quantum Inc.发表了一篇经同行评审的里程碑式论文:其5000量子比特的Advantage™量子计算机的性能在“3D自旋玻璃优化问题”上明显快于经典计算,标志着退火机实现量子优势。

图二十:位于NASA的D-Wave 2X(量子退火机)(资料来源:Nature,本翼资本整理)

3. 量子计算前景展望

3.1 量子计算的瓶颈

尽管量子控制领域取得了长足进步,但仍存在一些挑战和限制。下面我们将简要介绍其中最大的障碍:

(1)退相干。在量子系统中,由于与周围环境的相互作用,当相干性丧失,量子态变成经典态时,就会发生退相干现象。量子态的保真度和量子控制操作的持续时间受到退相干的限制。

(2)噪声与误差。热波动、控制缺陷以及与不受控制的环境自由度的耦合会导致量子系统出现噪声和误差。量子设备可能会受到这些误差的不利影响,在量子控制操作中引入不准确性。

(3)可扩展性。量子系统的控制能力往往受到技术限制。例如,随着系统量子比特数的增加,精确操纵量子态和对单个量子比特执行操作变得更具挑战性。

(4)复杂性与优化。量子控制问题通常涉及实现所需量子态或动态的优化控制策略。由于高度非线性的优化景观具有许多局部最优点,因此很难确定全局解决方案。

(5)对初始条件的敏感性。根据初始条件的不同,量子系统对最小的干扰也会高度敏感。因此,由于这种敏感性,很难长期保持稳健可靠的控制。

当务之急是解决这些挑战和限制,以推进量子控制技术,使量子技术尽可能有效。退相干和噪声缓解技术、稳健的控制策略和纠错方法是该领域目前正在进行的研究工作。可以说,最大的量子计算挑战是量子位退相干。量子位对其环境极其敏感,即使很小的干扰也会导致它们失去量子特性,这种现象称为退相干。掌握退相干的斗争可能需要新材料、新计算技术以及对各种量子方法的深入探索。

3.2 量子计算的应用

虽然量子计算背后的物理学非常复杂,但潜在的业务影响是显而易见的,它解开了困扰传统机器的四种计算问题。随着量子计算技术的进步,量子计算硬件的成本将随着时间的推移而不断下降,从而使更广泛的企业和组织受惠。

图二十一:量子计算在四类计算中应用的价值潜力(资料来源:BCG analysis,本翼资本整理)

虽然量子计算相对于经典计算的优势无疑是显著的,但在实现其对日常科学难题的实际应用之前,还有相当长的路要走。我们仍处于量子计算硬件开发的早期阶段。首先,需要高水平的并行化(因为并行操作对于纠正错误至关重要)和可扩展性。此外还需要考虑存储错误,除了量子门本身引入的错误外,这些错误还会影响门未作用的量子比特。

量子计算机的价值来自于它们运行的概率方式。通过直接使用概率计算风格而不是模拟,计算机科学家已经展示了快速搜索引擎、更准确的天气预报和精确的医疗应用的潜在应用。此外,量子计算机代表了量子计算发展的原始动机,在直接模拟量子力学方面非常有用。总的来说,量子计算可能在未来彻底改变金融、制药、人工智能和汽车等行业,从根本上改变我们所处的世界。

3.3 量子计算的未来

量子计算机的计算能力随量子比特数目呈指数增长,因此量子计算研究的核心任务是多量子比特的相干操纵。根据相干操纵量子比特的规模,量子计算将经历如下三个发展阶段:

第一个阶段是实现“量子计算优越性”,即量子计算机对特定问题的计算能力超越经典超级计算机,这有两个关键点,一是操纵的量子比特的数量达到约50个量子比特,二是操纵的量子比特的精准度较高。只有当两个条件都达到的时候,才能实现量子计算的优越性。美国谷歌公司在2019年率先实现超导线路体系的“量子计算优越性”。中国则分别于2020年在光量子体系、2021年在超导线路体系实现了“量子计算优越性”。加拿大Xanadu公司在2022年实现光量子体系的“量子计算优越性”。目前,越来越多的技术路线正逐步实现量子优越性。

如下图所示,左下角的范围(紫色)代表的是操纵的量子比特数目和精准度都不够的情形,这个范围的量子计算机不具备量子优越性,科学家们在尽量朝着右上方(绿色)努力。而位于中间的部分(蓝色),则可以用来在短期内实现一些应用上的突破。

图二十二:量子计算发展阶段示意图(资料来源:公开资料,本翼资本整理)

第二个阶段是实现专用量子模拟机,即相干操纵数百个量子比特,应用于组合优化、量子化学、机器学习等特定问题,指导材料设计、药物开发等,是当前的主要研究任务。由于量子比特容易受到环境噪声的影响而出错,对于规模化的量子比特系统,通过量子纠错来保证整个系统的正确运行是必然要求,也是一段时期内面临的主要挑战。

第三个阶段是实现可编程通用量子计算机,即相干操纵至少数百万个量子比特,能在经典密码破解、大数据搜索、人工智能等方面发挥巨大作用。

具体到前文所述的各种技术路线,不同企业针对其专攻的路线和产品给出了不同的规划,虽然处于发展初期的量子计算技术进步难以预测,但我们可以从中窥见一些发展前景。

图二十三:物理量子比特技术路线图(资料来源:Databaseline,本翼资本整理)

其中,超导(■)、离子阱(▲)、中性原子(◆)、光量子(●)、金刚NV色心(×)、半导体(★)、退火机(⬢)。从图表中可以清楚地看出,大多数发布量子计算机路线图的制造商都希望在 2030 年至 2035 年之前达到量子优势,以在下一阶段的专用量子计算机乃至通用量子计算机的竞争中占据先机。

根据当下的量子计算发展现状可以预测:2030年前后,伴随着超导量子、离子阱量子和光量子路线的诸多头部企业进入专用量子计算机时代,绝大多数技术路线的领先厂商将实现量子优势;同时,相当长一段时间内,量子计算机会以与经典计算机结合的形式存在,并不会完全取代经典计算机,而是作为重要的算力补充和特殊领域的专用工具。预计2050年前后,首台商用可编程通用量子计算机问世;随着量子计算机的市场渗透率逐渐提高,以及技术进步带来成本的大幅降低,乐观估计2070年前后将迎来量子计算的“iPhone时刻”。

+1
12

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

从 Flipkart 中分离出来的 PhonePe 披露了近几个季度来自 General Atlantic、Tiger Global 和 「沃尔玛」等多家投资者的 8.5 亿美元新投资。

2023-09-05

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业