中国信通院张萌等：量子计算基准测评技术进展及趋势环球动态

0 引言

近年来，随着大数据、人工智能等技术的发展，诸多行业对算力的要求与日俱增。电子计算处理器由于热耗效应和尺寸效应，摩尔定律逼近物理极限，算力性能进一步提升面临挑战。量子计算作为新兴先进计算的代表技术，成为未来先进计算领域破局和实现算力跨越式发展的有力候选技术之一。

(相关资料图)

量子计算利用特有的纠缠、叠加物理特性，在计算方面可实现“内在并行”，具备强大的计算潜力。量子计算有望催生改变游戏规则的颠覆性应用，对国家竞争、产业发展、经济社会产生深远影响。比如1994年提出的Shor算法[1]可以在多项式复杂度下实现大数分解，有望用于RSA密钥破解。全球各国高度重视量子计算技术产业发展，纷纷开展战略布局，抢占未来科技发展要地。同时，资本市场也高度关注量子计算，根据PitchBook统计[2]，2021年全球量子计算产业投融资额高达69 亿元人民币，超过前3年投资额的总和。

业界评估量子计算发展与潜在影响通常关注样机技术成熟度水平以及哪种硬件平台更适合更多的潜在应用。基准测评作为一种客观的评价方式，在计算机、人工智能、云计算等诸多领域的发展中扮演着重要的角色，也将在量子计算技术发展和应用探索中起到推动作用。基准测评是指通过设计客观有效的测试方法、工具和系统，对特定对象的功能和性能指标进行定量和可对比的测试。针对目前已经出现的各类型量子计算原理样机和量子计算云平台服务，开展基准测评技术研究与测试验证，是促进量子计算样机研发和应用推广的重要推动力量。本文调研综述量子计算基准测评研究发展现状，尝试对量子计算基准测评的体系架构进行梳理分类，并对量子计算基准测试的重要性、面临的挑战及发展趋势进行分析展望。

1 国际布局基本进展

2020年10月，由12家欧洲机构联合发起的下一个量子计算应用（NEASQC）项目旨在针对中等噪声规模量子（NISQ）应用程序下定义并提供一个完整的通用工具集，科学研究人员及行业用户可以使用该工具集进行实验研究和应用探索。

2021年，量子科学计算开放用户测试床（QSCOUT）推出了Testbed 1.0，并计划在未来的3年将系统从3 个量子比特扩展到32 个量子比特。由美国能源部（Department of Emergy，DOE）启动的QSCOUT是一个为期5年的科研项目，由科学办公室高级科学计算研究（Advanced Scientific Computing Research，ASCR）计划资助，旨在建立一个基于捕获离子的量子测试床，可供研究社区使用。作为一个开放平台，QSCOUT不仅为所有高级量子和经典过程的实现提供完整的规范和控制，还支持研究人员改变和优化实验台的内部结构，并测试更高级的量子操作实现。QSCOUT将分阶段运行，每一阶段增加更多的离子量子位、更好的经典控制和更高的保真度。第一阶段实现全连接的3 个量子比特，单量子位操作的目标保真度为99.5%，双量子位门的目标保真度为98%。

2021年4月2日，美国国防高级研究计划局（DARPA）宣布推出“量子基准”（Quantum Benchmarking）项目，旨在明确可测试的、关键的量子计算指标，用以衡量量子计算的进展,并推动当前的研究向实现特定目标的方向发展。同时，该项目还将估计达到关键性能阈值所需的量子计算和经典计算资源，致力于创建可以指导未来投资的标准，为准确衡量在向大型、容错量子计算机竞赛中需要关注的重要内容提供方便。该项目具体包含三大目标：一是研究量子计算关键测评指标，用来评估当前技术实现与实际应用和量子计算终极能力之间差距，从数以百计的应用案例中抽象出数个测评基准，并从多个维度客观地评估量子计算机的性能与成熟度；二是基于以上测评基准研制开发量子计算机测试环境，并对量子算法和应用场景进行测试验证；三是带动量子计算前端编译器、后端编译器、量子计算机硬件、量子存储等的发展。

2 量子计算主要基准测评技术

目前，量子计算基准测评技术处于开放探索的阶段，业界各方提出了一系列基准测评方法。这些基准测评方法针对不同的测试目的、测试对象和测试场景。本文将对近期业界关注的量子计算基准测评方案技术进行梳理介绍。

2.1 量子比特级基准

量子比特是构成量子计算的基本物理单元。量子比特级别的基准测评直接反映量子计算机底层物理硬件的性能优劣。量子比特级别的基准测评指标主要包括量子比特数目、连通性、串扰、量子比特寿命T1、量子比特相干时间T2等。

量子比特数目，即量子计算机中物理量子比特的数量，反映了量子计算机硬件资源的最大可能性，是一个典型的规模指标。量子比特数目是量子计算机最早的测试评估指标，因为其只是一个数字并且足够直观易懂，就像经典计算机的中央处理器（CPU）数量、主频大小、内存大小一样，即使没有计算机专业背景的人，一眼也能定性地评估出计算机的性能。量子比特数目是评价量子计算能力的一个关键指标。相关研究指出利用改进的Shor算法破解RSA2048密钥需要13 463 个量子比特，耗时177 D[3]；考虑到硬件规格，在1 h内完成公钥破解，则需要大概3.17 亿个量子比特[4]。如果量子比特足够完美，仅凭量子比特数目就可以评估量子计算机的最大执行能力。但是，目前硬件开发还不够完美，系统中存在各种各样的错误，可以通过多个量子比特冗余编码进行优化。因此，在物理比特数目的基础上，业界又提出了逻辑比特数目的概念。数百个甚至更多的物理比特进行冗余编码形成一个逻辑比特，逻辑比特的数目能更客观地反映出量子计算机的理论计算能力。

连通性反映了量子比特之间的系统布局，不同的技术路线可实现的连接方式有所不同。目前实现的量子计算原型机量子比特之间的布局包括“最近邻”“重六边形晶格”“全连接”等形式。2019年谷歌推出的53 比特“悬铃木”超导量子计算机采用“最近邻”布局，即量子比特组成二维阵列，每个量子比特与行和列中距离最近的4 个量子比特相连接。2021年IBM推出的127 比特“Eagle”超导量子计算机采用“重六边形晶格”布局，量子比特组成六边形阵列，每个量子比特与周围的2 个或3 个量子比特相连接。最理想的情况是“全连接”形式，如2020年杜克大学和马里兰大学的研究人员首次设计的一款全连接的32 比特离子阱量子计算机寄存器。量子比特之间的连接性在一定程度上影响着量子计算的性能。2022年，美国洛斯阿拉莫斯国家实验室研究发现将相同的量子体积测试电路编译到量子计算机不同的子拓扑上，最终获得差异化的测评结果[5]。该结果反映出量子比特质量的不均匀性和连通性对量子计算机性能的影响。

量子比特是由一个二能级系统构成。量子比特寿命T1是指量子比特从高能级|1>衰变到低能级|0>的时间，即(|1〉)=e-t/T1。

图1T1和T2测试电路示意图

2.2 逻辑门级基准

对于基于门操作的量子计算机，量子逻辑门级别的测评基准直接反映量子比特执行计算操作的能力。

量子逻辑门集合是指供应商的量子计算机上定义的门操作的种类集合。不同的技术路线实现逻辑门操作的难度不同，因此不同供应商的量子逻辑门集也存在一定的差异，这种差异会导致相同的算法在不同的量子计算机上编译出的门电路不同。实验发现不同的编译方式对算法的执行也存在一定的影响。

评价逻辑门质量的测评指标主要包括单/双量子比特门错误、状态制备与测量错误等。量子比特门错误和量子比特门保真度是一对对应的概念。1%的门错误率对应99%的门保真度，也就是说每次对量子比特执行门操作时，成功率为99%。需要指出的是，量子比特门错误在门电路中是逐步累积的。执行M个门操作后其保真度仅为0.99 M。如果以1/e≈0.37 作为阈值，对于保真度为99%的系统最多执行98 个门操作。另外一种错误是状态制备与测量（SPAM）错误。在每个量子计算的开始，必须将量子比特设置为正确的初始状态，计算结束,必须正确测量量子比特的量子态分布。与门错误不同，每个算法的SPAM错误只发生一次。

评价逻辑门速度的测评指标包括门操作速度、测量速度、重置速度，即评价门操作执行的速度、测量量子态的速度以及将量子态重置的速度，或者单位时间内执行门操作、测量操作、重置操作的次数。这3种速度与T1、T2时间共同决定了量子计算机可以处理各种操作的最大次数，因为只有在寿命范围内执行操作才是有意义的。如果量子比特的寿命很长，但是门操作速度很慢，系统也是不可用的。

2.3 量子电路级基准

对于基于门操作的量子计算机，任何量子算法最终都会被编译成一系列量子门电路（Circuit）。因此，基于量子电路及系统的基准测试更容易反映量子计算机在解决问题时的综合性能。

衡量量子电路规模往往采用电路深度和宽度来衡量。电路宽度定义为电路中的量子比特数目，电路深度则反映电路执行门操作的层数。电路的深度和宽度越大，解决的问题越复杂。但是，通过对量子比特级别和门级别的性能分析可知，量子比特的寿命有限，并且任何门操作都会引入错误，因此仅靠电路宽度和深度这两个数值是不能全面反映量子计算机的性能的，还需要考量电路输出结果的特性。基于以上考虑，科学家设计了一系列基于量子电路级别的基准测试方法。这些基准测试方法具有类似的基本结构：在量子计算机上执行一组特定的实验量子电路，对输出的数据进行分析处理，对量子计算机某方面性能进行评估，主要包括量子门集层析成像（GST）[6-7]、随机基准（RB）测试[8-14]、镜像电路测试等。

目前，对量子计算机评估比较全面的技术是量子门集层析成像（GST）。本文所指的量子电路是固定输入/经典输出（FI/CO）电路。这类电路主要包含状态准备（初始化）、一系列量子门操作和量子态的测量3 个部分。量子门集就是指这三部分组成的集合。所谓层析就是将一个未知实体（状态准备ρ，运行过程（门操作）G，或测量M）置于假设已知的参考系中，评估实际输出与理想输出的差距（见图2）。GST对于实验规模和后处理要求极高，获得GST测评结果相当于求解高度非线性化的优化问题。测评单个量子比特大约需要80 次试验，测评两个量子比特试验数量就会增长到

图2 量子门集层析成像原理示意图

另一种常用的基准测评方法是随机基准（RB）测试。RB测试将被测试的门进行旋转，其去极化的平均保真度与原始门相同。试验中测量旋转后的平均保真度，其结果与原始门的平均保真度相关。RB测试具有很强的可扩展性，实现RB测试所需的资源（试验次数、处理时间）随着量子比特数呈多项式增长，而GST则是呈指数增长。但是RB测试也存在明显的缺点：首先，RB测试仅限于Clifford门集，不能用于表征量子计算的通用门集；其次，RB测试只能给出平均保真度单一指标，对量子计算机性能评估不够全面，并且从测评结果中也不能进一步分析出噪声模型，因为不同的噪声模型可能产生相同的平均保真度；最后，RB测试假设门的错误是独立的，当存在非马尔科夫过程或者噪声是时间相关的情况下，测试结果会存在较大的误差。

镜像电路基准测试是由美国桑迪亚国家实验室于2021年设计出的一种更准确的新型性能测试方法。镜像电路基准测试是一种计算机程序，它可以将数据进行正向和反向计算，这种设计可以大大缩短测试时间。由于该测试方法的输入和输出是一致的，因此测试人员无需过多的数据处理便可立即检查出量子计算机的性能。

2.4 系统级基准

在量子电路级别的基准测评基础上，研究人员又提出了系统级别的基准测评方法，以便完成更加系统、综合的性能测试评估，主要包括量子体积（QV）[16]、每秒电路层操作数（CLOPS）等。

IBM首先提出了量子体积的概念，综合评估量子计算机的质量和规模。QV测评中将电路层数定义为一层量子比特排列层和一层随机两比特幺正门SU(4)（见图3）。QV由量子处理器能够成功运行的最大随机方形电路（宽度等于层数）的QV层数定义。量子体积对量子处理器的硬件特性如量子比特数目、量子寿命（T1和T2）、门保真度和测量保真度等非常敏感，同时还受连通性和编译方式的影响。量子体积是一个整体的指标，因为其不能通过改进系统的一个方面来改进，而是需要系统的所有部分以协同的方式来改进。

图3 QV测试电路示意图

在QV的基础上，美国桑迪亚国家实验室又提出了体积基准（Volumetric Benchmarks，VB）。QV中定义了一系列深度d和宽度 w相同的正方形电路。VB则定义了一系列矩形量子电路，其中d和w是解耦的，可以从时间和空间维度分别研究量子计算机的性能。每个VB定义了从电路形状（w，d）到测试套件C（w，d）的映射。测试套件是具有共同结构的测试电路的集合。在测试电路集合上，VB也在QV的基础上进行了扩展，不仅可以包含随机电路和周期电路，还包含了应用电路或伪代码电路。不是所有的应用算法都能抽象成随机电路和周期电路的模型，量子计算机的性能需要更复杂的应用电路进行测试评估，因此有必要对实际应用算法的电路进行抽象和简化，形成新的测试基准电路。VB将d和w解耦也更方便实现复杂电路的映射。CLOPS也是由IBM提出的，定义为单位时间内一个QPU可以执行多少个参数化的QV电路。使用QV和CLOPS可以综合评估量子计算机的规模、质量和速度。

2.5 应用算法级基准

面向应用的基准测试方法更适合于用户进行调用，并且一般返回单一的指标和评分综合反应性能优劣，能够评估量子计算机在解决特定问题（比如大数分解、组合优化、机器学习）时的能力。比如适用于量子-经典混合计算的qBAS，适用于标准优化问题的Q-score[20]，以及汇集多种算法应用的App-Oriented测试套、SupermarQ、算法量子比特（#AQ）等。

2021年，美国量子经济发展联盟（QED-C）公布了App-Oriented测试套，以特定量子算法（如Shors算法、Grover算法、QFT算法等）为基础，用于测试量子计算机在实际相关任务上的性能。测试套件中包括比较简单的演示级或实验级的程序（如Deutsch-Jozsa算法等）、大型应用程序中的字功能块（如QFT算法等）以及相对完整的应用程序（如Shor算法、变分量子本征求解器等）。套件将每种应用算法设计为问题规模可变的函数，并返回该算法在特性问题规模下的执行时间和保真度，分别评估量子计算机的速度和质量。

结合App-Oriented测试套的基本思想，IonQ重新定义了算法量子比特(#AQ)的基准测评方法。#AQ=N定义为在电路宽度N×电路深度N2的矩形区域内运行的所有电路都满足阈值要求。阈值要求一般定义为结果保真度减去基于测量次数的统计误差仍大于1e≈0.37。

这类基准测试可用于评估量子计算机解决特定问题的能力，对于非量子计算专业的用户或投资者来说结果直观易懂。但是，这种评估结果是多种底层因素综合、平均的结果，缺乏细节的展示，不适合研发者使用。

除了上述基准测试，量子计算的测评技术还可以包括外围保障系统测评（如制冷性能、真空性能、隔振性能等）、技术成熟度测评（如GJB 7688-2012或GB/T22900-2009）和对量子计算云平台的测评（如云硬件、云软件、云安全、云应用、云运维）等。这些测评技术不是专门为量子计算设计的，因此本文不作展开。

目前，大规模量子计算机硬件研发尚未突破，量子计算如何赋能生产生活也需要长时间的探索。从“造出来”到“用起来”各个环节都需要基准测评来全面综合评估量子计算机的性能。量子计算机的当务之急是“造出来”，并且努力提升量子比特规模和保真度两大核心指标，因此研发人员需要对量子计算硬件的错误噪声模型、复合方式及测控手段进行深入的研究。面向底层的基准测评方法以及量子门集层析成像技术将提供有效的手段，以便发现、定位、分析和解决问题。作为工程化的一个重要指标，系统的稳定性和可靠性需要重点验证。在各种复杂环境中反复执行科学、可复现的基准测试可以有效地评估量子计算机长期运行的性能特征。当量子计算机硬件愈发成熟，并过渡到应用探索和产业落地的阶段，潜在用户和投资者通过面向应用的基准测评方法获取量子计算机直观、综合的性能表征，以便研判未来关注的方向。

3 量子计算基准测评体系框架初探

目前，量子计算基准测评技术研究处于百家争鸣的阶段。本文尝试从两个维度对重点基准测评技术体系框架进行梳理和分类（见图4）。其中，纵向维度从硬件—软件—应用的角度划分5个层次，分别是量子比特、逻辑门、量子电路、系统和应用算法的不同层面基准测评。在此之上还有量子计算云平台测评和整体技术成熟度的评估。越接近底层硬件的测评越能反映量子计算机的技术细节（比如量子比特的噪声模型、噪声的复合形式等），但是这类测评指标技术专业性要求较高，主要适用于硬件研发人员在开发或优化量子处理器时应用。越接近应用层的测评技术指标越单一，并且直观易懂，可以对量子计算机在解决特定问题时的性能作出综合评价，屏蔽底层硬件实现细节，适合应用开发者或行业用户使用。横向维度则是从规模、质量、速度三方面进行划分。其中，规模指标反映了量子计算机解决问题的极限能力，质量指标反映了量子计算机执行任务的可靠性和可信度，速度指标则反映了量子计算机在单位时间能完成的工作量。规模是量子计算的物理基础，高质量和高速度则是实现量子优越性的必要条件，未来只有三者的综合提升才能促进量子计算技术的发展与应用实现。

图4 量子计算基准测量技术架构

4 未来发展趋势及展望

量子计算测评基准目前仍处于研究起步阶段，业界各方正进行开放性探索。量子体积一般被认为是用于测评量子计算机性能的一个相对有效指标，量子体积越大，可能意味着未来量子计算机能解决的实际问题的复杂度就越高。但是，也有相关研究发现在解决金融投资组合优化问题中，量子体积大的机器并没有取得实际问题中的最佳效果。还有研究发现电路后编译方式、电路是否优化、具体执行的比特分布都会影响QV的最终测试结果。因此，未来对于量子计算基准测评技术原理和影响因素等，还需要更多和更深入的理论分析和实验验证。

随着量子计算硬件技术的发展演进，新的基准测评指标也可能会被提出和推广。目前的测评体系多是基于物理量子比特设计的。未来随着量子纠错技术逐渐成熟和实用，如何评价逻辑量子比特的性能需要进一步的研究。量子纠缠被认为可以将分布在不同地理位置的量子计算机连接起来，并且指数级地扩展计算能力，未来有望形成分布式量子计算或者真正的量子云计算。对于其中的纠缠连接能力，不同物理体系之间的转换连接能力等也需要进行基准测试评估。

未来量子计算评价体系和测评基准将向着开放性、易用性、客观性、可复现性、科学性、系统性和可追溯性的方向发展。基准测评技术体系和方法会随着量子计算机硬件的不断成熟而日趋完善。单一的指标无法综合评估性能优劣，并且不同的应用需求也对应不同的基准测试。“归一化”是量子计算基准测评发展的必然方向，即由繁杂的多维度测评方案收敛成一种标准化的可纵向对比的测评体系。

5 结束语

量子计算科学研究和应用探索热点频出，资本市场高度关注，加速了其技术产业的发展。量子计算基准测评对于量子计算的工程化、实用化以及未来的商业化具有至关重要的意义。欧美各国积极构建量子计算测试床，加速量子计算样机研发、收集测试用例、探索Benchmark评测指标，提供资源共享与产学研用开放平台。目前，我国尚未部署产业级量子计算基准验证项目，缺少面向行业探索和工业应用的量子计算测试平台。鉴于量子计算基准测评的重要性，建议我国加快相关测评方法、测评标准的项目布局，依托产业联盟、标准化组织开展公共测试床的建设，联合产学研用多方的资源和力量，合作交流，协同创新，共同推动我国量子计算基准测评体系的建立。