# 机器学习辅助微架构功耗建模和设计空间探索综述

翟建旺'凌梓超'白晨'赵康'余备'

1(北京邮电大学集成电路学院 北京 100876)

2(北京邮电大学计算机学院 北京 100876)

3(香港中文大学计算机科学与工程系 香港 999077)

(zhaijw@bupt.edu.cn)

# Machine Learning for Microarchitecture Power Modeling and Design Space Exploration: A Survey

Zhai Jianwang<sup>1</sup>, Ling Zichao<sup>2</sup>, Bai Chen<sup>3</sup>, Zhao Kang<sup>1</sup>, and Yu Bei<sup>3</sup>

<sup>1</sup> (School of Integrated Circuits, Beijing University of Posts and Telecommunications, Beijing 100876)

<sup>2</sup> (School of Computer Science, Beijing University of Posts and Telecommunications, Beijing 100876)

<sup>3</sup> (Department of Computer Science and Engineering, The Chinese University of Hong Kong, Hong Kong 999077)

Abstract Microarchitecture design is a key stage of processor development. It is at the upper level of the entire design flow and directly affects core metrics such as performance, power consumption, and cost. Over the past few decades, new microarchitecture solutions, coupled with advances in semiconductor manufacturing, have enabled newer generations of processors to achieve higher performance, lower power consumption and cost. However, as chip design enters the post-Moore era, the dividends from the evolution of semiconductor technology are increasingly limited, and power consumption has become a major challenge for energy-efficient processor design. Meanwhile, modern processors are becoming more complex in architecture and the design space is larger, requiring designers to make accurate design metrics tradeoffs to achieve the most desirable microarchitecture design. Moreover, the existing stage-by-stage decomposition of the development and validation flow is extremely lengthy and time-consuming, and it is difficult to achieve global energy efficiency optimization. Therefore, how to perform accurate and efficient power estimation and design space exploration at the microarchitecture design stage becomes a key issue. To tackle these challenges, machine learning has been introduced into the microarchitecture design process, providing efficient and accurate solutions for microarchitecture modeling and optimization. We firstly introduce the main design flow of processors, microarchitecture design and its major challenges, then amplify machine learning-assisted integrated circuit design, which focuses on research advances in the use of machine learning techniques to assist microarchitecture power modeling and design space exploration, and finally conclude with a summary and outlook.

**Key words** processor design automation; microarchitecture design; power modeling; design space exploration; machine learning

摘 要 微架构设计是处理器开发的关键阶段,处在整个设计流程的上游,直接影响性能、功耗、成本等核 心设计指标.在过去的数十年中,新的微架构设计方案,结合半导体制造工艺的进步,使得新一代处理器

收稿日期: 2024-02-01;修回日期: 2024-03-19

基金项目: 国家重点研发计划项目(2022YFB2901100);香港特别行政区研究资助局(CUHK14210723);北京市自然科学基金项目(4244107) This work was supported by the National Key Research and Development Program of China (2022YFB2901100), the Research Grants Council of Hong Kong SAR (CUHK14210723), and the Beijing Natural Science Foundation (4244107).

通信作者: 赵康(zhaokang@bupt.edu.cn)

能够实现更高的性能和更低的功耗、成本.然而,随着集成电路发展至"后摩尔时代",半导体工艺演进所 带来的红利愈发有限,功耗问题已成为高能效处理器设计的主要挑战.与此同时,现代处理器的架构愈发 复杂、设计空间愈发庞大,设计人员期望进行快速精确的指标权衡以获得更理想的微架构设计.此外,现 有的层层分解的设计流程极为漫长耗时,已经难以实现全局能效最优.因此,如何在微架构设计阶段进行 精确高效的前瞻性功耗估计和探索优化成为关键问题.为了应对这些挑战,机器学习技术被引入到微架 构设计流程中,为处理器的微架构建模和优化提供了高质量方案.首先介绍了处理器的主要设计流程、微 架构设计及其面临的挑战,然后阐述了机器学习辅助集成电路设计,重点在于使用机器学习技术辅助微 架构功耗建模和设计空间探索的研究进展,最后进行总结展望.

关键词 处理器设计自动化;微架构设计;功耗建模;设计空间探索;机器学习

中图法分类号 TP332

处理器芯片已经成为现代信息社会的基石,是 推动新一轮科技革命和产业变革的关键力量<sup>[1]</sup>,对于 提升国家战略竞争力和国际地位具有重要意义<sup>[2]</sup>.作 为计算机系统的核心和大脑,处理器负责执行各类 控制、计算任务,其性能和功耗等设计指标对整个系 统至关重要.因此,处理器的设计制造在集成电路和 计算机产业中占据了关键地位.

随着半导体工艺的发展,晶体管特征尺寸逐步逼 近物理极限,摩尔定律所预测的等比例微缩定律已 经难以维持,给处理器的设计制造带来了诸多挑战. 随着平面光刻衍射极限<sup>[3]</sup>、短沟道效应<sup>[4]</sup>、冯·诺依曼 瓶颈<sup>[5]</sup>等问题愈发突出,现代处理器面临尺寸缩小瓶 颈、能耗瓶颈和算力瓶颈等问题.当特征尺寸进入量 子效应显著的范围,诸多次级物理效应随之显现,比 如源漏寄生电阻占比增大、栅极隧穿泄漏等,导致芯 片的功耗密度快速上升,散热问题也限制了处理器 的主频提升,集成电路已经进入功耗限制时代<sup>[2]</sup>.

传统的超大规模集成(very large scale integration, VLSI)电路基于分阶段设计的思想,层层分解,在各 个阶段进行局部最优化设计,有利于缩减问题规模、 提高设计效率.然而,随着处理器规模的急剧攀升, 传统设计流程愈发难以收敛于全局能效最优.各阶 段的相对独立导致了设计鸿沟的产生,难以支撑跨 层次联合设计,无法达到架构、电路、器件跨层优化 的性能水平<sup>[2]</sup>.因此,必须采取不同设计阶段和设计 模式相协同的思想,考虑不同阶段的相互影响,实现 跨层优化,使得最终结果收敛于全局最优,并减少设 计迭代.研究人员已经尝试从全系统的角度进行设 计,并利用机器学习(machine learning, ML)<sup>[6]</sup>强大的 建模和优化能力打破设计壁垒.左移融合的新型设 计范式<sup>[7]</sup>也对设计工具提出了更高的挑战,研发更加 智能高效的新一代电子设计自动化(electronic design automation, EDA)工具势在必行.

对于商业处理器而言,能否在完成既定设计指标的前提下,尽可能缩减物料和开发成本成为产品 竞争力的重要考量.因此,在早期架构设计阶段前瞻 性地评估性能、功耗、面积(performance, power, and area, PPA)等指标,并探索符合需求的微架构设计显 得尤为重要.一般而言,微架构设计方案形成设计文 档,并通过工程开发的方式转换为寄存器传输级 (register transfer level, RTL)代码,然后利用 EDA 工具 完成逻辑综合和物理版图设计.微架构设计所描述 的每一个简单语句都可以很轻易地转换为成千上万 行 RTL 代码,导致设计复杂度急剧攀升、问题规模 爆炸性增长.因此,如何在早期微架构设计阶段较为 精确地预估 PPA 指标,并对不同设计方案进行探索 和优化,对于提高开发效率至关重要.

目前,手机、汽车电子、AIoT等各类设备发展迅猛,迫切需要定制化、高能效的处理器设计,以及系统性的芯片敏捷设计方案<sup>[8]</sup>.作为开发流程中极为关键的一步,微架构建模和探索优化的质量和效率决定了能否快速获得理想的处理器芯片,直接影响开发周期和投入产出.本文将介绍微架构功耗建模和设计空间探索领域的研究进展,尤其是如何利用机器学习技术提高建模、优化过程中的性能和效率.

# 1 背景介绍

#### 1.1 处理器设计流程

VLSI的设计制造是一个复杂庞大的工程,为了 应对不断发展的芯片集成度和半导体工艺,其设计 流程也日趋多样化.目前,层次化设计是被采用最多 的设计方法.

图1给出了处理器芯片的典型设计流程.系统定

义<sup>19</sup>主要根据客户需求定义产品的基本结构、目标 和原则,确定系统功能、PPA以及工艺选择等,架构 设计[10]则给出目标处理器的基本架构,包括模拟和 混合数字模块的集成、软硬 IP 核的使用、内存管理、 通信、电源要求等.其中,微架构用于实现给定的指 令集架构(instruction set architecture, ISA), 包括该实 现的特定机制和硬件结构,并在一定约束条件下使 用硬件电路结构进行描述.功能和逻辑设计[11]则定 义了目标设计的功能行为,并通过高层次硬件模型 实现,比如使用 Verilog/VHDL 等高级硬件描述语言 完成 RTL 代码开发. 在给定工艺库后, 逻辑综合<sup>[12]</sup> 将RTL代码转换为门级网表,并完成逻辑化简和优 化. 在获得门级网表后, 基于工艺库信息进行布图规 划、布局、布线等后端物理设计[13]步骤,从而将电路 元器件和互连关系映射到晶片上. 然后, 对物理版图 进行物理验证、测试等各项检查验证.如果满足既定 PPA设计指标,则通过签核形成标准版图文件交付 半导体制造商,并经过一系列工艺制造、封装测试形 成最终产品交付客户.而如果不满足既定设计目标, 则需要修改早期设计,并重新执行后续设计流程.

为了获得更加理想的设计结果,处理器开发往 往需要大量的反馈迭代,导致开发周期长、全局优化 不足、设计成本大幅度增加.因此,为了避免复杂耗 时的后期设计和验证流程,有必要在早期设计阶段 从全系统的角度进行跨层优化,并开发更加高效智 能的 EDA 工具.总而言之,在早期的微架构设计空间 中进行精确高效的建模和优化,有利于为处理器设 计实现良好开端,从而缩短设计周期、降低开发成本.

### 1.2 微架构设计及其面临的挑战

在计算机系统中,微架构是处理器对特定 ISA 的实现,也称为微体系结构.这种实现通常是指寄存 器、存储器、控制器、算术逻辑单元和其它数字逻辑 块的组合实现.换而言之,微架构给出处理器中存在 的所有电子元件和数据路径的逻辑设计,并以特定 方式布局,从而实现指令的最佳执行.微架构与 ISA 相结合组成了整个系统的计算机体系结构,设计人 员可以使用不同的微架构设计来实现一个给定的 ISA,从而解决不同的问题,比如加速某种特定任务、 降低功耗、提高成本效益等.如图 1 所示,微架构设 计处于整个设计流程的上游,对处理器芯片的 PPA 有关键影响,因此往往需要在多个维度进行权衡.

作为处理器设计方式的逻辑表示,通常将特定 的微架构表示为数据流图,用以描述各种组件的互 连和交互.作为示例,图2给出了RISC-VBOOM处 理器的微架构示意图.RISC-V是一种开源ISA,因其 免费、简洁以及良好的可移植性等特点,受到了广泛 关注和支持,并取得了显著发展<sup>[14-18]</sup>.BOOM<sup>[14-15]</sup>通 过使用Chisel<sup>[19]</sup>来构建内核生成器,能够提供一系列 乱序RISC-V内核设计,以适应不同的应用场景.如 图2所示,BOOM主要由前端(FrontEnd)、指令解码 单元(IDU)、执行单元(EU)和加载存储单元(LSU)4 个部分组成.得益于BOOM的可参数化微架构设计, 设计人员可以通过配置不同的微架构设计参数,在 性能和功耗等指标之间做出不同的权衡.由于对开 发人员友好、性能高、可配置等优点,BOOM在开源 社区备受追捧.同时,BOOM为微架构建模和探索优



Fig. 1 Illustration of processor chip design flow 图 1 处理器芯片设计流程示意图





化提供了很好的机会,本文所调研的很多工作都是基于 BOOM 展开的.

分支预测等各级流水线设计,执行单元的数量、 延迟、吞吐量选择,存储器的大小、延迟、吞吐量和 连接性等均是微架构设计和决策的核心任务.随着 设计需求的日益复杂和制造工艺的不断发展,设计 人员必须最大程度地压缩开发周期,以加快上市时 间.重要的是,必须考虑能效、成本和可扩展性等诸 多因素,对流水线和各个组件进行细致地分析和评 估,以尽早评估目标设计的 PPA 指标,从而确定最适 合特定应用场景的微架构设计方案,以提高处理器 的性能和能源效率.然而,互相冲突的设计指标、漫 长耗时的开发流程、复杂庞大的设计空间,给微架构 建模和探索决策带来了3个严峻的挑战:

1)处理器芯片所关注的设计指标,例如性能和 功耗是负相关的,甚至是相互冲突的,无法实现全部 指标的同时最优,必须考虑如何做出良好权衡.

2)传统的设计验证流程极为耗时,对给定微架 构设计方案进行 PPA 评估通常需要花费大量时间, 如何利用有限的早期特征信息进行较为精确的 PPA 预估成为挑战.

3)现代处理器包含许多复杂的组件,并由此产 生了极为庞大的设计空间,几乎不可能遍历每种微 架构设计以获得最佳解决方案,如何高效探索全局 最优设计成为挑战。

#### 1.3 机器学习辅助集成电路设计

为了解决集成电路设计领域面临的诸多挑战, 研究人员尝试应用机器学习等人工智能(artificial intelligence, AI)<sup>[20]</sup>技术赋能芯片设计.人工智能的概 念于 1956年首次被提出,并在棋类游戏、计算机视 觉、自然语言处理等应用中取得了重大突破,是未来 科技发展的重要方向.机器学习使用计算机模拟人 的学习行为,并从数据中学习知识以改进预测模型 和智能系统的性能.EDA 应用中的很多问题可以表 征为决策问题、回归问题与检测问题,具有多阶段、 多目标、不连续、非线性等特点,且面临较大的不确 定性和时间压力.通过应用机器学习技术,可以有效 利用历史数据和知识来构建更加准确的电子设计模 型、开发处理器的跨层优化方法,提高 EDA 工具的 自动化和智能化程度,从而帮助设计人员快速生成 高质量的芯片设计.

目前,机器学习在EDA领域的应用仍处于探索 阶段,但已经取得了一些显著进展.Cadence发布了 基于机器学习引擎的数字全流程,芯片设计吞吐量 最高提升3倍,PPA最多改善20%.Synopsys则推出 了AI自主芯片设计系统DSO.ai<sup>™</sup>,利用强化学习在 芯片设计的庞大解空间中搜索优化目标,在降低设 计成本的同时获得PPA提升.Mentor(现西门子EDA) 推出了用于更智能设计的AI/ML工具包,其中AI辅 助的高层次综合(high level synthesis, HLS)工具能够 快速找到神经网络加速器引擎的最佳PPA实现,基 于机器学习的光学邻近校正工具和光刻仿真工具能 在保持最佳精度的同时大幅度提高设计效率.得益 于数十年的积累,EDA厂商拥有丰富的全流程工具 和流片验证经验,为利用机器学习技术辅助EDA工 具开发提供了充足的数据和实践积累.

学术界也对机器学习技术在 EDA 领域的应用 开展了大量研究.如图 3 所示, Rapp 等人<sup>[21]</sup> 总结了 2016-2020 年间在五大主要 EDA 学术期刊和会议中, 使用机器学习进行集成电路辅助设计的出版物数量 及其在不同阶段的占比.从图 3(a)不难看出,使用机 器学习解决 EDA 问题正变得越来越流行.如图 3(b) 所示,在 2020 年,约有 65% 的工作是用于物理设计 和制造阶段的,因为这些工作涉及物理版图的几何 表示,有利于应用较为成熟的图像相关的机器学习 算法.而在早期设计阶段,如系统级设计空间探索 (design space exploration, DSE)、HLS、逻辑综合等相关



Fig. 3 Statistics of numbers and percentage on EDA publications based on machine learning<sup>[21]</sup>
图 3 基于机器学习的 EDA 出版物数量及占比统计<sup>[21]</sup>

研究则较少.这些问题大多是组合优化问题,在理论 上更加难以求解,且缺乏领域知识的引入和可扩展 性研究.根据上述统计,机器学习用于后端物理设计 和制造阶段已被广泛研究,未来需要把更多的精力 集中于较早期的设计阶段,这也是本文的重点所在.

总的来说,机器学习与 EDA 方法学的融合是革命性的一步,使得芯片设计生产力产生质的飞跃.首先,机器学习强大的建模能力能够为设计流程中较早期阶段提供精准高效的指标评估,有利于实现跨层优化.其次,数据驱动的机器学习模型能够为特定流程和场景提供定制化算法、减少人工干预,具备更高的自动化和智能程度.此外,通过将复杂的 EDA 问题转化为机器学习问题,能够有效降低 EDA 算法开发门槛,吸引更多研究人员.

# 2 微架构功耗建模

集成电路的功耗建模是一个广泛而持久的研究 问题.随着摩尔定律的放缓和登纳德缩放定律的崩 溃,功耗问题已经成为高能效处理器设计的主要挑 战,集成电路已经进入功耗限制时代<sup>[2]</sup>.因此,迫切需 要开发精确鲁棒的功耗模型以指导处理器芯片的设 计和优化.研究人员已经针对不同设计阶段提出了 一系列建模方法.然而,现代处理器架构复杂、设计 空间庞大,现有模型依然难以满足不断增长的建模 速度、通用性和准确性需求.本节将介绍功耗建模问题、相关建模方法,重点在于机器学习辅助微架构功 耗建模,并进行小结.

#### 2.1 功耗建模问题

作为处理器芯片开发中的主要挑战与优化目标, 需要在设计阶段尽早地对功耗进行建模和估计,以 便对不同设计方案进行探索决策.在这种情况下,功 耗模型需要具备对不同硬件设计,以及所运行的不 同工作负载进行精确建模的能力,并助力设计空间 探索和优化.

功耗通常指集成电路在单位时间内所消耗的能量,即所需的电源功率.一般而言,集成电路的总功耗P包含3个主要部分:开关功耗(switching power)、短路功耗(short circuit power)和漏电功耗(leakage power),由式(1)给出:

$$P = \alpha C V_{\rm dd}^2 f_{\rm clk} + \alpha E_{\rm S} f_{\rm clk} + V_{\rm dd} I_{\rm leak}.$$
 (1)

式(1)中第1项为开关功耗,是指电路单元在驱动外部电容性负载切换状态时进行充放电所消耗的能量/功率,也称为翻转功耗或者狭义的动态功耗.开关功耗与总负载电容(*C*)、电源电压(*V*<sub>dd</sub>)、时钟频率(*f*<sub>ek</sub>)和活动因子(*a*)成正比,其中*a*通常为每个周期的平均开关次数.

式(1)中第2项为短路功耗,是指电路切换期间 PMOS 管和 NMOS 管同时打开形成的短路电流以及 单元内部电容充放电所引起的内部功耗(internal power),内部能量通常以脉冲形式耗散. *E*s为每个开 关操作的短路能量、*f*<sub>ck</sub>为时钟频率,α为活动因子.

式(1)中第3项为漏电功耗.晶体管实际上只能 充当"不完美"开关,当未发生状态切换时,通过晶体 管的漏电流仍然会产生漏电功耗.漏电功耗取决于 漏电流(*I*<sub>leak</sub>)和电源电压(*V*<sub>dd</sub>).漏电流主要包括晶体 管沟道和栅极之间的栅极漏电流,漏极和源极之间 的亚阈值漏电流,以及漏极和衬底之间的反向偏置 电流.随着晶体管特征尺寸和氧化物厚度的缩小,漏 电功耗愈发不可忽视.

开关功耗和短路功耗均是电路开关活动导致的, 可将两项之和称为广义的动态功耗(dynamic power); 而漏电功耗与电路活动无关,不依赖于开关切换,相 对保持恒定,也可称之为静态功耗(static power).通 常而言,在数字电路中,动态功耗为总功耗的主要来 源,但随着特征尺寸的持续缩小,漏电流所导致的漏 电功耗持续增长,并导致了登纳德缩放定律的崩溃, 成为了先进制程发展中的极大阻碍.

## 2.2 相关功耗建模方法

在传统设计流程中,作为黄金标准的功耗估计通常 是由门级商业分析工具,例如 PrimeTime PX(PTPX)<sup>[22]</sup> 完成的,这需要以长时间的门级设计及仿真为代价, 并且只能在设计流程的较晚阶段使用,难以辅助处 理器芯片的跨层优化.

为了避免门级功耗分析的高昂成本,研究人员 尝试在更高的抽象层次(即更早的设计阶段)进行功 耗建模.一般而言,越在后期设计阶段进行的功耗建 模会越精确,但相应的建模成本也会大幅度提高.图4 对用于不同抽象层次的功耗建模工作进行了统计, 根据是否需要 RTL 实现和仿真,可以将现有功耗建 模方法分为:微架构级和 RTL/门级.一般而言,门级 商业分析工具给出的估计结果被认为是黄金标准值, 其他门级功耗模型的误差在 1%~5%; RTL 级模型通 常依赖于仿真波形信号,能够实现较为精确的细粒 度功耗估计,误差范围为 1%~10%; 而微架构级模型 通常只能利用架构级的有限信息对不同粒度的平均 功耗进行估计,误差范围为 2%~20%.

#### 2.2.1 微架构功耗建模

在整个设计流程中,微架构级别的功耗建模和 优化有难以替代的优势,这是因为系统级别的功耗 优化技术往往能够实现较高的节能收益.文献[23] 的研究显示,电源关断(power shut off, PSO)技术可以 实现约 95%的漏电功耗优化,动态电压频率调节 (dynamic voltage and frequency scaling, DVFS)可以带来 30%~60%的动态功耗节省,多电压域(multiple supply voltage, MSV)架构则可以带来约 40%的功耗优化. 在主流的设计流程,如 UPF(unified power format)设计 流程,首先需要在微架构阶段进行定义,并由综合工 具完成低功耗单元(如 isolation cells, level shifter cells) 的实现,且要求在后端设计中使用特殊的电源管理 库文件(PMK Kits).显然,快速精确的微架构功耗模 型成为开发系统级功耗优化技术的关键前提,使其 成为十分典型且亟需解决的跨层优化问题.

在微架构层面, 功耗模型通常只能基于有限的 微架构设计参数和性能仿真信息等来对不同时间粒 度的平均功耗进行建模.由于无需 RTL 开发和仿真, 微架构级的功耗建模通常具有极快的建模速度, 以 及较高的通用性和可扩展性, 但由于难以获得详细 的后端电路实现细节,导致建模精度较低.

最为普遍使用的是各类架构级解析功耗模型[24-26], 它们试图建立不同的硬件表示和库函数,并使用来 自性能模拟器[27-30]的事件统计信息获得最终的功耗 估计. Wattch<sup>[24]</sup> 根据微架构组件的电容模型和架构模 拟获得的开关事件计算动态功耗. CACTI<sup>[25]</sup>使用 ITRS 器件模型和 MASTAR<sup>[31]</sup>获得不同工艺节点下 的器件参数,重点支持基于 SRAM 和 DRAM 的缓存 和内存阵列. PowerTimer<sup>[32]</sup>使用一组参数化的能量函 数对微架构性能模拟中的分层组件进行功耗建模. Orion<sup>[33]</sup> 是一种用于估计片上网络功耗的工具, 使用 重复布线模型进行互连,并使用 MASTAR 和其它方 法根据 ITRS 获得器件参数. McPAT<sup>[26]</sup> 基于 ITRS 预 测的 CMOS 器件参数,支持 90~22 nm 节点下多核处 理器的功耗、面积和时序建模,提供了从架构级别到 工艺级别的完整层次式模型. McPAT 具备高度的灵 活性和可扩展性,被广泛应用于处理器架构设计,但 由于其内部模型与实际设计之间的错位,其建模误 差高达 20%~40%<sup>[34-35]</sup>,且缺乏对先进工艺节点的支持. McPAT-PVT<sup>[36]</sup>和 McPAT-Monolithic<sup>[37]</sup>分别将 McPAT



图 4 处理器功耗建模方法对比

扩展到 20 nm 和 14 nm FinFET 工艺节点,但并没有完全解决精度不足的问题. Ravipati 等人<sup>[38]</sup>提出了 FN-McPAT,集成了 FinFET 工艺下 BOOM 内核的综合结果,以支持 14 nm FinFET 及 NC-FinFET(负电容鳍式场效应晶体管)工艺. Van den Steen 等人<sup>[39]</sup>提出了独立于微架构的机理模型完成处理器的功耗建模,从而加速大规模设计空间探索. Park 等人<sup>[40]</sup>在更高的指令级别下进行建模,用于创建多个粒度级别的处理器功耗模型,从而快速映射到电子系统设计流程. 2.2.2 RTL/门级功耗建模

RTL/门级功耗模型需要进行 RTL 或门级网表设 计和仿真,其通常是基于仿真所得的波形信号所建 立的.在 RTL 层次, PowerArtist<sup>[41]</sup>和 PowerPro<sup>[42]</sup>等行 业工具可以提供粗粒度的 RTL 总功率估计. Bogliolo 等人[43]使用基于回归的方法支持以更小的粒度构建 功耗模型,但以有限的精度为代价.PrEsto<sup>[44]</sup>使用线 性模型通过 FPGA 加速来描述不同的电路模块. Yang 等人<sup>[45]</sup> 使用基于奇异值分解的特征选择技术来 构建线性功耗模型. PRIMAL<sup>[46]</sup>使用卷积神经网络来 处理寄存器切换活动,为可重复使用的电路构件的 功耗进行建模. Simmani<sup>[47]</sup>使用 VCD dump 来构建 一个切换模式矩阵,并通过聚类选择关键信号来构 建功耗模型,能够提供更高精度的 RTL 功耗估计. GRANNITE<sup>[48]</sup> 将门级网表转换为图,并将 RTL 仿真 中的寄存器状态和单元输入作为特征来构建图形神 经网络模型,以预测门的切换率和平均功耗. APOLLO<sup>[49]</sup> 使用基于 MCP(minimax concave penalty)正则的线性 回归实现特征选择,从而使用少量 RTL 信号来完成 逐周期的功耗建模,以用作设计时功耗估计器和运 行时片上功耗监控器. Fang 等人<sup>[50]</sup> 提出了一种用于 RTL设计的综合前 PPA 估计框架 MasterRTL,首先 将 HDL 代码转换为简单运算符图的 bit 级表示形式, 在时序建模中捕获详细关键路径信息,并在功耗建 模中集成切换率和模块级信息,从而实现对布局后 PPA 值的精确预测.

RTL/门级功耗模型依赖于更详细的硬件细节和 仿真波形,能够实现相对较高的建模精度,甚至能够 实现逐周期的精确建模.尽管如此,2个关键缺点导 致这些模型难以应用于早期的微架构设计阶段: 1)详细的逻辑设计和仿真需要投入高昂的人力和时 间成本,且速度较慢,在早期微架构设计阶段难以使 用;2)由于不同设计的硬件网表和仿真波形差别较 大,导致所得的功耗模型大多是特定于硬件设计的, 在不同的处理器设计间进行迁移面临挑战.

# 2.3 机器学习辅助微架构功耗建模

随着 AI 领域的飞速发展, 机器学习模型的强大 建模能力为早期阶段的精确指标评估提供了可能. 截止目前, 研究人员已经开发出基于各类统计学习或 机器学习的建模方法, 实现了更加精确的微架构功 耗模型, 为处理器芯片的跨层优化提供了有效工具.

早期工作<sup>[51]</sup>使用微架构设计参数进行统计回归 建模来辅助设计空间探索,但由于缺乏与工作负载 相关的事件统计等信息,难以准确地对不同的工作 负载程序进行建模.

基于微架构仿真事件的设计时功耗模型<sup>[52]</sup>和基 于性能监视计数器(performance monitoring counter, PMC)的运行时功耗模型<sup>[53-55]</sup>则被更加广泛地使用. Jacobson 等人<sup>[52]</sup>使用相对较少的程序事件来进行功 耗建模.Bircher等人<sup>[53]</sup>利用了处理器性能事件的"涓 滴效应",进而确定了6个PMC事件对整个系统功耗 进行回归建模. Walker 等人<sup>[54]</sup>建立了一个运行时功 耗模型,并通过自动选择最佳的 PMC 事件来实现静 态功耗和动态功耗的分离. Sagi 等人<sup>55]</sup>使用非线性 变换来捕捉 PMC 事件和功耗值之间的关系,并使用 最小角度回归来完成多变量的多项式功耗回归建模. Lebeane 等人<sup>[56]</sup>提出了 WattWatcher, 通过将性能事件 计数和硬件描述文件传递到基于 McPAT 的可配置 后端模型中,从而进行运行时功耗监控.如图5所示, Reddy 等人<sup>[57]</sup> 将基于 PMC 的运行时经验模型<sup>[53]</sup> 转化 为设计时微架构功耗模型,并与 gem5 模拟器<sup>[29]</sup>相结 合,从而实现了用于早期阶段的设计时功耗建模.然 而,机器活动所产生的事件信息通常与具体硬件配 置密切相关,导致这些功耗模型多是特定于硬件设 计的,难以对新型目标处理器做出良好预测.





Ipek 等人<sup>[58-59]</sup>利用人工神经网络(artificial neural network, ANN)来捕获架构参数和性能/功耗之间的关系,以此构建准确的预测模型促进设计空间探索.此外,为了减少所需采样架构的数量以构建满足特定精度约束的预测模型,使用智能采样来实现高效的训练过程.他们在内存系统、处理器、芯片级多核处理器上验证了其方法的有效性.

如图 6 所示, Kumar 等人<sup>[60]</sup> 从周期精确的微架构 仿真中获得高级活动信号, 例如每个模块的数据信 号、控制信号、混合信号, 并基于不同输入信号执行 特征选择和特征工程, 然后使用非线性回归模型对 不同微架构模块构建功耗模型, 从而形成分层组合 的完整处理器功耗模型. 在实验中, 他们使用 Verilator 工具<sup>[61]</sup> 从处理器的 RTL 描述生成周期精确的 C++模 型, 并在有序执行的 RI5CY 处理器<sup>[62]</sup> 和乱序执行的 BOOM 处理器上进行了验证.

由于其易用性和就绪性,解析功耗模型 McPAT 受到了广泛欢迎,但其建模误差愈发难以接受.如 图 7 所示,为了提高建模精度,PowerTrain<sup>[35]</sup>基于来 自真实硬件的功耗测量结果,使用带有 L<sub>1</sub> 正则的线 性回归来重新加权 McPAT 中每个组件的估计功耗, 从而提供更加精确的运行时功耗估计.

Zhai 等人<sup>[63-64]</sup>提出了一种将解析建模与机器学 习校准相结合的微架构功耗建模框架 McPAT-Calib, 其建模流程如图 8 所示.首先对经典解析模型 McPAT 进行底层改进,然后确定了包含微架构设计参数、活 动统计信息、解析功耗建模结果在内的广泛建模特 征,并使用自动特征选择和非线性回归等机器学习 方法做进一步校准,还设计了一种主动学习采样方 法 PowerGS 来降低机器学习模型对标记数据规模的



Fig. 7 Illustration of PowerTrain<sup>[35]</sup> 图 7 PowerTrain 示意图<sup>[35]</sup>



Fig. 8 Flowchart of McPAT-Calib framework<sup>[64]</sup> 图 8 McPAT-Calib 框架流程图<sup>[64]</sup>

需求,从而以较低代价实现建模精度和通用性的提升.Zhai等人使用 BOOM 处理器的 15 种微架构配置和 80 种负载程序进行了验证.

Zhang 等人<sup>[65]</sup>得出了统一现有架构级功耗模型 的通用公式及 PANDA 框架.如图 9 所示, PANDA 框 架结合了解析模型和机器学习模型的优点, 在训练 数据有限的情况下准确地预测功耗、面积、性能, 该 框架不依赖于特定解析功耗模型, 并支持对未知新 工艺节点的预测. PANDA 框架中, 每个组件的 PPA 预测模型由 2 个子模型组成, 其中非斜线部分表示 解析性的资源函数模型, 斜线部分则表示机器学习 模型. 该框架也在 BOOM 处理器上进行了验证.



Fig. 9 Illustration of PANDA framework<sup>[64]</sup> 图 9 PANDA 框架示意图<sup>[64]</sup>

如图 10 所示,为了提高基于机器学习的微架构 功耗模型的可迁移性,Zhai等人<sup>[66]</sup>提出了一种基于 神经网络和迁移学习的微架构功耗建模方法.首先, 根据先验知识设计基于 ANN 的微架构功耗模型,然 后使用跨域混合生成接近于目标分布的辅助样本, 并利用改进的域对抗训练完成知识迁移和模型构建. 在 BOOM 处理器不同微架构配置上的迁移实验证明 了该方法的有效性.

Wang 等人<sup>[67]</sup>探索了跨工作负载的可迁移性,提 出了一种迁移学习设计空间探索框架 TrEnDSE 来 执行跨工作负载的性能预测.首先,利用 Wasserstein 距离量化工作负载之间的黑盒可迁移性,并作为 初始样本权重,设计了可迁移性感知的迁移学习算 法自适应调整样本权重;此外,使用了集成装袋 (bagging)学习模型和不确定性驱动的迭代优化方法, 以利用这些样本权重来执行准确且鲁棒的性能和功 耗预测.

如图 11 所示, Li 等人<sup>[68]</sup>提出了一种基于图神经 网络的 PPA 估计框架 NoCeption,用于具有任意不规 则拓扑和可变设计参数的片上网络(network on chips, NoC)的快速预测.他们采用一种通用表示方法将 NoC 和应用任务图转换为属性图,并使用消息传递 神经网络(message passing neural network, MPNN)转 换为有效的图嵌入特征,从而实现 NoC 的 PPA 预测.

# 2.4 小 结

总的来说,在微架构设计阶段前瞻性地进行功 耗估计有利于实现跨层优化、提升设计质量和效率. 然而,由于处在较高的抽象层次,微架构设计阶段难



Fig. 10 Transfer learning-based microarchitecture power modeling flow proposed by Zhai et al.<sup>[65]</sup>
 图 10 Zhai 等人<sup>[65]</sup>提出的基于迁移学习的微架构功耗建模流程



以捕获详细的硬件细节,给功耗建模带来了极大挑 战.为了导出数学上可用的预测模型,解析性功耗模 型通常需要做出很多假设,且往往与特定的处理器 架构高度耦合,导致通用性较差、建模精度较低,限 制了解析模型的应用.在这种情况下,各类机器学习 模型被广泛应用微架构阶段的功耗及其他指标估计. 一般而言,基于机器学习的建模方法具有更好的特 征提取和函数拟合能力,能够更好地捕捉复杂非线 性关系,在估计精度上有可观的提升.

表1从使用阶段、适用范围、建模特征、建模方 法及模型误差等方面总结了机器学习辅助的微架构 功耗建模方法.通过分析可以给出常见的功耗建模 流程,大致包含4个步骤,即数据采集、特征选择、模 型构建和功耗估计.如何采集合适的训练数据、选择 最佳的建模特征,并设计精确鲁棒的功耗模型是上 述工作的重点,如图12所示.

未来,除了进一步提高功耗模型的建模精度、速 度外,在数据获取、模型可迁移性、可解释性等方面 仍需要进一步研究.同时,机器学习模型的训练、推 理成本不应抵消在设计早期进行功耗估计的速度优 势,因此需要开发低复杂度、高精度、低成本的专用 学习模型.



图 12 功耗建模一般流程

# 3 微架构设计空间探索

VLSI的设计总是面临着诸多挑战,因为必须满 足一系列严格且相互冲突的设计目标.设计空间探 索已经成为计算机系统设计过程中的基本问题之 一<sup>[69]</sup>.例如,集成电路的进步显著增加了处理器的复 杂性,并产生了大量需要决定的设计参数,例如缓存 大小、重排序缓冲区大小等,设计人员需要对不同的 微架构设计方案进行探索和比较,从而确保最终处 理器能够满足各项设计需求.本节将介绍设计空间 探索问题、相关探索方法,重点在于机器学习辅助微 架构设计空间探索并进行小结.

#### 3.1 设计空间探索问题

处理器芯片开发通常需要同时考虑多个优化目标,包括性能、功耗、成本等.由于设计目标通常是 冲突的,因此不可能存在一个同时优化所有目标的 最优解决方案.以图2所示的 BOOM 处理器为例,经

| 模型/文献                          | 使用阶段 | 适用范围         | 建模特征      | 建模方法      | 模型误差      |  |  |
|--------------------------------|------|--------------|-----------|-----------|-----------|--|--|
| PowerTrain <sup>[35]</sup>     | 运行时  | 不同微架构、不同负载   | PMC+硬件描述  | 线性回归      | 约 2%      |  |  |
| WattWatcher <sup>[56]</sup>    | 运行时  | 不同微架构、不同负载   | PMC+硬件描述  | 线性回归      | 平均 2.67%  |  |  |
| 文献 [53]                        | 运行时  | 单一微架构、不同负载   | РМС       | 线性回归      | <9%       |  |  |
| 文献 [54]                        | 运行时  | 单一微架构、不同负载   | РМС       | 线性回归      | 2.8%~3.8% |  |  |
| 文献 [55]                        | 运行时  | 单一微架构、不同负载   | РМС       | 非线性回归     | 平均 6.8%   |  |  |
| 文献 [51]                        | 设计时  | 不同微架构        | 微架构设计参数   | 非线性回归     | 中位 5.4%   |  |  |
| 文献 [52]                        | 设计时  | 单一微架构、不同负载   | 仿真活动统计    | 线性回归      | 约 2.5%    |  |  |
| 文献 [57]                        | 设计时  | 单一微架构、不同负载   | 仿真活动统计    | 线性回归      | 平均 5.9%   |  |  |
| 文献 [58-59]                     | 设计时  | 不同微架构        | 微架构设计参数   | 神经网络      | <2%       |  |  |
| 文献 [60]                        | 设计时  | 单一微架构、不同负载   | 外部输入信号    | 机器学习模型    | 约 3.6%    |  |  |
| McPAT-Calib <sup>[63-64]</sup> | 设计时  | 不同微架构、不同负载   | 架构参数、活动统计 | 解析模型+机器学习 | 3%~6%     |  |  |
| PANDA <sup>[65]</sup>          | 设计时  | 不同微架构、不同负载   | 架构参数、活动统计 | 解析函数+机器学习 | 2%~8%     |  |  |
| 文献 [66]                        | 设计时  | 不同微架构、不同负载   | 架构参数、活动统计 | 神经网络+迁移学习 | 平均 4.4%   |  |  |
| TrEnDSE <sup>[67]</sup>        | 设计时  | 不同微架构、跨负载    | 架构参数      | 集成模型+迁移学习 | <1%       |  |  |
| NoCeption <sup>[68]</sup>      | 设计时  | 不同 NoC 配置及拓扑 | 架构参数      | 图神经网络     | 约 2.5%    |  |  |

 Table 1 A Summary of Machine Learning-Assisted Methods for Microarchitecture Power Modeling

 表 1 机器学习辅助的微架构功耗建模方法总结

过微架构设计参数的抽取、合法化以及简化后,可形成如表2所示的微架构设计空间,其规模超过10<sup>8</sup>.显然,在如此庞大的设计空间内探索最优设计面临极大挑战.

| Table 2 | Microarchitecture Design Space of BOOM |
|---------|----------------------------------------|
|         | 表 2 BOOM 的微架构设计空间                      |

| 模块     | 组件参数             | 描述             | 备选值                   |
|--------|------------------|----------------|-----------------------|
| 前端     | FetchWidth       | 一次性可取回指令数      | 4,8                   |
|        | FetchBufferEntry | 1 取指缓冲条目数      | 8, 16, 24, 32, 35, 40 |
|        | RasEntry         | 返回地址堆栈条目数      | 16,24,32              |
|        | BranchCount      | 同时推测分支数        | 8, 12, 16, 20         |
|        | ICacheWay        | ICache 组相连数    | 2,4,8                 |
|        | ICacheTLB        | ICache 地址翻译缓冲路 | 8,16,32               |
|        | ICacheFetchByte  | s ICache 行容量   | 2,4                   |
|        | DecodeWidth      | 一次性最多解码指令数     | 1,2,3,4,5             |
| 北へ鼦矼畄긒 | RobEntry         | 重排序缓冲条目数       | 32,64,96,128,130      |
| 旧マ肝吗牛儿 | IntPhyRegister   | 整型寄存器数         | 48,64,80,96,112       |
|        | FpPhyRegister    | 浮点型寄存器数        | 48,64,80,96,112       |
| 执行单元   | MemIssueWidth    | 存储型指令发射宽度      | 1,2                   |
|        | IntIssueWidth    | 整型指令发射宽度       | 1,2,3,4,5             |
|        | FpIssueWidth     | 浮点型指令发射宽度      | 1,2                   |
| 加载存储单元 | LDQEntry         | 加载缓冲条目         | 8,16,24,32            |
|        | STQEntry         | 存储缓冲条目         | 8, 16, 24, 32         |
|        | DCacheWay        | D-Cache 组相联数   | 2,4,8                 |
|        | DCacheMSHR       | 缺失状态处理寄存器数     | 2,4,8                 |
|        | DCacheTLB        | DCache 地址翻译缓冲路 | 8,16,32               |

设计空间探索通常可以形式化为一个带约束的 多目标优化问题.给定一组m个决策变量,即探索自 由度,适应度函数须优化n个目标值,其定义为:

$$f_i: R^m \to R^1, \tag{2}$$

其中,适应度函数 $f_i$ 将解空间X中的点转换为第i个目标值,比如性能、功耗,潜在解 $x \in R^m \in m$ 个决策变量的赋值.适应度函数的组合f(x)可以将解空X中的一个点映射到目标空间Y中.在满足k个设计约束的前提下,使用n个适应度函数 $f_i$ 来确定m个决策变量的解x,以最小化n个优化目标值,即:

$$\min_{\mathbf{x}} \mathbf{y} = f(\mathbf{x}) = (f_1(\mathbf{x}), f_2(\mathbf{x}), \cdots, f_n(\mathbf{x})), 
s.t. g_i(\mathbf{x}) \ge 0, i \in [1, k_1], 
h_j(\mathbf{x}) = 0, j \in [1, k_2],$$
(3)

其中 $\mathbf{x} = (x_1, x_2, \dots, x_m) \in X$ ,  $\mathbf{y} = (y_1, y_2, \dots, y_n) \in Y$ ; 且 $k = k_1 + k_2$ ,  $g_i(\mathbf{x}) \pi h_j(\mathbf{x}) \mathcal{O}$ 别代表第 $i \pi \pi j \mathcal{O}$ 设计约束. 对于单目标优化问题,不同解的比较是非常直观的, 更好的适应度(即目标值)意味着更好的设计方案. 但对于多目标优化问题,不同解的比较变得非常复 杂,因为涉及到多个目标值间的比较和权衡,从而对 探索和优化方法提出了更高要求.

# 3.2 相关设计空间探索方法

在处理器开发的早期阶段,需要对微架构组件 的组织和组合进行探索决策,以实现 PPA 指标之间 的良好权衡,由此产生了微架构设计空间探索问题. 在工业界,微架构设计空间探索通常是依靠架构师 经验和软件模拟<sup>[27-30]</sup>来完成的.通过处理器架构师 的专家知识对设计空间进行修剪,然后选择有限的 候选设计在模拟器上进行仿真和比较权衡.然而,随 着微架构设计变得越来越复杂,参数空间越来越庞大,这 种方法愈发难以满足现代处理器的设计需求.此外, 由于模拟器和真实设计之间的差异以及不同设计阶 段之间的设计鸿沟问题,所产生的仿真和建模误差 以及人工偏见往往导致次优的解决方案.学术界已 经提出了各种方法来加速微架构设计空间探索,这 些方法可以分为解析方法和基于机器学习的黑盒方法.

解析方法旨在构建轻量级的可解释模型,用函 数公式描述微架构设计/工作负载与设计目标之间的 关系,从而辅助设计空间剪枝或实现快速探索。 Karkhanis 等人<sup>[70]</sup> 通过一阶模型获得超标量处理器的 性能估计,该模型结合了从功能级模拟中收集的缓 存和分支预测器统计数据.进一步地,Karkhanis等 人[71] 提出了一个由性能和能量活动模型以及基于模 型的优化过程组成的分析框架,用以得出帕累托最 优解的设计参数. RpStacks<sup>[72]</sup>有选择地从仿真中收集 关键性能事件,建立一些描述执行路径延迟的事件 栈,并估计整体性能以及失速事件构成.解析方法通 常需要大量的专家知识来构建轻量级模型,且精度 有限、可迁移性差,难以处理不同设计下的大量设计 点. Bai 等人<sup>[73]</sup> 通过自动瓶颈分析来规避领域知识要 求,并提出了由新的微执行图表述、最佳关键路径构建 算法和硬件资源重新分配策略组成的 Arch-Explorer 探索框架.

#### 3.3 机器学习辅助微架构设计空间探索

构建解析模型需要大量的专业知识,且难以扩展到新型处理器.当专家知识难以获取时,数据驱动的机器学习方法被引入.与解析方法不同,基于机器 学习的方法构建数据驱动的学习模型来表征设计空间,并进行基于学习的探索和优化,由于具有更好的预测和搜索能力,通常优于基于解析的探索方法.

早期工作将设计空间探索表述为回归问题,通过各类学习模型预测给定处理器架构配置的 PPA 响应,并基于 PPA 预测值进行决策优化. Lee 等人<sup>[51]</sup>将设计空间采样和统计学习结合起来,无需详尽的模拟就能获得变化趋势,从而在设计空间探索中实现新的功能. Ipek 等人<sup>[58-59]</sup>利用 ANN 来捕获硬件架构参数和 PPA 指标之间的关系,以此构建准确的预测模型直接进行设计空间探索. Dubach 等人<sup>[74]</sup>使用以架构为中心的方法,通过将离线训练的先验知识应用于各种基准程序,从而预测整个微架构配置空间的性能和能耗.

如图 13 所示, Chen 等人<sup>[75]</sup>提出了 ArchRanker 探 索框架, 他们将设计空间探索问题转换为排名问题, 通过训练 RankBoost 学习模型<sup>[76]</sup>来预测 2 种架构配 置中哪一种的性能最佳, 从而确定整个设计空间中 较优的架构设计. 在单核和多核设计场景上的实验 表明, 相比于基于 ANN 回归模型的方法<sup>[59]</sup>, 该排名模 型需要更少的训练仿真时间.



Fig. 13 Illustration of ArchRanker framework<sup>[75]</sup> 图 13 ArchRanker 框架示意图<sup>[75]</sup>

如图 14 所示, Li 等人<sup>[77]</sup>结合了统计采样和 AdaBoost学习技术.首先,采用基于特征选择的正交 阵列(orthogonal array, OA),通过修剪对性能影响较 小的参数以缩小设计空间;其次,引入基于 OA 的训 练数据采样方法来选择代表性配置;最后,提出了一 种主动学习方法 ActBoost 来构建预测模型,并对未 探索设计的性能进行预测.基于 gem5 的实验结果表 明,在固定训练样本规模的情况下,该方法能够实现 更高的预测精度,从而有助于实现高效、精确的设计 空间探索.

如图 15 所示, Bai 等人<sup>[78-79]</sup>提出了一个基于贝叶 斯优化(Bayesian optimization, BO)的自动框架来探 索 BOOM 微架构设计,称为 BOOM-Explorer,实现了 较高的探索质量和效率.首先,该框架利用先进的微 架构感知主动学习 MicroAL 算法来生成多样化且具 有代表性的初始设计集;其次,建立具有深度核学习 函数的高斯过程模型 DKL-GP 来表征设计空间;然后, 利用相关多目标贝叶斯优化来探索帕累托最优设计, 通过引入帕累托超体积期望提升来处理负相关的多 目标(性能和功耗)优化;最后,提出了多样性引导的 并行探索策略,并与批量贝叶斯优化流程相结合.该 框架在 BOOM 处理器的微架构设计空间探索中展现 了较高的性能,并给出了如表 3 所示的具体参数选 择,其微架构参数取值与表 2 相对应.









然而, 微架构设计空间并不平滑, 设计参数的微 小改动有可能引起设计指标的较大波动, 这与 GP 模 型的先验假设并不完全相符.因此, 如图 16 所示, Bai 等人<sup>[80]</sup>将微架构设计空间探索形式化为一种多 目标强化学习问题, 利用微架构缩放图<sup>[81]</sup>将专家经 验与强化学习方法紧密结合, 使用智能代理(agent) 依次确定各组件设计,并将架构师的设计偏好嵌入 到方法论中,还使用轻量化的 PPA 评估框架构,建强 化学习环境以加速收敛. Bai 等人<sup>[16]</sup>在 Rocket 处理器 和 BOOM 处理器上验证了该方法的有效性.

Zhai 等人<sup>[82]</sup>则提出了一种帕累托驱动的主动学 习方法,该方法结合参数重要性的先验知识自动选 择更具代表性的初始设计,通过在迭代探索中构建 基于树集成模型的动态性能和功耗模型,优先探索 具有较大超体积贡献的预测帕累托设计,并允许接 受较差的帕累托解来克服模型预测误差,同时使用 并行策略来加速探索.

如图 17 所示, Yu 等人<sup>[83]</sup>提出了一种基于迁移学 习的探索框架 IT-DSE,其代理模型经过预训练,可以 吸收以往微架构设计任务中的知识.他们将 Feature Tokenizer-Transformer(FT-Transformer)作为特征提取 的骨干模型,以允许对具有不同设计空间的多个源 任务进行预训练;同时,使用不变风险最小化(invariant

 Table 3 Design Parameters Selectivity of Different Microarchitecture for BOOM Processors

 表 3 BOOM 处理器的不同微架构设计参数选择

| 方法                            | 微架构组件配置参数                                                            |  |
|-------------------------------|----------------------------------------------------------------------|--|
| 原始两发射 BOOM <sup>[14-15]</sup> | {4, 16, 32, 12, 4, 8, 2, 2, 64, 80, 64, 1, 2, 1, 16, 16, 4, 2, 8}    |  |
| BOOM-Explorer <sup>[78]</sup> | $\{4, 16, 16, 8, 2, 8, 2, 2, 32, 64, 64, 1, 3, 1, 24, 24, 8, 4, 8\}$ |  |
| BOOM-Explorer <sup>[79]</sup> | {4, 16, 16, 8, 4, 8, 2, 2, 32, 64, 64, 1, 3, 1, 24, 24, 8, 4, 8}     |  |









risk minimization, IRM)来增强学习模型在不同数据 分布差异下的泛化能力;最后,利用多目标贝叶斯优 化和预训练模型来探索帕累托最优设计.

Yi 等人<sup>[84]</sup>提出了一种基于图嵌入的微架构搜索 框架 GRL-DSE. 如图 18 所示, GRL-DSE 使用一种有 向无环图(directed acyclic graph, DAG)模型<sup>[85]</sup>来表示 处理器微架构硬件组织和参数关系;其次,利用图表 示学习来提取关键微架构特征并构建紧凑且连续的 图嵌入空间,并使用变分图自动编码器(variational graph auto-encoder, VGAE)框架训练图神经网络模型; 最后,使用基于集成学习策略的代理模型完成多目 标贝叶斯优化,从而在图嵌入空间中进行微架构设 计空间探索.该方法同样在 BOOM 处理器上进行了 验证.



Fig. 18 Training methods of microarchitecture DAG and  $VGAE^{[84]}$ 

图 18 微架构 DAG 和 VGAE 的训练方法<sup>[84]</sup>

Wang 等人<sup>[86]</sup>使用集成模型进行高精度预测,以 及一种上置信界超体积提升优化方法来逼近帕累托 最优集,并提出了帕累托感知的过滤算法来减少探 索时间.进一步地,Wang 等人<sup>[87-88]</sup>通过集成学习增 强模型 AdaGBRT 生成基于帕累托排序的样本权重 以提高预测准确性,然后提出了一种基于超体积提 升的优化方法来在多个目标之间进行权衡,并结合 均匀性感知选择算法来跳出局部最优.

Esmaeilzadeh 等人<sup>[89]</sup>为硬件加速深度神经网络 (DNN)和非 DNN ML 算法提出了一种物理设计驱动、

基于学习的预测框架.该框架采用统一的方法,将后端 PPA 分析与前端性能仿真相结合,从而实现对后端 PPA、运行时间和能耗等系统指标的实际估计,通过 自动搜索架构和后端参数来优化物理设计和系统指标.

Chen 等人<sup>[90]</sup>提出了一种以 DNN 加速器为主要 目标的探索框架 SoC-Tuner,用于高效探索片上系统 (system on chip, SoC)配置的帕累托最优集.该框架提 出了一种基于重要性的 SoC 设计空间剪枝和探索初 始化方法,并设计了一种采样算法来选择最具代表 性的初始化点,以及一种信息增益引导的多目标优 化方法,从而平衡 SoC 设计的多个设计指标.该方法 在由 Rocket/BOOM 处理器、Gemmini 加速器<sup>[91]</sup>等组 成的 SoC 设计上进行了验证.

此外,为促进相关领域的发展,ICCAD 2022 举办 了以处理器微架构设计空间探索为主题的竞赛<sup>[92]</sup>.该 比赛创建了一个包含 15 633 个不同 BOOM 微架构的 数据集,并提供了设计空间探索算法基准测试平台, 吸引了来自全球各地 166 个队伍的参与,在线比赛系 统<sup>[93]</sup>也将长期维护下去.

#### 3.4 小 结

在微架构设计阶段进行广泛的探索优化,有利 于推动处理器设计收敛于全局最优,并减少设计迭 代、降低开发成本,是实现处理器芯片跨层优化的重 要途径.然而,设计空间的复杂庞大、PPA 指标评估 的不准确性,以及复杂耗时的设计验证流程使得微 架构设计空间探索面临极大挑战.在这种情况下,各 类机器学习模型被用于 PPA 预估,贝叶斯优化、主动 学习、强化学习等机器学习方法被用于探索最优设 计.得益于机器学习技术强大的建模和搜索能力,上 述机器学习辅助的探索方法在很多情况下更加快速 地获得了更好的微架构设计.

表4从探索目标、探索方法及 PPA 数据来源等 方面总结了机器学习辅助的微架构设计空间探索工 作.总的来说,机器学习辅助设计空间探索的一般流 程如图 19 所示.对于给定的设计空间,初始化方法一

| 方法/文献                            | 探索目标               | 探索方法                         | PPA 等数据来源                  |
|----------------------------------|--------------------|------------------------------|----------------------------|
| 文献 [51]                          | 帕累托前沿、流水线深度以及异构性分析 | 设计空间采样、统计学习                  | Turandot 仿真器、PowerTimer 工具 |
| 文献 [58-59]                       | 设计空间的预测模型          | 使用 ANN 建模遍历子空间               | SESC 仿真器、CACTI 等           |
| 文献 [73]                          | 设计空间的预测模型          | 使用 ANN 和线性回归建模遍历子空间          | 仿真器、Wattch、CACTI 等         |
| ArchRanker <sup>[75]</sup>       | 特定目标下最优设计          | 基于 RankBoost 排名模型遍历子空间       | 仿真器、Wattch、CACTI等          |
| 文献 [77]                          | 预测模型及最优设计          | 基于 AdaBoost.RT 模型和正交阵列采样     | gem5 仿真器                   |
| BOOM-Explorer <sup>[78-79]</sup> | 帕累托最优设计            | 基于贝叶斯优化和深度核高斯过程建模            | 商业 EDA 工具                  |
| 文献 [80]                          | 特定偏好下最优设计          | 基于微架构缩放图的强化学习                | 商业 EDA 工具                  |
| 文献 [82]                          | 帕累托最优设计            | 基于集成树建模和主动学习                 | 商业 EDA 工具                  |
| IT-DSE <sup>[83]</sup>           | 帕累托最优设计            | 基于贝叶斯优化、不变风险最小化和 Transformer | 商业 EDA 工具                  |
| GRL-DSE <sup>[84]</sup>          | 帕累托最优设计            | 基于图神经网络、集成模型、贝叶斯优化           | 商业 EDA 工具                  |
| 文献 [86]                          | 帕累托最优设计            | 基于 BagGBRT 和上置信界超体积提升        | 仿真器、McPAT 等工具              |
| MoDSE <sup>[87-88]</sup>         | 帕累托最优设计            | 基于 AdaGBRT 和帕累托超体积提升         | 仿真器、McPAT 等工具              |
| 文献 [89]                          | ML 加速器最优设计         | 机器学习模型、图神经网络、贝叶斯优化           | 商业 EDA 工具                  |
| SoC-Tuner <sup>[90]</sup>        | SoC 帕累托最优设计        | 设计空间剪枝、贝叶斯优化                 | 商业 EDA 工具                  |

 Table 4 A Summary of Machine Learning-Based Methods for Microarchitecture Design Space Exploration

 表 4 基于机器学习的微架构设计空间探索方法总结





次性地选择最具有代表性的初始设计,并依靠 EDA 工具或仿真器进行进行 PPA 评估,进而更新数据集 并训练机器学习模型,然后依靠模型预测和采样策 略进行迭代探索,在探索结束时给出目标设计(集).

未来,如何将微架构领域的专家知识(例如微架 构组织和参数的依赖性等)与机器学习方法紧密结合, 并努力提高探索框架的泛化性和可扩展性仍是需要 进一步探索的问题.除了单纯的设计参数调整外,如 何利用机器学习技术反哺微架构设计,例如使用大 模型辅助微架构设计生成,也是值得研究的问题.

### 4 总结与展望

本文首先回顾了现代处理器设计的主要流程, 以及微架构设计在"后摩尔时代"所面临的建模和优 化挑战.在此基础上,介绍了如何运用机器学习技术 辅助处理器微架构功耗建模和设计空间探索问题, 并就相关的具体工作展开了讨论.

更小、更快、功耗更低的计算设备将是人们永 远追求的目标,随着摩尔定律的进一步放缓,微架构 设计将占有更重要的地位,且面临更加严峻的挑战. 展望未来,以下3个方面依然值得进一步研究:

1)更加快速精细的功耗估计和更高的模型可迁 移性.处理器规模的不断增长和工作负载的多样化, 对建模速度和精度提出了更高要求.现有工作大多 利用各种机器学习技术对微架构设计在较长时间间 隔内的平均功耗进行预测,建模的精细度仍有不足、 建模代价也较为高昂,所得功耗模型的可迁移性不 强.因此,如何利用先验知识降低模型的训练成本, 并进一步提高功耗模型的建模粒度、可迁移性,并降 低建模代价至关重要.对于建模粒度而言,首先需要 精确估计不同工作负载在更短时间粒度内的功率消 耗,并为动态电压频率调整等节能技术的设计提供 参考:其次是更细的硬件粒度,即如何提供不同硬件 层次的精确功耗估计,增强模型可解释性,并将其用 于后续热问题的建模,允许设计人员更有针对性地 进行估计和优化;最后,如何提高模型在多平台、多 领域架构间的可迁移性和功能完善性,并实现对异 质异构集成芯片的精确建模是未来的研究方向.

2)更加高效统一的设计空间探索优化框架.处 理器的规模在不断增长,产生了大量可参数化的微 架构设计参数、EDA工具参数以及诸多难以参数化 的设计策略.因此,如何将微架构探索与整个 EDA 设 计流程内的探索优化相结合,并结合先验知识实现 高维设计空间内全局最优设计的快速探索成为关键. 首先,可以考虑混合使用机器学习模型、软件仿真器 和传统 EDA 设计流程工具进行建模及探索优化,并 设计验证时间感知的调度策略.同时,现有的设计空 间探索工作多是针对静态可参数化空间进行的,如 何有效地对动态的难以量化的设计选项进行探索和 优化也是一个尚未解决的问题.此外,目前的设计空 间探索工具大多是面向特定设计或任务的,如何提 高其在不同设计和工艺节点间的可迁移性,将不同 阶段、不同任务的探索工具整合到一个统一的标准 流程中,真正实现跨层次的全局优化也将是未来的 研究方向.

3)高质量的公开数据集和数据获取方法.得益 于AI领域的飞速发展,机器学习技术能够有效地辅 助相关问题的求解.然而,机器学习模型通常需要大 量的有标记训练数据, 而传统 VLSI 设计流程漫长耗 时,且EDA工具、先进IP核和工艺库需要昂贵的商 业授权,导致缺乏针对相关任务的高质量公开数据, 难以充分验证机器学习模型的泛化能力和迁移能力. 目前已有针对集成电路后端设计等任务的公开数据 集,但针对处理器微架构建模和探索的数据集仍比 较欠缺,多数工作基于私有数据集,或使用开源的处 理器设计自行生成数据集,数据规模小、代表性不强, 阻碍了机器学习技术在相关领域的进一步应用.因 此,如何利用主动学习等技术更加高效地获取数据, 并建立涵盖不同处理器设计和VLSI设计阶段的公 开数据集用于相关算法的设计和评估,也是值得进 一步研究的问题.

考虑到相关算法的快速更新、持续增长的硬件 支持能力,以及不断积累的应用数据,机器学习将与 微架构设计的传统方法更加有机地结合,从而实现 更加精确的建模和更加高效的探索优化.

作者贡献声明: 翟建旺和余备提出了写作思路; 翟建旺、凌梓超和白晨负责调研并撰写论文; 赵康和 余备提出指导意见并修改论文.

#### 参考文献

[1] The State Council. Several policies to promote the high-quality development of integrated circuit industry and software industry in the new era[EB/OL]. [2023-12-25]. https://www.gov.cn/zhengce/content/2020-08/04/content 5532370. htm (in Chinese) (国务院.新时期促进集成电路产业和软件产业高质量发展若干政 策[EB/OL].[2023-12-25].https://www.gov.cn/zhengce/content/2020-08/04/content\_5532370.htm)

- [2] Chen Yunqi, Cai Yimao, Wang Yu, et al. Integrated circuit technology: Future development and key issues-review of the 347th Shuangqing Forum (Youth)[J]. SCIENTIA SINICA Informationis, 2024, 54(1): 1–15 (in Chinese)
  (陈云霁, 蔡一茂, 汪玉, 等. 集成电路未来发展与关键问题——第347 期"双清论坛(青年)"学术综述[J]. 中国科学: 信息科学, 2024, 54(1): 1–15)
- [3] Xiang Chengxiang, Yang Yongan, Penner R M. Cheating the diffraction limit: Electrodeposited nanowires patterned by photolithography[J]. Chemical Communications, 2009, 8: 859–873
- [4] Chaudhry A, Kumar M J. Controlling short-channel effects in deepsubmicron SOI MOSFETs for improved reliability: A review[J].
   IEEE Transactions on Device and Materials Reliability, 2004, 4(1): 99–109
- [5] Thimbleby H. Modes, WYSIWYG and the von Neumann bottleneck[C]//Proc of IEE Colloquium on Formal Methods and Human-Computer Interaction: II. London: IET, 1988: 4/1–4/5
- [6] Zhou Zhihua. Machine Learning[M]. Singapore: Springer Nature Singapore, 2021
- [7] Liang Yun, Zhuo Cheng, Li Yongfu. The shift-left design paradigm of EDA: Progress and challenges[J]. SCIENTIA SINICA Informationis, 2024, 54(1): 121-129 (in Chinese)
  (梁云,卓成,李永福. EDA 左移融合设计范式的发展现状、趋势与 挑战[J]. 中国科学: 信息科学, 2024, 54(1): 121-129)
- [8] Bao Yungang, Chang Yisong, Han Yinhe, et al. Agile design of processor chips: Issues and challenges[J]. Journal of Computer Research and Development, 2021, 58(6): 1131–1145 (in Chinese) (包云岗,常轶松,韩银和,等.处理器芯片敏捷设计方法:问题与挑 战[J]. 计算机研究与发展, 2021, 58(6): 1131–1145)
- [9] Scheffer L, Lavagno L. EDA for IC System Design, Verification, and Testing [M]. FL: CRC Press, Inc, 2018
- [10] Wu C M, Shieh M D, Wu C H, et al. VLSI architectural design tradeoffs for sliding-window log-MAP decoders[J]. IEEE Transactions on Very Large Scale Integration Systems, 2005, 13(4): 439–447
- [11] Brown S, Vranesic Z. Fundamentals of Digital Logic with Verilog Design[M]. Translated by Xia Yuwen, Xu Yuxiao. 2nd. Beijing: China Machine Press, 2008 (in Chinese)
  (Brown S, Vranesic Z. 数字逻辑基础与 Verilog 设计[M]. 夏宇闻, 须毓孝译. 原书第 2 版. 北京: 机械工业出版社, 2008)
- [12] Rudell R L. Logic synthesis for VLSI design[R/OL]. Berkeley, California: University of California, Berkeley, 1989. [2023-12-25]. https://www2.eecs.berkeley.edu/Pubs/TechRpts/1989/1223.html
- [13] Sherwani N A. Algorithms for VLSI Physical Design Automation[M]. New York: Springer Science & Business Media New York, 2013
- [14] Celio C, David A P, Krste A. The Berkeley out-of order machine (BOOM): An industry-competitive, synthesizable, parameterized RISC-V processor[R]. Berkeley, CA: EECS Department, University of California, Berkeley, 2015

- [15] Zhao J, Abraham G. SonicBOOM: The 3rd generation Berkeley out-oforder machine[C]// Proc of 4th Workshop Computer Architecture Research with RISC-V. New York: ACM, 2020:1–7
- [16] Asanovic K, Rimas A, Jonathan B, et al. The rocket chip generator[R]. Berkeley, CA: EECS Department, University of California, Berkeley, 2015
- [17] Chen Chen, Xiang Xiaoyan, Liu Chang, et al., Xuantie-910: A commercial multi-core 12-stage pipeline out-of-order 64-bit high performance RISC-V processor with vector extension: Industrial product[C]//Proc of ACM/IEEE Annual Int Symp on Computer Architecture. New York: ACM, 2020: 52–64
- [18] Xu Yinan, Yu Zihao, Wang Kaifan, et al. XiangShan Open-source high performance RISC-V processor design and implementation[J]. Journal of Computer Research and Development, 2023, 60(3): 476-493 (in Chinese)
  (徐易难, 余子濠, 王凯帆, 等. 香山开源高性能 RISC-V 处理器设计 与实现[J]. 计算机研究与发展, 2023, 60(3): 476-493)
- [19] Bachrach J, Vo H, Richards B, et al. Chisel: Constructing hardware in a scala embedded language[C]//Proc of DAC Design Automation Conf. Piscataway, NJ: IEEE , 2012: 1212–1221
- [20] Winston P H. Artificial Intelligence[M]. London: Addison-Wesley Longman Publishing Co., Inc., 1984
- [21] Rapp M, Amrouch H, Lin Yibo, et al. MLCAD: A survey of research in machine learning for CAD keynote paper[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2021, 41(10): 3162–3181
- [22] Synopsys. PrimeTime[CP/OL]. [2023-12-25]. https://www.synopsys. com/implementation-and-signoff/signoff/primetime.html
- [23] Nesset S R. RTL Power Estimation Flow and Its Use in Power Optimization[M]. Norway: Norwegian University of Science and Technology, 2018
- [24] Brooks D, Tiwari V, Martonosi M. Wattch: A framework for architectural-level power analysis and optimizations[C]//Proc of IEEE/ACM Annual Int Symp on Computer Architecture. New York: ACM, 2000: 83–94
- [25] Thoziyoor S, Ahn J H, Monchiero M, et al, A comprehensive memory modeling tool and its application to the design and analysis of future memory hierarchies[C]//Proc of Int Symp on Computer Architecture. Piscataway,NJ: IEEE, 2008: 51-62
- [26] Li Sheng, Ahn J H, Strong R D, et al. McPAT: An integrated power, area, and timing modeling framework for multicore and manycore architectures [C]//Proc of IEEE/ACM Int Symp on Microarchitecture. New York: ACM, 2009: 469–480
- [27] Burger D, Todd M A. The SimpleScalar tool set, version 2.0[J]. ACM SIGARCH Computer Architecture News, 1997, 25: 13–25
- [28] Alec R, Mircea R S. RISC5: Implementing the RISC-V ISA in gem5[C]//Proc of the 1st Workshop on Computer Architecture Research with RISC-V. Piscataway, NJ: IEEE, 2017: 1–7
- [29] Binkert N L, Dreslinski R G, Hsu L R, et al. The M5 simulator: Modeling networked systems [J]. IEEE Micro, 2006, 26(4): 52–60
- [30] Carlson T E, Heirman W, Eeckhout L. Sniper: Exploring the level of abstraction for scalable and accurate parallel multi-core simulation [C]//Proc of Int Conf for High Performance Computing, Networking, Storage and Analysis. Piscataway, NJ: IEEE, 2011: 1–12

- [31] Semiconductor industries association. model for assessment of CMOS technologies and roadmaps (MASTAR)[EB/OL]. [2023-12-25] https://web.archive.org/web/20130709053354/http://www.itrs.net/mod els.html
- [32] Brooks D, Bose P, Srinivasan V, et al. New methodology for earlystage, microarchitecture-level power-performance analysis of microprocessors[J]. IBM Journal of Research and Development, 2003, 47((5/6): ): 653–670
- [33] Wang Hangsheng, Zhu Xinping, Li-Shiuan P, et al. Orion: A powerperformance simulator for interconnection networks[C]//Proc of IEEE/ACM Int Symp on Microarchitecture. Piscataway, NJ: IEEE, 2002: 294–305
- [34] Xi S L, Jacobson H, Bose P, et al. Quantifying sources of error in McPAT and potential impacts on architectural studies[C]//Proc of IEEE Int Symp on High Performance Computer Architecture. Piscataway, NJ: IEEE, 2015: 577–589
- [35] Lee W, Kim Y, Ryoo J H, et al. PowerTrain: A learning-based calibration of McPAT power models[C]//Proc of IEEE Int Symp on Low Power Electronics and Design. Piscataway, NJ: IEEE, 2015: 189–194
- [36] Tang A, Yang Y, Lee C Y et al. McPAT-PVT: Delay and power modeling framework for FinFET processor architectures under PVT variations[J]. IEEE Transactions on Very Large Scale Integration Systems, 2015, 23(9): 1616–1627
- [37] Guler A, Jha N K. McPAT-Monolithic: An area/power/timing architecture modeling framework for 3-D hybrid monolithic multicore systems[J]. IEEE Transactions on Very Large Scale Integration Systems, 2020, 28(10): 2146–2156
- [38] Ravipati D P, Van S, Victor M, et al. Performance and energy studies on NC-FinFET cache-based systems with FN-McPAT[J]. IEEE Transactions on Very Large Scale Integration Systems, 2023, 31(9): 1280–1293
- [39] Van den Steen S, De Pestel S, Mechri M, et al. Micro-architecture independent analytical processor performance and power modeling[C]//Proc of IEEE Int Symp on Performance Analysis of Systems and Software. Piscataway, NJ: IEEE, 2015: 32–41
- [40] Park Y H, Pasricha S, Kurdahi F J, et al. A multi-granularity power modeling methodology for embedded processors [J]. IEEE Transactions on Very Large Scale Integration Systems, 2010, 19(4): 668–681
- [41] Ansys. PowerArtist[CP/OL]. [2023-12-25]. https://www.ansys.com/ products/semiconductors/ansys-powerartist
- [42] Mentor. PowerPro RTL low-power[CP/OL]. [2023-12-25]. https:// www.mentor.com/hls-lp/powerpro-rtl-low-power/
- [43] Bogliolo A, Benini L, De Micheli G. Regression-based RTL power modeling[J]. ACM Transactios on Design Automation of Electronic Systems, 2000, 5(3): 337–372
- [44] Sunwoo D, Wu G Y, Patil N A. PrEsto: An FPGA-accelerated power estimation methodology for complex systems[C]//Proc of IEEE Int Conf on Field Programmable Logic and Applications. Piscataway, NJ: IEEE, 2010: 310–317
- [45] Yang Jianlei, Ma Liwei, Zhao Kang, et al. Early stage real-time SoC power estimation using RTL instrumentation[C]//Proc of IEEE/ ACM Asia and South Pacific Design Automation Conf. Piscataway,

NJ: IEEE, 2015: 779-784

- [46] Zhou Yuan, Ren Haoxing, Zhang Yanqing, et al. PRIMAL: Power inference using machine learning [C]//Proc of ACM/IEEE Design Automation Conf. New York: ACM, 2019: 1–6
- [47] Kim D, Zhao J, Bachrach J, et al. Simmani: Runtime power modeling for arbitrary RTL with automatic signal selection [C]//Proc of IEEE/ACM Int Symp on Microarchitecture. Piscataway, NJ: IEEE, 2019: 1050–1062
- [48] Zhang Yanqing, Ren Haoxing, Khailany B. GRANNITE: Graph neural network inference for transferable power estimation[C]//Proc of ACM/IEEE Design Automation Conf. New York: ACM, 2020: 1–6
- [49] Xie Zhiyao, Xu Xiaoqing, Walker M, et al. APOLLO: An automated power modeling framework for runtime power introspection in highvolume commercial microprocessors[C]//Proc of IEEE/ACM Int Symp on Microarchitecture. Piscataway, NJ: IEEE, 2021: 1–14
- [50] Fang Wenji, Lu Yao, Liu Shang, et al. MasterRTL: A pre-synthesis PPA estimation framework for any RTL design[C]//Proc of IEEE/ACM Int Conf on Computer Aided Design. Piscataway, NJ: IEEE, 2023: 1–9
- [51] Lee B C, Brooks D M. Illustrative design space studies with microarchitectural regression models[C]//Proc of IEEE Int Symp on High Performance Computer Architecture. Piscataway, NJ: IEEE, 2007: 340–351
- [52] Jacobson H, Buyuktosunoglu A, Bose P, et al. Abstraction and microarchitecture scaling in early-stage power modeling[C] // Proc of IEEE Int Symp on High Performance Computer Architecture. Piscataway, NJ: IEEE, 2011: 394–405
- [53] Bircher W L, John L K. Complete system power estimation: A trickledown approach based on performance events [C] // Proc of IEEE Int Symp on Performance Analysis of Systems & Software. Piscataway, NJ: IEEE, 2007: 158–168
- [54] Walker M J, Diestelhorst S, Hansson A, et al. Accurate and stable runtime power modeling for mobile and embedded CPUs[J]. IEEE Transactios on Computer-Aided Design of Integrated Circuits and Systems, 2017, 36(1): 106–119
- [55] Sagi M, Doan N A V, Rapp M, et al. A lightweight nonlinear methodology to accurately model multicore processor power[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2020, 39(11): 3152–3164
- [56] Lebeane M, Ryoo J H, Panda R, et al. WattWatcher: Fine-grained power estimation for emerging workloads [C]//Proc of Int Symp on Computer Architecture and High Performance Computing. New York: ACM, 2015: 106–113
- [57] Reddy B K, Walker M J , Balsamo D et al. Empirical CPU power modelling and estimation in the gem5 simulator[C] // Proc of IEEE Int Workshop on Power and Timing Modeling, Optimization and Simulation. Piscataway, NJ: IEEE, 2017: 1–8
- [58] Ipek E, McKee S A, Caruana R, et al. Efficiently exploring architectural design spaces via predictive modeling [C]//Proc of ACM Int Conf on Architectural Support for Programming Languages and Operating Systems. New York: ACM, 2006: 195–206
- [59] Ipek E, McKee S A, Singh K, et al. Efficient architectural design space exploration via predictive modeling[J]. ACM Transactions on Architecture and Code Optimization, 2008, 4(4): 1–34

- [60] Kumar A K A, Al-Salamin S, Amrouch H, et al. Machine learningbased microarchitecturelevel power modeling of CPUs[J]. IEEE Transactions on Computers, 2023, 72(4): 941–956
- [61] Wilson S Verilator [CP/OL]. [2023-12-25]. https://www.veripool. org/wiki/verilator
- [62] Rossi D, Conti F, Marongiu A, et al. PULP: A parallel ultra low power platform for next generation IoT applications[C]//Proc of IEEE Hot Chips Symp. Piscataway, NJ: IEEE, 2015: 1–39
- [63] Zhai Jianwang, Bai Chen, Zhu Binwu, et al. McPAT-Calib: A microarchitecture power modeling framework for modern CPUs[C]//Proc of IEEE/ACM Int Conf on Computer-Aided Design. Piscataway, NJ: IEEE, 2021: 1–9
- [64] Zhai Jianwang, Bai Chen, Zhu Binwu, et al. McPAT-Calib: A RISC-V BOOM microarchitecture power modeling framework[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2023, 42(1): 243–256
- [65] Zhang Qijun, Li Shiyu, Zhou Guanglei, et al. PANDA: Architecturelevel power evaluation by unifying analytical and machine learning solutions[C]//Proc of IEEE/ACM Int Conf on Computer Aided Design. Piscataway, NJ: IEEE, 2021: 1–9
- [66] Zhai Jianwang, Cai Yici, Yu Bei. Microarchitecture power modeling via artificial neural network and transfer learning[C]//Proc of IEEE/ACM Asia and South Pacific Design Automation Conf. Piscataway, NJ: IEEE, 2023: 1–6
- [67] Wang Duo, Yan Mingyu, Teng Yihan, et al. A Transfer learning framework for high-accurate cross-workload design space exploration of CPU[C]//Proc of IEEE/ACM Int Conf on Computer Aided Design. Piscataway, NJ: IEEE, 2023: 1–9
- [68] Li Fuping, Wang Ying, Liu Cheng et al. NoCeption: A fast PPA prediction framework for network-on-chips using graph neural network[C]//Proc of Design, Automation & Test in Europe Conf & Exhibition. Piscataway, NJ: IEEE, 2022: 1035–1040
- [69] Guo Qi, Chen Tianshi, Chen Yunji, et al. Accelerating architectural simulation via statistical techniques: A survey [J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2016, 35(3): 433–446
- [70] Karkhanis T S, Smith J E. A first-order superscalar processor model[C]//Proc of IEEE/ACM Int Symp on Computer Architecture. Piscataway, NJ: IEEE, 2004: 338–349
- [71] Karkhanis T S, Smith J E. Automated design of application specific superscalar processors: An analytical approach[C]//Proc of IEEE/ACM Int Symp on Computer Architecture. Piscataway, NJ: IEEE, 2007: 402–411
- [72] Lee J, Jang H, Kim J. RPStacks: Fast and accurate processor design space exploration using representative stall-event stacks[C]//Proc of IEEE/ACM Int Symp on Microarchitecture. Piscataway, NJ: IEEE, 2014: 255–267
- [73] Bai Chen, Huang Jiayi, Wei Xuechao, et al. ArchExplorer: Microarchitecture exploration via bottleneck analysis[C]//Proc of Annual IEEE/ACM Int Symp on Microarchitecture. Piscataway, NJ: IEEE, 2023: 268–282
- [74] Dubach C, Jones T, O'Boyle M. Microarchitectural design space exploration using an architecture-centric approach[C]//Proc of IEEE/ACM Int Symp on Microarchitecture. Piscataway, NJ: IEEE,

1369

2007: 262-271

- [75] Chen Tianshi, Guo Qi, Tang Ke, et al. ArchRanker: A ranking approach to design space exploration[J]. ACM SIGARCH Computer Architecture News, 2014, 42(3): 85–96
- [76] Freund Y, Iyer R, Schapire R E, et al. An efficient Boosting algorithm for combining preferences [J]. Journal of Machine Learning Research, 2003, 4(9): 933–969
- [77] Li Dandan, Yao Shuzhen, Liu Yuhang, et al. Efficient design space exploration via statistical sampling and AdaBoost learning[C]//Proc of ACM/IEEE Design Automation Conf. New York: ACM, 2016: 1–6
- Bai Chen, Sun Qi, Zhai Jianwang, et al. BOOM-Explorer: RISC-V BOOM microarchitecture design space exploration framework[C]// Proc of IEEE/ACM Int Conf on Computer-Aided Design. Piscataway, NJ: IEEE, 2021: 1–9
- Bai Chen, Sun Qi, Zhai Jianwang, et al. BOOM-Explorer: RISC-V BOOM microarchitecture design space exploration framework[J].
   ACM Transactions on Design Automation of Electronic Systems, 2024, 29(1): 1–23
- [80] Bai Chen, Zhai Jianwang, Ma Yuzhe, et al. Towards automated RISC-V microarchitecture design with reinforcement learning[C]//Proc of AAAI Conf on Artificial Intelligence. Menlo, CA: AAAI, 2024: 1–9
- [81] Eyerman S, Eeckhout L, Karkhanis T, et al. A mechanistic performance model for superscalar out-of-order processors [J]. ACM Transactions on Computer Systems, 2009, 27(2): 1–37
- [82] Zhai Jianwang, Cai Yici. Microarchitecture design space exploration via Pareto-driven active learning[J]. IEEE Transactions on Very Large Scale Integration Systems, 2023, 31(11): 1727–1739
- Yu Ziyang, Bai Chen, Hu Shoubo, et al. IT-DSE: Invariance risk minimized transfer microarchitecture design space exploration[C]// Proc of IEEE/ACM Int Conf on Computer Aided Design. Piscataway, NJ: IEEE, 2023: 1–9
- [84] Yi Xiaoling, Lu Jialin, Xiong Xiankui, et al. Graph representation learning for microarchitecture design space exploration[C]//Proc of ACM/IEEE Design Automation Conf. New York: ACM, 2023: 1–6
- [85] Zhang Muhan, Jiang Shali, Cui Zhicheng, et al. D-VAE: A variational autoencoder for directed acyclic graphs[J]. arXiv preprint, arXiv: 1904.11088, 2019
- [86] Wang Duo, Yan Mingyu, Teng Yihan, et al. A high-accurate multiobjective ensemble exploration framework for design space of CPU microarchitecture[C]//Proc of the Great Lakes Symp on VLSI. New York: ACM, 2023: 379–383
- [87] Wang Duo, Yan Mingyu, Teng Yihan, et al. A high-accurate multiobjective exploration framework for design space of CPU[C] // Proc of ACM/IEEE Design Automation Conf. Piscataway, NJ: IEEE, 2023: 1–6
- [88] Wang Duo, Yan Mingyu, Teng Yihan, et al. MoDSE: A high-accurate multi-objective design space exploration framework for CPU microarchitectures[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and System, 2024, 43(5): 1525–1537
- [89] Esmaeilzadeh H, Ghodrati S, Kahng A B, et al. An Open-source MLbased full-stack optimization framework for machine learning accelerators [J]. arXiv preprint, arXiv: 2308.12120, 2023
- [90] Chen Shixin, Zheng Su, Bai Chen, et al. SoC-Tuner: An importanceguided exploration framework for DNN-targeting SoC design[C] // Proc of IEEE/ACM Asian and South Pacific Design Automation Conf.

Piscataway, NJ: IEEE, 2024: 1-6

- [91] Genc H, Kim S, Amid A, et al. Gemmini: Enabling systematic deeplearning architecture evaluation via full-stack integration [C] // Proc of ACM/IEEE Design Automation Conf. New York: ACM, 2021: 769–774
- [92] Li Sicheng, Bai Chen, Wei Xuechao, et al. 2022 ICCAD CAD contest problem C: Microarchitecture design space exploration[C] // Proc of IEEE/ACM Int Conf on Computer-Aided Design. Piscataway, NJ: IEEE, 2022: 1–7
- [93] Bai chen. ICCAD contest platform [EB/OL]. [2024-01-02]. http://47.93.191.38/



Zhai Jianwang, born in 1996. PhD, assistant professor. His main research interests include machine learning-assisted electronic design automation (EDA) algorithms, including microarchitecture power modeling, design space exploration, and physical design.

**翟建旺**,1996年生.博士,特聘副研究员.主要 研究方向为机器学习辅助的EDA算法,包括 微架构功耗建模、设计空间探索、物理设计.



Ling Zichao, born in 2000. Bachelor. His main research interests include computer architecture and power modeling.

**凌梓超**,2000年生.学士.主要研究方向为计 算机体系结构、功耗建模.



**Bai Chen**, born in 1998, PhD candidate. His main research interests include computer architecture and electronic design automation.

**白** 晨,1998年生.博士研究生.主要研究方向 为计算机体系结构、电子设计自动化.



**Zhao Kang**, born in 1982, PhD, professor, PhD supervisor. Senior member of CCF. His main research interests include electronic design automation (EDA), compiling optimization for FPGA, and heterogenous computing systems.

**赵**康,1982年生.博士,教授,博士生导师. CCF高级会员.主要研究方向为电子设计自动 化、面向FPGA的编译优化、异构计算系统.



**Yu Bei**, born in 1983. PhD, associate professor, PhD supervisor. His main research interests include electronic design automation (EDA) and machine learning.

**余** 备,1983年生.博士,副教授,博士生导师. 主要研究方向为电子设计自动化、机器学习.