Reinforcement Learning Policy as Macro Regulator Rather than Macro Placer

Introduction

这篇文章提出了一个在现有布局结果上重排的优化方法，聚焦的主要问题是现有方法只优化HPWL，可能会使macro靠近chip中心，远离边缘，其实是一种过拟合的不合理的现象，所以实质上是在给奖励函数打补丁。另外这篇工作在现有工具上量化了PPA性能，更贴近实际工程应用。

所谓的regulator其实就是度量macro距离chip边缘的距离，越靠近边缘regularity越小，优化目标就是HPWL + regularity。