收藏 分享(赏)

基于7 nm NPU预布局的布图优化设计.pdf

上传人:哎呦****中 文档编号:3036115 上传时间:2024-01-18 格式:PDF 页数:6 大小:2.39MB
下载 相关 举报
基于7 nm NPU预布局的布图优化设计.pdf_第1页
第1页 / 共6页
基于7 nm NPU预布局的布图优化设计.pdf_第2页
第2页 / 共6页
基于7 nm NPU预布局的布图优化设计.pdf_第3页
第3页 / 共6页
基于7 nm NPU预布局的布图优化设计.pdf_第4页
第4页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、基于7 nm NPU预布局的布图优化设计陈力颖1,2,高祥1,2,李勇3,徐微1,2(1.天津工业大学 电子与信息工程学院,天津300387;2.天津工业大学 天津市光电检测技术与系统重点实验室,天津300387;3.台州国晶智芯科技有限公司,浙江 台州318014)摘要:为了解决7 nm布图设计中直通寄存器在自动布局时不能均匀分布且高宽比相差较大、纵向绕线较多的问题,提出在布图阶段提前布局直通寄存器,并将宏单元放置在模块上下两端以避开直通寄存器密集位置的优化方法;并针对7 nm工艺对宏单元位置的约束,通过工具命令语言(TCL)脚本修复宏单元在布图阶段引起的违例。结果表明:相较于摆放在四周的布

2、图规划,优化后的布图规划中建立时间最差负违例(WNS)减少0.131 ns,负违例总和(TNS)下降约80%,纵向拥塞从9.23%降至0.98%,功耗下降约500 mW;优化布图后执行TCL脚本,宏单元引起的违例下降了288条,相较人工修复节约了90%以上的时间。关键词:直通寄存器;宏单元;布图规划;拥塞;7 nm中图分类号:TN47文献标志码:A文章编号:员远苑员原园圆源载(圆园23)园5原园园75原06收稿日期:2022-01-26基金项目:天津市科技计划资助项目(18ZXCLGX0090);天津市自然科学基金资助项目(18JCYBJC85400)通信作者:陈力颖(1976),男,博士,副

3、教授,主要研究方向为射频集成电路设计和数模混合集成电路设计。E-mail:Floorplan optimization design of pre-placement based on 7 nm NPUCHEN Liying1,2,GAO Xiang1,2,LI Yong3,XU Wei1,2(1.School of Electronics and Information Engineering,Tiangong University,Tianjin 300387,China;2.Tianjin KeyLaboratory of Optoelectronic Detection Technol

4、ogy and System,Tiangong University,Tianjin 300387,China;3.TaizhouNational Crystal Technology Co.,Ltd.,Taizhou 318014,Zhejiang Province,China)Abstract:In order to solve the problems of uneven distribution of through registers in the automatic layout袁 large aspectratio difference and more longitudinal

5、 winding in the 7 nm floorplan design,an optimization method is proposedto lay out the through registers in advance during the floorplan stage and place marco cells at the upper and lowerends of module to avoid the dense locations of through registers.To address the constraints of the 7 nm process o

6、nthe position of macro cells,a tool command language渊TCL冤 script is used to fix violations caused by macro cellsduring the floorplan stage.The results show that compared to the floorplan placed around it袁 the optimizedfloorplan reduces the worst negative violation渊WNS冤 of the establishment time by 0

7、.131 ns袁 the total negativeviolation渊TNS冤byabout80%袁verticalcongestionfrom9.23%to0.98%,andpowerconsumptionbyabout500mW曰after optimizing the floorplan and executing the TCL script袁 the number of violations caused by macro celldecreased by 288袁 saving more than 90%of the time compared to manual repair

8、.Key words:feedthrough register曰 marco cells曰 floorplan曰 congestion曰 7 nm随着芯片制造工艺的不断进步,每块芯片上集成的晶体管数已经从几亿增加到几十亿,对于知识产权(IP)核和宏单元(macro cells)的使用也越来越多。对于先进工艺而言,特别是14 nm及以下的工艺,芯片物理设计人员要花费更多的时间来摆放宏单元,进行平面布图规划(floorplan)1-2。布图规划的好坏决定着后续设计工作能否顺利进行,在一定程度上决定了芯片性能优劣3。当工艺到达7 nm以后,线宽及线间距进一步缩小,受光刻分辨率的影响,需要采用双重图技

9、术并对宏单元摆放的位置和距离做出更多限制才能达到光刻精度4-5,这不仅加大了芯片的成本,而且增加了设计的复杂度6。在采用先进工艺的芯片设计中,通常因为设计规模大,一般采用层次化的设计方法7。在层次化时,会DOI:10.3969/j.issn.1671-024x.2023.05.010第42卷第5期圆园23年10月Vol.42No.5October2023天津工业大学学报允韵哉砸晕粤蕴 韵云 栽陨粤晕GONG 哉晕陨灾耘砸杂陨栽再天津工业大学学报第42卷根据功能将原本正方形的芯片区域,切割为多个四边形甚至多边形,其中高宽比相差较大的四边形和多边形在进行布图规划时的难度较大。基于以上问题,本文以一

10、款采用TSMC N7工艺、高宽比接近3 颐 1的子模块布图设计为例,在布图阶段预布局直通(feedthrough)寄存器,避开直通寄存器密集的位置,将宏单元放置在模块上下两端来优化布图,并根据N7工艺对宏单元的约束编写TCL脚本,修复违例,以期为解决直通寄存器不能在自动布局时均匀分布的问题和高宽比相差较大、纵向绕线较多的7 nm布图设计提供参考。子模块中包含248个宏单元,3个静电保护单元及3个定位单元。规模约为3 550万门,面积为1 250 滋m 伊 3 532 滋m,采用最新布局布线工具Innovus。1布图规划流程芯片的物理设计流程可以分为展平式设计和层次化设计。其中,层次化设计是将整

11、个设计分割成多个模块,对每个模块进行展平化处理,每个模块单独进行布图规划、布局布线,经过时序优化达到时序收敛,最终将满足要求的数据提供给顶层进行组装8-11。在超大规模的集成电路设计中,层次化设计方法可以减小设计复杂性,将问题集中于个别模块进行重点解决,同时还能缩短设计周期,加快时序收敛12-13。与多数布图设计时的宏单元摆放规则相同14,层次化设计的布图规划流程是先将逻辑模块(module)细分,把与输入输出端口(I/O port)相关的宏单元摆在I/O port附近15,然后把处于同一个module下的宏单元尽可能摆放在一起并均匀地分布在布图区域四周,宏单元之间留下足够的通道进行绕线与缓冲

12、单元的插入16。布图规划完成后进行电源规划、布局、时钟树综合,通过内外部时序、早期布线拥塞和设计规则检查(design rulecheck,DRC)违例数量对布图规划进行评估,如果合理将继续进行后续步骤,若不合理将重新调整布图17-18。2传统四周摆放布图方法采用布图规划流程中将宏单元摆放在四周的布图方法,在Innovus中对module进行Ungroup操作,将宏单元所属的module进行细分后,摆入布图区域。在遇到I/O port时留出约100 滋m的间距,用于后续顶层拼接之后缓冲单元的插入,摆放完成的情况如图1所示。进行电源规划、布局以及时钟树综合,对各项性能指标进行评估,发现该布图存在

13、较多时序违例,时序难以收敛,布线拥塞严重,纵向溢出(overflow)为9%。由此表明,使用四周摆放的布图方法不合理。不合理的原因主要有2点:(1)子模块的高宽比相差较大,为“瘦高”类型模块,宏单元数量较多,纵向走线多,但纵向的绕线资源较少,在中部摆放的宏单元造成了大量的纵向拥塞,导致时序恶化。(2)为了避免输入到输出端口距离过长而插入直通寄存器进行打拍,如图1中a、b两组路径共插入了4级寄存器,每组一级有2 048个寄存器。但由于距离过长,工具在自动布局时不能使寄存器均匀分布,导图1四周摆放的布图结果Fig.1Results of placed around floorplanab76-第5

14、期致出现图2中的情况。图2中蓝色高亮部分为第3级直通寄存器,而第4级寄存器在输出端口附近,框内的第3级寄存器到第4级的距离超过了2 000 滋m,过长的数据路径导致时序违例较大。3预布局布图优化方法本文在布图阶段不再将宏单元均匀摆放在模块四周,并针对所遇到的问题提出以下方法:(1)在布图阶段预先布局直通寄存器,将第1、4级直通寄存器固定在I/O port附近,第2、3级寄存器均匀分布在输入输出端口之间,减少路径过长引起的时序违例;在摆放宏单元时避开直通寄存器集中的地方,避免直通寄存器引起的拥塞;摆放时使用以下约束条件进行摆放,设置利用率为10%的区域型约束(region),避免工具优化时将这些

15、寄存器位置挪动太多。具体命令为:createNetGroup group1-net feedthr_ous2mrg*createNetGroup group1-net feedthr_otn2mrg*placePipeline-region true-utilization 0.1-statusplaced(2)摆放宏单元时将宏单元采取上下分布的摆放方法,将模块中间的部分空出来,留出更多的纵向走线资源,同时也避开直通寄存器密集的位置,避免造成拥塞,最后在摆放时给输入输出端口附近留出60 100 滋m,以便在顶层优化时插入缓冲单元。图3为直通寄存器第二、三级预布局之后的情况与布图优化后宏单元摆放

16、结果,红色为a组端口之间的直通寄存器,蓝色为b组端口之间的寄存器。4布图约束检查的修复在7 nm工艺中,因为特征尺寸、互连线的缩小,对光刻制造工艺也产生了较大的挑战,所以晶圆厂商为了提高精度以及成品率,添加了许多新的设计规则检查19-20,在布图阶段进行的统一布图约束(unifiedfloorplan constraint,UFC)检查就是其中的一种。对于不同的宏单元到芯片边界有着不同的距离要求,即宏单元加上晕环(halo)到布图上下边界的距离满足2.4+0.48n(n为整数)或0.96+0.48n的约束,约束条件为:set_width_constraint-class useful_site

17、-width_type simple图2第3级直通寄存器分布Fig.2Distribution of the third level feedthrough register图3布图优化结果Fig.3Optimization results of floorplan陈力颖,等:基于7 nm NPU预布局的布图优化设计77-天津工业大学学报第42卷图4UFC检查违例Fig.4UFC check violation图5间距要求示意图Fig.5Schematic diagram of spacing requirements图6脚本修复UFC结果Fig.6Results of script to f

18、ix UFC(a)脚本运行前违例(b)脚本运行后违例图7脚本修复前后宏单元违例对比Fig.7Comparison of macro cells violations before and afterscript fix-direction vertical-offset 2.4-grid 0.48set_width_constraint-class useful_site-width_type incorner-direction vertical-offset 0.96-grid 0.48所以在宏单元摆放完成后还要进行UFC的检查,检查之后出现了296条UFC违例,如图4所示。若提前计算好距

19、离再去摆放宏单元和添加halo将是非常复杂繁琐的。根据规则的定义,关注宏单元切掉行(Row)之后,Row边缘到Row边缘的距离如图5中黄色所框选的部分,而不是另外2条halo到halo或宏单元到宏单元的距离。所以通过脚本调整halo的宽度,改变切割Row的范围,可以修复大部分UFC产生的违例。脚本计算主体如下:foreach mem$mems set fy dbGet top.FPlan.coreBox_uryset ury dbGet dbGet top.inst.name$mem-p.box_uryset lly dbGet dbGet top.inst.name$mem-p.box_ll

20、yset n_top expr($fy-$ury)/0.48-5set n_bot expr($lly-2.4)/0.48-5if$n_top=expr int($n_top)&$n_bot=expr int($n_bot)#puts else set top_t expr int($n_top)*0.48+2.4set bot_t expr int($n_bot)*0.48+2.4+2.4set dy_top expr($fy-$top_t)-$uryset dy_bot expr$lly-$bot_taddHaloToBlock 1.14 expr 0.96+$dy_bot 1.14 ex

21、pr 0.96+$dy_top通过foreach循环完成计算每个宏单元到边界的距离是否满足约束,若不满足则需要重新添加满足约束的halo,在运行脚本之前还需要先进行如下设置:setFPlanMode-snapBlockGrid finfetPlcaementsnapFPlan-block以上设置将所有Macro移动到鳍式场效应晶体管(FinFET)的格点(grid)上,只有在grid上才能将芯片正确的制造出来。最后通过运行脚本对UFC进行修复,修复后的结果如图6所示,脚本运行前后的对比如图7所示。78-第5期陈力颖,等:基于7 nm NPU预布局的布图优化设计由图7可知,由UFC检查产生的违例

22、由296条降到了8条,剩余的8条为宏单元左右边界未对齐所引起的,可以通过手动调整宏单元左右位置,修复剩余UFC违例。如果296条违例都人工解决则至少需要花费2 h以上的时间,而通过脚本修复之后,违例只需要8 min以内便可修复,极大地提升了工作效率,缩短了约90%以上的时间。5布图结果对比在预布局直通寄存器并对宏单元进行调整之后,进行相同的电源规划、布局优化,该模块的时序和拥塞都有了很大的改善。布局优化前后建立时间的最差负违例(worst negative slack,WNS)、负违例总和(totalnegative slack,TNS)和拥塞结果对比如表1所示。结合表1可以看出,通过优化后的

23、布图,WNS和TNS都有了明显的改善。在布局优化后WNS由-0.364 ns下降到了-0.233 ns,TNS也从-16 731.7 ns下降-3511.57 ns,下降了约80%,纵向拥塞也从9.23%降到了0.98%。由此说明,布局优化后时序和拥塞有了明显的改善,可以大大减少后续时序收敛难度、绕线难度以及绕线后的线上违例,减少后续工作量。在优化布图缩短数据路径并改善拥塞之后,功耗对比结果如表2所示,可以看出,功耗也降低了约500 mW。6结论针对直通寄存器在自动布局时不能均匀分布和高宽比相差较大、纵向绕线较多的布图设计,本文提出了在布图阶段提前布局直通寄存器,摆放宏单元时避开直通寄存器密集

24、的位置,并将宏单元放置在两端的方法,结果表明:(1)纵向拥塞从9.23%降到0.98%,WNS减少了0.131 ns,TNS减少了约80%,功耗下降约500 mW。(2)针对TSMC N7工艺中,为了正确制造而对宏单元提出的统一布图约束,在布图阶段通过编写脚本修复宏单元造成的大部分违例,相较人工修复工作效率提高了90%以上。参考文献:1吴朝晖,周晓阳,何素东,等.芯片物理设计中一种新的结构式布局方法J.华南理工大学学报(自然科学版),2018,46(8):33-37,45.WU Z H,ZHOU X Y,HE S D,et al.A new method of crossbarstructur

25、e placement in chip physical designJ.Journal of SouthChina University of Technology(Natural Science Edition),2018,46(8):33-37,45(in Chinese).2HOMAYOUN H,GOLSHAN S,BOZORGZADEH E,et al.Onleakage power optimization in clock tree networks for ASICsand general-purpose processorsJ.Sustainable Computing:In

26、formatics and Systems,2011,1(1):75-87.3陈春章,艾霞,王国雄.数字集成电路物理设计M.北京:科学出版社,2008.CHEN C Z,AI X,WANG G X.Physical Design of Digital In-tegrated CircuitM.Beijing:Science Press,2008(in Chinese).4YOUNG E F Y,CHU C C N,HO M L.A unified method tohandle different kinds of placement constraints in floorplan de-s

27、ignC/Proceedings of 7th Asia and South Pacific Design Auto-mation Conference and 15h International Conference on VLSIDesign.Bangalore,India:IEEE,2002:661-667.5VAIDYANATHAN K,LIEBMANN L,STROJWAS A,et al.Sub-20 nm design technology co-optimization for standard celllogicC/2014 IEEE/ACM International Co

28、nference on Compu-ter-AidedDesign(ICCAD).San Jose,CA,USA:IEEE,2015:124-131.6刘峰.CMOS集成电路后端设计与实战M.北京:机械工业出版社,2015.LIU F.Back-End Design and Actual Combat of CMOS Integra-ted CircuitM.Beijing:China Machine Press,2015(in Chi-nese).7LUK W K,SIPALA P,TAMMINEN M,et al.A hierarchicalglobal wiring algorithm

29、for custom chip designJ.IEEE Trans-actions on Computer-Aided Design of Integrated Circuits andSystems,1987,6(4):518-533.8ADYA S N,MARKOV I L.Fixed-outline floorplanning:En-abling hierarchical designJ.IEEE Transactions on Very LargeScale Integration(VLSI)Systems,2003,11(6):1120-1135.9李东阳.基于7 nm工艺CPU模

30、块的低功耗物理设计研究D.西安:西安电子科技大学,2020.优化前后WNS/nsTNS/ns拥塞优化前-0.364-16 731.70.42%H,9.23%V优化后-0.233-3 511.570.10%H,0.98%V表1布局优化前后结果对比Tab.1Comparison of results before and after placementoptimization注:H为横向;V为纵向表2功耗结果对比Tab.2Comparison of power consumption results优化前后内部功耗开关功耗漏电功耗总功耗优化前2 005.42 982.0663.55 650.9优化

31、后1 662.62 814.3650.55 127.4mW79-天津工业大学学报第42卷LI D Y.Research on low power physical design of CPU modulebased on 7 nm processD.Xi忆an:Xidian University,2020(inChinese).10 YUEN W S,YOUNG E F Y.Slicing floorplan with clusteringconstraintsC/Proceedings of Asia and South Pacific DesignAutomation Conference

32、 2001.Yokohama,Japan:IEEE,2001:652-658.11 PANG Y X,BALASA F,LAMPAERT K,et al.Block place-ment with symmetry constraints based on the O-tree non-slic-ing representationC/Proceedings of the 37th Annual DesignAutomation Conference.Los Angeles,California,USA:ACM,2000:464-467.12 CHATTERJEE S,SAUN V S,ARU

33、NACHALAM A.A method-ology for placement of regular and structured circuitsC/201528th International Conference on VLSI Design.Bangalore,In-dia:IEEE,2015:499-504.13尹晓明,陆洪毅.芯片级集成电路的布图与布局设计详解J.电子科学技术,2016,3(2):98-102.YIN X M,LU H Y.Detailed floor plan and place of integratedcircuit design on chip levelJ

34、.AI-View,2016,3(2):98-102(in Chinese).14李瑞.基于7 nm工艺GPU核心计算单元的后端设计D.西安:西安电子科技大学,2020.LI R.Back-end design of GPU core computing unit based on7 nm technologyD.Xi忆an:Xidian University,2020(in Chi-nese).15 GRACIA N R D,RAJARAM S,NIVETHITHA N,et al.Ther-mal aware modern VLSI floorplanningC/2012 Internati

35、onalConference on Devices,Circuits and Systems(ICDCS).Coim-batore,India:IEEE,2012:187-190.16陈旭洲.基于预估违例的高效布图规划方案研究D.天津:天津工业大学,2020.CHEN X Z.Research on efficient layout planning scheme ba-sed on predicting violationD.Tianjin:Tianjin PolytechnicUniversity,2020(in Chinese).17 YE T T,DE MICHELI G.Physic

36、al planning for on-chip multi-processor networks and switch fabricsC/Proceedings IEEE In-ternational Conference on Application Specific Systems,Archi-tectures,andProcessors.Thehague,Netherlands:IEEE,2003.18 HOO C S,JEEVAN K,GANAPATHY V,et al.Variable-or-der ant system for VLSI multiobjective floorpl

37、anningJ.Appli-ed Soft Computing,2013,13(7):3285-3297.19刘浩.基于7 nm工艺高性能图形芯片模块的后端设计D.西安:西安电子科技大学,2018.LIU H.Back-end design of high performance graphics chipmodule based on 7nm processD.Xi忆an:Xidian University,2018(in Chinese).20李辉.基于7 nm CMOS工艺图形处理器芯片子模块后端实现D.西安:西安电子科技大学,2019.LI H.Back-end implementat

38、ion of sub-module of graphicsprocessor chip based on 7 nm CMOS processD.Xi忆an:XidianUniversity,2019(in Chinese).本文引文格式:陈力颖,高祥,李勇,等.基于7 nm NPU预布局的布图优化设计J.天津工业大学学报,2023,42(5):75-80.CHEN L Y,GAO X,LI Y,et al.Floorplan optimization de-sign of pre-placement based on 7 nm NPUJ.Journal of Tian-gong University,2023,42(5):75-80(in Chinese).80-

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2