在数字经济化时代,算力就是生产力。随着以算力为核心的科技竞争成为当前大国竞争的战略焦点,把握算力发展的重大战略机遇期就是抢占发展的主动权和制高点。作为新型生产力,算力的迅猛发展离不开芯片、数据中心和云计算等产业链的日臻完善,特别是作为三大算力芯片之一的GPU,更是兵家必争之地。而由GPU衍生出来的GPGPU凭借并行计算理念打造出强大的高性能通用计算优势,在算力时代正风生水起。有算力时代绘就的宏伟GPGPU蓝图召唤,有英伟达一飞冲天的传奇激励,叠加中国进口替代以及科创板的杠杆效应,资本对GPGPU赛道高度兴奋,一众初创公司亦相继涌现,争相登高一呼,要在融资、量产、应用层面试比高,也让这一赛道端得热闹非凡。但要警醒的是,与GPGPU高热相伴的是圈内的浮躁风、套壳风和虚夸风不止。而在波谲云诡的国际形势面前一系列热点事件的发酵,更让业界关注国产GPGPU的真实“成色”。穿越GPGPU的重重迷雾,到底该如何解锁国产GPGPU的真功夫?补位迫切 国产GPGPU迎来新考验经过多年的积淀,中国作为算力发展的“领跑者”,已在算力竞逐中走到世界前列。截至2022年6月,中国数据中心机架总规模超过590万台,服务器规模约2000万台,算力总规模超过150 EFlops,位列全球第二。有机构预测到2025年,中国GPGPU市场规模将达到458亿元,相较于2019年的86亿元增长5倍多。但在巨大的市场规模背后,折射的却是GPGPU难言的尴尬境地。英伟达、AMD双雄凭借多年构筑的护城河优势,垄断了中国GPGPU的90%市场。随着GPGPU应用在云计算、大数据、工业、安防、HPC等市场蔚然成风,无论是中国自身算力的大发展,还是国产高端大芯片的自主化率提升,国产GPU不能也不应在这一赛道上缺席太久。加之中美科技战愈加严峻,特别是英伟达禁售A100事件发生以来,国产GPGPU“替代”之路将不断加快,如何做强成为新的考验。特别是党的二十大报告也提出,以国家战略需求为导向,集聚力量进行原创性引领性科技攻关,坚决打赢关键核心技术攻坚战。GPGPU作为国内急待突破的高端芯片之一,必然要走上自主化道路。近几年国内GPGPU公司乘着政策、资本、人才和应用的东风相继涌现,除了一众老将之外,包括珠海芯动力、壁仞、沐曦、登临、天数智芯、红山微电子、瀚博半导体等新势力集结发力,或在自研架构层面的高算力高灵活性发力;或在生态打造上可圈可点;或在应用上开疆拓土,在某些特定应用领域也在加快落地。而在进军的长征路上,一些急功近利的心态、大鸣大放的风格也在无形之中对国产GPGPU的发展产生了阻碍。到底该如何丈量国产GPGPU的“成色”?未来的发展之路究竟应如何走?架构创新 打造高性能低功耗作为高端芯片代表,研发GPGPU显然是一项极其复杂的系统性工程,涉及硬件架构、驱动开发、软件生态、应用适配等,正是关关难过关关过。特别是GPGPU需设置大量的计算单元,将大量计算单元进行适当组合并实现极高的计算效率难度极大,而且GPGPU的多元化应用要求GPGPU“兼顾”高算力、低功耗、灵活性,这对底层的核心硬件架构提出了更严格的要求。目前国内GPGPU厂商的核心架构大多自研,这是一条艰难而正确的道路。正如有行业人士分析称,走到顶峰的一定是采取自研架构的路线,只有能够把整个架构掌握实现自研,才能够追赶头部玩家,才有可能在未来进行超越。珠海市芯动力科技有限公司(简称芯动力)创始人李原也指出,为实现大量的计算、流水线的排列方式,需要GPGPU采用大量处理单元阵列的可重构计算架构,这样才可满足高算力的需求,同时保持低功耗和硅面积高效。知行合一,在经过长期的摸索和不断的探索之后,芯动力创新性地开发了兼顾能效与编程灵活性的可重构并行处理器芯片架构RPP(可重构并行处理器),吹响了向GPGPU进军的号角。厚积而薄发,RPP的架构优势也十分显著:支持大量的并行线程,通过采用空间处理器架构,把RPP指令分发到空间上不同的PE阵列里面,并按照指令的依赖关系连接起来,当大量数据流过PE阵列时,以流水线的方式完成计算。此外,因RPP处理器设计的高效性,可以在同样的芯片面积上放入更多的片上内存,在计算时候可以实现数据的最小距离搬运,大大降低功耗,实现了低功耗存算一体化。(RPP架构图)整体而言,利用RPP架构的优越性,可达到更高的算力、更低的功耗,从而降低服务器的部署和运维成本。在架构层面厚积薄发之后,芯动力乘胜出击,采用空间流水线架构、原生支持CUDA生态的第一代产品RPP-R8已成功流片,并面向客户送样及销售。据悉,RPP-R8除了具备专用芯片所没有的通用编程性,面积效率比可达到英伟达同类产品的7~10倍,能效比也超过3倍,可满足高效并行计算及AI计算应用。兼容主流生态 切入边缘应用场景要在GPGPU领域通关,生态至关重要。而且,GPGPU的生态非常复杂,要求一路打通到应用层,提供面向应用的全面支持。因英伟达CUDA生态盛行,国内不少GPGPU初创公司初期大都在走兼容CUDA生态的道路。在这方面,RPP也以独有的底层硬件架构实现了对CUDA语言的支撑,原生支持CUDA生态。芯动力自主开发工具链,拥有独立的SIMT指令集与后端编译器,在cuDNN与TensorRT上实现了API兼容;支持广泛AI框架如TensorFlow、Pythorch,。李原认为,通过兼容CUDA语言,通过自有的指令集和开发工具进行深度优化性能,在高性能计算领域内RPP-R8可以得到最广泛使用的编程语言的支持,不仅从底层的软件兼容,而且从它的调用形式、用户的感知方面也兼容并带来更好的体验。实现兼容之后,芯动力拥有了GPGPU应用之门的“钥匙”。GPGPU的应用场景广泛,如何满足客户的差异化需求?特别是国产GPGPU实力还相对较弱的情形下,如何走农村包围城市的路线?“这就要求从客户的角度来看,帮助客户解决了什么痛点?而市场需要的是能够帮助客户快速的完成他们的产品,也就是Time to Market。”李原判断。看准这一动向,芯动力谋定而后动。RPP-R8的特点非常适用在高密度数据量的边缘计算场景,因此,芯动力科技选择从边缘计算市场如工业视觉、辅助驾驶、安防等领域切入。近年来,安防行业越来越多数据从云中心迁移到“边缘”上,RPP-R8在安防的应用场景中优势也让芯动力在这一市场斩获丰实。此外,随着智能制造业的智能化需求在不断提升,芯动力的应用拓展也延伸到了工业视觉领域,得到了广泛的认可。此外,RPP-R8具备的高性能和通用可编程性还可不断加快客户Time to Market的步伐。一家采用RPP-R8进行信号处理的客户直陈说:“RPP-R8芯片对公司的意义不仅仅是一个产品一个项目,而是解决公司长远问题的一颗芯片。”不仅如此,他们还希望把整个公司的产品都基于RPP-R8芯片来设计使用,这样就可以从繁琐而耗时的FPGA硬件开发中解脱出来,从而得以专心研发系统软件和算法,通过使用通用的并行计算芯片,使产品快速上市。在GPGPU的激荡岁月,国内GPGPU厂商就要选择一条为客户创造价值的道路,这样才能成就自身的价值,才能行稳致选。芯动力将这一DNA贯穿于创新、优化和应用的全过程,也收获了新的势能。在RPP-R8芯片的应用正在多点开花之际,芯动力对于未来也有了更明确的规划。李原表示,市场在迅速地变化,地缘政治的因素对行业影响非常大,芯动力要能应对这些变化,并在变化之中找到机会。芯动力也将花费更多的时间打磨,无论是架构、生态还是应用层面都要更上一层楼。也希望在今后的发展过程当中,能够得到更多的行业和生态系统合作伙伴的支持,一起去共同促进国产GPGPU的发展。结语:在当前充满竞争且空前复杂的市场形势之下,国产GPGPU业的发展注定是曲折的。尽管面临重重险阻,但在国家相关政策及产业资金的倾斜下,最后的成功唯取决于中国无数公司的努力,取决于技术的创新,取决于坚持的长久。还要看到的是,GPGPU的研发牵一发而动全身,需要的不仅仅是架构迭代与生态打造,还需要光刻机等配套产业的同步提升,才能缩短与国际领先水平之间的差距。此外,兼容是捷径,但不是终点,从长远来说一定要建立自己的生态。国内GPGPU厂商还应风物长宜放眼量。无疑,美对我国半导体业的全面围剿也将不断加速国产芯片自主化的进程,但要从弱到强,从低端到高端,显然是一场以数年为计的长征之路。来源:爱集微 |