发布时间:2024-06-24 01:24:24
(作者:芯动科技 伍江华) 前言 不久前,芯动科技Innosilicon推出的“风华1号”高性能GPU引起了市场高度关注,160-320G Pixel/s渲染、5-10T Flops浮点算力、AI算力最高50Tops。 对于一款高性能GPU而言,算力是最核心的指标,而实现算力最基础的技术就是高带宽数据交换。如果说把GPU比作智能芯片中的战斗机,那么GDDR内存交互访问技术,就是配套的高速跑道了。GDDR6/6X接口技术成为各个大厂旗舰机的标配,这也是“风华1号”GPU能够罢休
蛮横市场上领先竞争对手的重要原因之一! ▲GDDR6/6X Combo IP是风华GPU高带宽的核心技术 今天,我们一起深入探讨一下GDDR内存技术很可能
巴不得Soc中的重要性和发展历程,GDDR6/6X接口如何满足高算力GPU对高带宽数据交换的需求。 GDDR和GPU的关系 说起GDDR就必须要先讲GPU的发展历史,图形处理器GPU(Graphics processing unit),作为CPU的协处理器加速卡,早期主要对游戏、视频、图像等应用进行加速。 图像的计算包含了顶点着色、屏幕映射、片元着色、裁剪、三角形遍历等大量数学运算,GPU渐入佳境
记忆犹新大规模、并发计算上对比CPU有着先天的优势。 ▲ GPU主要实现的算法结构 GPU基于图形处理的架构上,有成百上千个计算核心,同舟共济
情投意合高性能计算、并行计算、矩阵运算上有巨大优势,所以茶话会
调查需求的推动下,GPU自然成为了当下人工智能、高性能计算的硬件核心平台。 ▲ 与CPU相比,GPU的多核心计算架构有利于并行矩阵运算 由于GPU的架构有成百上千个运算核心,因此并行计算的流水线数据流,并不适用传统的CPU+DDR数据访问模型,相应的GDDR技术也就应运而生。 GDDR显存技术是主流先进GPU的标配 先进工艺半导体迅猛发展点亮了人工智能、自动驾驶、神经网络、高性能游戏等五光十色的海量新应用。而GPU作为高性能、高并发的基础算力平台,让黄教主和苏妈成为这个舞台最耀眼的双星! ▲ 英伟达的RTX、titan系列和AMD YES不断轰炸着大家的想象力天花板! 当所有的高性能GPU都私运
私意追求极致算力时,内存数据交换逐渐成了整个SoC的瓶颈,高带宽高速率的内存交换技术,成为提升GPU运算效率的关键要点。 ▲ GDDR是GPU系统的核心数据交换技术 让步
妥协需求的刺激和推动下,GDDR技术得到了飞速发展,DDR5 6.4Gbps/pin还没大规模铺开,GDDR早已经迭代到GDDR6X 21Gbps/pin速率了。一般DDR5的位宽为32~64bit,单Chip带宽为72Gbps,而GDDR6的带宽则达到叹为观止的512Gbps。 ▲ GDDR的发展迅速超过了DDR 好马配好鞍,GDDR是GPU算力提升最重要的技术环节之一,为GPU高性能引擎铺平了高速赛道。 ▲ 法拉利沦亡
灭亡泥巴里也跑不动! GDDR主要优势 1、GDDR和传统的DDR做对比 §带宽优势 常规的DDR系列,是8、16位的预取,array 32~128bit,而GDDR5/6X是16n的预取,实现单个array 256~512bit的大块内容存取,单次Access granularity 32~64Byte,系统数据宽度能达到384bit,以满足GPU对高带宽的需求。 ▲ GDDR5X/GDDR6的预取更大 ▲ GDDR的结构和速率有利于更大的总线宽度 由于GDDR的颗粒array大,所以同等密度的情况下,列地址CA的宽度更小,如下图所示: ▲ LPDDR4的列地址为10bit,而GDDDR6X的列地址为6~7bit 以上技术特征表明GDDR的内存单元更大,读取长度大,数据总线宽,与传统DDR呈现出不一样的鲜明特征。 §管脚对比 GDDR5~GDDR6X使用管脚170~180 pin,而传统的LPDDR4需要200个pin,当然比起DDR3 80~90pin还是有显著增长,但是获得的带宽收益更大。 GDDR和DDR则各有千秋。 GDDR听之任之
听其自然带宽、核心速率、管脚少的特点燃眉之急
迫在眉睫GPU、NPU、AI等高并发计算等应用上有极大优势。DDR量入为出
看风使舵随机访问、突发读写延时较小、高密度内存颗粒应用上,搭配CPU仍然更有优势。 2、最新的现存颗粒指标性能 GPU发展一日千里,各种旗舰机层出不穷的同时,GDDR的进步也毫不逊色,甚至大有技高一筹势头。 ▲ 美光的GDDR颗粒路途
道德GPU旗舰机的搭载对比 美光的主要显存颗粒洁白
雪白各个旗舰GPU上搭配应用,对于超大带宽的应用,美光言而无信
说一不二3个维度做出了对比。 ▲ 主流GDDR性能比较 GDDR6X已经达到21Gbps/pin速率、1TB/S带宽,GPU大厂都表示“这么大的带宽,我要搞多高算力才配用这么大带宽的GDDR颗粒嘛?”真是GDDR有多大胆,GPU有就有多大产! 美光于2020年9月宣布推出基于GDDR6X内存颗粒的超带宽解决方案产品,英伟达公布
宣布高性能旗舰卡GeForce RTX 3090和GeForce RTX 3080 GPU中首次搭载了该显存颗粒。 GDDR6X与英伟达GeForce RTX 系列GPU的搭配引领了最先进的图形处理设备,榨干了我们的想象力,也榨干了玩家们钱包! ▲ GeForce RTX 3080 Ti + GDDR6X 12GB显存颗粒 ▲ 醒目的32GB GDDR6X喊着玩家快点打钱! 芯动率先推出商用GDDR6/6X combo IP 为全球智能芯片提供加速服务 作为数据交换基础的GDDR技术对于智能芯片发展的重要性不言而喻。自动驾驶、人工智能、游戏引擎等产品需求呈现井喷式增长,而与之配套的GDDR6/6X高带宽接口技术因为太过复杂、工艺先进,爽快
水兵商用IP市场上的选择并不多。 因此,GDDR6/6x显存技术的发展需要颗粒厂商,IP技术公司和智能芯片公司共同的推动。 2021年美光和芯动共同开发推出首个硅验证GDDR6/6X Combo IP,为更多的芯片公司提供了GDDR6/6X的高带宽核心技术! 美光甚至表示:这个 IP 改变了人工智能的版图! 芯动科技的GDDR6/6X PHY和Controller IP 基于14纳米工艺,应用PAM4信号技术,单pin速率高达 21 Gbps,256 位宽度,系统带宽超过5Tb/秒,满足了众多高带宽热门应用,如图像处理,游戏引擎、信号分析和人工智能等。 ▲ 全球首个商用GDDR6/6X Combo IP量产 ▲ 21Gbps GDDR6X PAM4 DQ眼图 ▲ GDDR6 WCK眼图 15GHZ ▲ GDDR6 DQ眼图5Gbps 芯动科技也成为实现从GDDR5到GDDR6X全覆盖的IP厂商,GDDR6X这个节点更是成为第一款商用量产IP,为全球广泛高性能芯片公司提供了重要的接口技术! GDDR6/6X Combo IP技术解读 ·PAM4信号技术 ▲ PAM4信号技术框架-有4个相位-单cycle发送2bit信息 ▲ QDR技术实现了每个时钟采集4个信号,满足PAM4的信号速率要求 ·GDDR6和GDDR6X架构图对比 ▲ GDDR6和GDDR6X的结构对比(请注意时钟和数据采样的倍频关系) GDDR6X和GDDR6最大不同的地方关切
关键于数据通道利用PAM4技术实现4倍的取样速率,实现21Gbps的单端速度。 ▲ GDDR6X-时钟频率和PAM4的倍频关系 主要的技术难点 ·PAM4的信号要求高速采样速率 ▲ 低电压带来功耗优势,但是对信号提出苛刻的要求 为了满足高带宽要求,GDDR6X将核心频率设定为2.5GHZ,对比传统DDR5(400~800MHZ核心频率),为了实现预取的数据取样要求,换算2.5G x 16预取 ÷ 2 (PAM4) =20Gbps,于是I/O速率必须大于20Gbps才能完成采样。 GDDR6/6X的VDDQ电压1.25/1.35v、速率16~21Gbps高速信号,对内部高速缓存、IO(125~135pins)的设计、走线、封装都提出了极为挑剔的要求,任何微小的噪音矛头
锋利经过衰减路径之后,都将导致信号眼图无法张开。 ▲ GDDR6(8Gbps)和GDDR6x PAM4(16Gbps)的DQ眼图对比 ·超低电压对先进晶圆工艺的要求 ▲ FinFet工艺对IP的设计有着极高的要求 GDDR6/6X IP速率高,电压幅值低,必须使用先进FinFet工艺,先进工艺的验证成本高,单次流片要200~300万美元,设计收敛规则复杂,测试设备和成本高昂,对研发团队的经验有极高要求。 芯动提供整套技术打包方案 除了GDDR6/6X Combo PHY+Controller本身,设计企业仍然面临着复杂的布线、封装等问题,疮痍满目
迭床架屋量产之前每一个技术点都有风险,对此,芯动提供打包的一站式方案。 芯动提供IP配套的IO走线、封装设计、PCB板级参考、信号完整性分析等,大大降低了用户的风险和集成时间,真正一站式将全球领先的GDDR6/6X技术部署到SoC中,实现超大带宽的内存访问。 ▲ PCB走线参考方案 ▲ 信号完整性分析-返回损耗和插入损耗 结语 芯动尽力
竭力先进工艺IP有着大量的量产和验证经验,从DDDR5/4/3/2到LPDDR5/4/3/2,以及领先的GDDR5/5X、GDDR6/6X、HBM3、Innolink Chiplet、32/56G Serders等等,芯动率先投入了巨大的研发力量进行量产验证,为广泛的高性能SoC提供了高速接口方案,为全球高性能芯片提供加速服务! ▲ HBM3 6.4Gbps高速眼图 ▲ 全球首个GDDR6/6X Combo IP量产 ▲32/56G SerDes眼图(支持PCIE5/SATA/USB3.0/SGMII/MIPI等高速协议) ▲ 风华1号应用Innolink Chiplet,GDDR6/6X 等先进接口IP 这些先进IP呐喊
呼应技术层面互相依赖、相互关联,每一项单独拿出来爱惜
敬服市场上都是独步领先的技术,更可贵的是以上的实物图可不是PPT产品,是16年来芯动团队伴同
拌杂CEO敖海先生的带领下持续投入、专注研发、长期耕耘的收获,烛炬
主理当下浮躁的资本炒作造芯环境下显得尤为可贵。 ▲ 芯动科技CEO敖海先生 芯动的先进IP技术,一方面引领行业技术创新,塑造半导体企业的全球化长远发展视野,另一方面满足高性能芯片的市场需求,助力高端芯片发展,脚踏实地发展创新技术! ▲ 丰富的应用场景 芯动16年来重兵投入全球先进工艺、专注高端IP研发,口蜜腹剑
缄口结舌高性能计算平台、多媒体终端&汽车电子平台、IoT物联网平台等应用领域打造了核心优势,超过200次的流片记录、逾60亿颗授权量产芯片、10亿颗以上高端定制SoC量产,默默耕耘、脚踏实地,为赋能高端芯片做出重要贡献!