榮格工業(yè)資源APP
了解工業(yè)圈,從榮格工業(yè)資源APP開始。
來源 / Rambus;榮格電子芯片編譯
人工智能正在眾多技術市場中催生驚人的增長。這一點在AI訓練集的增長中得到了有力體現(xiàn),其規(guī)模正以每年10倍的速度增長,并且預計在這十年內(nèi)將繼續(xù)增長。
訓練AI系統(tǒng)的兩個不同計算使用時代
要跟上這種發(fā)展速度,僅靠摩爾定律所能實現(xiàn)的改進是遠遠不夠的,何況摩爾定律本身也在放緩。這就需要人工智能計算機硬件和軟件的各個方面都持續(xù)快速改進。
隨著我們進入計算的下一個時代并推動人工智能的持續(xù)發(fā)展,內(nèi)存帶寬將成為關鍵關注領域之一。
GDDR6和HBM3E具有不同的優(yōu)勢,在設計上需要權衡考量。在為AI/ML應用選擇HBM3E和GDDR6時,設計師必須考慮許多權衡因素和關鍵指標,包括成本、功耗、容量和實現(xiàn)復雜性。
在本白皮書中,我們將探討HBM3E和GDDR6的優(yōu)勢和設計注意事項。我們還將重點介紹每種內(nèi)存在整個AI/ML架構中的適用性。最后,我們將討論可用于實現(xiàn)完整內(nèi)存子系統(tǒng)的Rambus HBM3E和GDDR6內(nèi)存控制器解決方案。
Part 1
從HBM2到HBM3E:堆疊技術的進化與性能飛躍
高帶寬內(nèi)存(HBM)是一種高性能的2.5/3D堆疊SDRAM架構。2013年推出的第二代HBM2規(guī)定每個堆疊最多8個內(nèi)存芯片,引腳傳輸速率為2 Gb/s。HBM2每個封裝(DRAM堆疊)實現(xiàn)256 GB/s的內(nèi)存帶寬,HBM2規(guī)范支持每個封裝高達8 GB的容量。
2018年底,JEDEC發(fā)布了HBM2E規(guī)范,以支持更高的帶寬和容量。隨著每引腳傳輸速率提升至3.6 Gb/s,HBM2E每個堆疊可實現(xiàn)461 GB/s的內(nèi)存帶寬。此外,HBM2E支持12層堆疊,每個堆疊的內(nèi)存容量高達24 GB。
HBM3代標準于2022年推出,能夠?qū)崿F(xiàn)更高的內(nèi)存帶寬。通過6.4 Gb/s運行的接口連接到處理器的四個HBM3堆疊可提供超過3.2 TB/s的帶寬。
借助內(nèi)存的3D堆疊,可在極小的空間內(nèi)實現(xiàn)高帶寬和高容量。此外,通過保持相對較低的數(shù)據(jù)速率以及內(nèi)存與處理器的近距離,整體系統(tǒng)功耗得以保持較低水平。
隨著對更高內(nèi)存帶寬的需求持續(xù)增長,行業(yè)已推出工作速率達9.6 Gb/s及以上的HBM3E存儲設備。Rambus支持運行速率高達9.6 Gb/s的HBM3E接口,充分展示了這種內(nèi)存架構的全部功能。
所有版本的HBM都以“相對較低”的數(shù)據(jù)速率運行,但通過極寬的接口實現(xiàn)了非常高的帶寬。例如,運行速率高達6.4 Gb/s的HBM3堆疊通過1024條數(shù)據(jù)“線”的接口連接到其相關處理器。
加上命令和地址,線的數(shù)量增加到約1700條。這遠遠超過了標準PCB的支持能力。因此,硅中介層被用作連接內(nèi)存堆疊和處理器的中介。與SoC一樣,可在硅中介層中蝕刻精細間隔的數(shù)據(jù)跡線,以實現(xiàn)HBM接口所需的線數(shù)。
HBM的設計權衡在于復雜性和成本的增加。中介層是必須設計、表征和制造的附加元件。與制造傳統(tǒng)DDR型內(nèi)存(包括GDDR)所積累的巨大產(chǎn)量和制造經(jīng)驗相比,3D堆疊內(nèi)存的出貨量相形見絀。最終,HBM3E/3的實現(xiàn)和制造成本高于GDDR6。
圖片來源 / 豆包
然而,對于AI訓練應用,HBM3E/3的優(yōu)勢使其成為更優(yōu)選擇。其帶寬性能卓越,更高的實現(xiàn)和制造成本可以通過節(jié)省板空間和功耗來權衡。
在物理空間日益受限的數(shù)據(jù)中心環(huán)境中,HBM3E/3的緊湊架構提供了切實的優(yōu)勢。其較低的功耗意味著更低的熱負荷,而在數(shù)據(jù)中心環(huán)境中,冷卻通常是首要的運營成本之一。
總之,HBM3E/3為系統(tǒng)設計師提供了極高的帶寬能力和最佳的電源效率。盡管由于更大的設計復雜性和制造成本,HBM3E/3系統(tǒng)的實現(xiàn)可能具有挑戰(zhàn)性,但板空間和冷卻方面的節(jié)省可能非??捎^。
對于AI訓練,HBM3E/3是理想的解決方案。它建立在HBM2和HBM2E的成功基礎之上,這些產(chǎn)品已在領先的AI加速器中得到應用。
Part 2
GDDR6設計難點:24 Gb/s信號完整性的極限挑戰(zhàn)
圖形DDR SDRAM(GDDR SDRAM)最初是為二十多年前的游戲和圖形市場設計的。在此期間,GDDR經(jīng)歷了幾次重大演變,最新一代GDDR6的數(shù)據(jù)速率高達24 Gb/s。
GDDR6在帶寬、容量、延遲和功耗方面實現(xiàn)了令人印象深刻的組合。Rambus支持運行速率為24 Gb/s的GDDR6接口,充分展示了這種內(nèi)存架構的全部功能。
與HBM3E/3不同,GDDR6 DRAM依賴于與生產(chǎn)標準DDR型DRAM相同的高容量制造和組裝技術。更具體地說,GDDR6采用傳統(tǒng)方法,通過標準PCB將封裝和測試后的DRAM與SoC連接在一起。利用現(xiàn)有基礎設施和流程為系統(tǒng)設計師提供了熟悉感,從而降低了成本和實現(xiàn)復雜性。
基于經(jīng)過時間考驗的制造工藝,GDDR6內(nèi)存出色的性價比使其成為AI推理應用的絕佳選擇。
與HBM3E/3的寬而慢的內(nèi)存接口不同,GDDR6接口窄而快。兩個16位寬的通道(32條數(shù)據(jù)線)將GDDR6 PHY連接到相關的SDRAM。在每引腳24 Gb/s的速率下,GDDR6接口可提供96 GB/s的帶寬。
GDDR6實現(xiàn)的主要設計挑戰(zhàn)源于其最強特性之一:速度。在24 Gb/s的速度下保持信號完整性(SI),尤其是在較低電壓下,需要豐富的專業(yè)知識。設計師面臨更嚴格的時序和電壓裕量,同時損耗源的數(shù)量及其影響都迅速增加。接口、封裝和板的行為之間的相互依賴關系要求采用這些組件協(xié)同設計的方法,以保持系統(tǒng)的信號完整性。
總之,基于可靠的制造工藝,GDDR6內(nèi)存出色的性能特性使其成為AI推理的理想內(nèi)存解決方案。其性價比特性使其適合在廣泛的邊緣網(wǎng)絡和物聯(lián)網(wǎng)端點設備中大規(guī)模部署。
總之,GDDR6集帶寬、容量、電源效率、可靠性和性價比于一體。有了Rambus這樣值得信賴的合作伙伴,SoC設計師可以在應對24 Gb/s運行速度帶來的設計挑戰(zhàn)的同時,實現(xiàn)所有這些優(yōu)勢。
Part 3
全棧覆蓋:AI生態(tài)需要HBM3E與GDDR6的互補
鑒于AI/ML的雙重性質(zhì),內(nèi)存的選擇取決于應用場景:訓練或推理。這不是“或”的問題,而是“和”的問題,因為HBM3E和GDDR6這兩種高帶寬內(nèi)存都可以發(fā)揮至關重要的作用。
對于訓練而言,帶寬和容量是關鍵要求。考慮到訓練集每年增長10倍,情況尤其如此。訓練工作負載現(xiàn)在運行在大規(guī)模并行架構上。鑒于訓練所創(chuàng)造的價值,存在強大的“上市時間”激勵,以盡快完成訓練運行。此外,訓練應用在數(shù)據(jù)中心運行,電源和空間日益受限,因此對提供電源效率和更小尺寸的解決方案有很高的要求。
考慮到所有這些要求,HBM3E是AI訓練硬件的理想內(nèi)存解決方案。它提供了出色的帶寬和容量能力。該接口具有16個獨立通道,每個通道包含64位,總數(shù)據(jù)寬度為1024位。在標準數(shù)據(jù)速率6.4 Gb/s下,這提供了819.2 GB/s的總接口帶寬。其2.5/3D結構以非常緊湊的形式提供了這些功能,并且由于接口速度低以及內(nèi)存和處理器之間的接近性,功耗更低。
在推理方面,由于需要實時行動,帶寬和延遲至關重要。隨著推理部署在廣泛的邊緣和端點設備上,實現(xiàn)需要比數(shù)據(jù)中心核心更具成本敏感性。
對于AI推理這一日益具有挑戰(zhàn)性的領域,GDDR6是理想的解決方案。它可以通過單個或少量DRAM設備提供出色的帶寬:在24 Gb/s數(shù)據(jù)速率下,每個GDDR6存儲設備的內(nèi)存帶寬為96 GB/s?;诔墒斓闹圃旃に?,它提供了適合大規(guī)模部署的性價比特性。
其結果是,AI/ML并非單一的,訓練和推理都需要針對其特定要求的內(nèi)存解決方案。HBM3E和GDDR6分別滿足訓練和推理的需求,提供了這些應用所需的一系列強大優(yōu)勢。
如前所述,HBM3E和GDDR6在實現(xiàn)時都面臨設計挑戰(zhàn)。但有了Rambus這樣值得信賴的合作伙伴提供的解決方案,這些內(nèi)存的優(yōu)勢可以很容易地實現(xiàn)。
Part 4
從設計到落地:Rambus如何簡化AI內(nèi)存集成難題?
Rambus HBM3E/3內(nèi)存控制器
Rambus HBM3內(nèi)存控制器針對高帶寬和低延遲進行了優(yōu)化,以緊湊的外形和高效的電源效率為AI訓練提供了最大的性能和靈活性。
Rambus HBM3E/3內(nèi)存控制器使最大HBM2E信令速度翻倍以上,將數(shù)據(jù)速率提高到市場領先的每數(shù)據(jù)引腳9.6 Gb/s(遠高于6.4 Gb/s的標準速度)。
該接口具有16個獨立通道,每個通道包含64位,總數(shù)據(jù)寬度為1024位。在最大數(shù)據(jù)速率下,這為每個連接的HBM3E/3存儲設備提供了1228.8 GB/s或1.23 TB/s的總接口吞吐量。
核心通過簡單的本地接口接受命令,并將其轉(zhuǎn)換為HBM3E/3設備所需的命令序列。核心還執(zhí)行所有初始化、刷新和掉電功能。核心在命令隊列中排隊多個命令。這使得對于短傳輸?shù)礁叨入S機的地址位置以及長傳輸?shù)竭B續(xù)的地址空間,都能實現(xiàn)最佳的帶寬利用率。
命令隊列還用于機會性地執(zhí)行預激活、預充電和自動預充電,進一步提高整體吞吐量。重新排序功能完全集成到控制器命令隊列中,提高了吞吐量并最小化了門數(shù)。
其他關鍵特性包括:
- 支持HBM3E/3存儲設備
- 支持所有標準HBM3E/3通道密度(高達32 Gb)
- 支持高達9.6 Gb/s/引腳(HBM3E)或8.4 Gb/s/引腳(HBM3)
- 刷新管理(RFM)支持
- 通過預命令處理最大化內(nèi)存帶寬并最小化延遲
- 集成重新排序功能
- 在最小的路由限制下實現(xiàn)高時鐘速率
- 自刷新和掉電低功耗模式
- 支持HBM3E/3 RAS功能
- 內(nèi)置硬件級性能活動監(jiān)視器
- 兼容DFI
- 端到端數(shù)據(jù)奇偶校驗
- 支持到用戶邏輯的AXI或本地接口
- 提供全套附加核心,包括在線ECC核心
- 與目標HBM3E/3 PHY完全集成并驗證
Rambus GDDR6內(nèi)存控制器
Rambus GDDR6內(nèi)存控制器專為性能和電源效率而設計,支持AI/ML推理的高帶寬、低延遲要求。
Rambus GDDR6控制器完全符合JEDEC GDDR6 JESD250C標準。它提供行業(yè)領先的每引腳24 Gb/s的速度,并支持2個通道,每個通道16位,總數(shù)據(jù)寬度為32位。在每引腳24 Gb/s的速度下,Rambus GDDR6控制器提供96 GB/s的帶寬。
其他關鍵特性包括:
- 支持每引腳高達24 Gb/s的操作
- 一個控制器可處理兩個x16 GDDR6通道,或兩個控制器獨立處理
- 支持x8或x16翻蓋模式
- 基于隊列的接口優(yōu)化性能和吞吐量
- 通過預命令處理最大化內(nèi)存帶寬并最小化延遲
- 檢測到EDC錯誤時自動重試事務
- 完全運行時可配置的時序參數(shù)和內(nèi)存設置
- 支持自動和控制器啟動的訓練
- 兼容DFI(帶有GDDR6擴展)
- 提供全套附加核心,包括在線ECC核心
- 支持到用戶邏輯的AXI或本地接口
- 與目標GDDR6 PHY完全集成并驗證
Part 5
結論
AI/ML的發(fā)展繼續(xù)以閃電般的速度前進。訓練能力以每年10倍的速度增長,推動著計算硬件和軟件各個方面的快速改進。與此同時,AI推理正在網(wǎng)絡邊緣的特定應用硅和AI加速器中部署。
訓練和推理具有獨特的應用要求,可以通過定制的內(nèi)存解決方案來滿足,HBM3E非常適合前者,GDDR6適合后者。
設計師可以通過與Rambus合作,克服這些架構中固有的設計挑戰(zhàn),實現(xiàn)這些高性能內(nèi)存的優(yōu)勢。Rambus提供市場領先的HBM3E/3和GDDR6內(nèi)存控制器,可隨時集成到AI/ML訓練和推理SoC中。
資料來源:Rambus《HBM3 and GDDR6 Memory Solutions for AI》
https://go.rambus.com/l/803123/2020-03-02/wsx59/803123/1681938714dkV4H1uf/HBM3_and_GDDR6_Memory_Solutions_for_AI_wp.pdf