我爱Av01,中文字幕亚洲无线码,最近中文字幕mv免费视频,最近2018中文字幕免费看在线,两男添一女60分钟玩法介绍

供需大廳

登錄/注冊

公眾號

更多資訊,關注微信公眾號

小秘書

更多資訊,關注榮格小秘書

郵箱

您可以聯(lián)系我們 info@ringiertrade.com

電話

您可以撥打熱線

+86-21 6289-5533 x 269

建議或意見

+86-20 2885 5256

頂部

榮格工業(yè)資源APP

了解工業(yè)圈,從榮格工業(yè)資源APP開始。

打開

AI 算力之爭:HBM3E 與 GDDR6 如何重塑訓練與推理場景?

來源:Rambus 發(fā)布時間:2025-05-26 250
電子芯片其他 半導體技術專欄
根據(jù)場景的不同,HBM3E是AI訓練硬件的理想內(nèi)存解決方案。GDDR6更適合AI推理領域。

來源  /  Rambus;榮格電子芯片編譯

 

人工智能正在眾多技術市場中催生驚人的增長。這一點在AI訓練集的增長中得到了有力體現(xiàn),其規(guī)模正以每年10倍的速度增長,并且預計在這十年內(nèi)將繼續(xù)增長。

 

訓練AI系統(tǒng)的兩個不同計算使用時代

1搜狗高速瀏覽器截圖20250523140305.png

 

要跟上這種發(fā)展速度,僅靠摩爾定律所能實現(xiàn)的改進是遠遠不夠的,何況摩爾定律本身也在放緩。這就需要人工智能計算機硬件和軟件的各個方面都持續(xù)快速改進。

 

隨著我們進入計算的下一個時代并推動人工智能的持續(xù)發(fā)展,內(nèi)存帶寬將成為關鍵關注領域之一。

 

2搜狗高速瀏覽器截圖20250523140322.png

 

GDDR6和HBM3E具有不同的優(yōu)勢,在設計上需要權衡考量。在為AI/ML應用選擇HBM3E和GDDR6時,設計師必須考慮許多權衡因素和關鍵指標,包括成本、功耗、容量和實現(xiàn)復雜性。

 

3搜狗高速瀏覽器截圖20250523140333.png

 

在本白皮書中,我們將探討HBM3E和GDDR6的優(yōu)勢和設計注意事項。我們還將重點介紹每種內(nèi)存在整個AI/ML架構中的適用性。最后,我們將討論可用于實現(xiàn)完整內(nèi)存子系統(tǒng)的Rambus HBM3E和GDDR6內(nèi)存控制器解決方案。

 

Part 1

從HBM2到HBM3E:堆疊技術的進化與性能飛躍

 

高帶寬內(nèi)存(HBM)是一種高性能的2.5/3D堆疊SDRAM架構。2013年推出的第二代HBM2規(guī)定每個堆疊最多8個內(nèi)存芯片,引腳傳輸速率為2 Gb/s。HBM2每個封裝(DRAM堆疊)實現(xiàn)256 GB/s的內(nèi)存帶寬,HBM2規(guī)范支持每個封裝高達8 GB的容量。

 

2018年底,JEDEC發(fā)布了HBM2E規(guī)范,以支持更高的帶寬和容量。隨著每引腳傳輸速率提升至3.6 Gb/s,HBM2E每個堆疊可實現(xiàn)461 GB/s的內(nèi)存帶寬。此外,HBM2E支持12層堆疊,每個堆疊的內(nèi)存容量高達24 GB。

 4搜狗高速瀏覽器截圖20250523140803.png

 

HBM3代標準于2022年推出,能夠?qū)崿F(xiàn)更高的內(nèi)存帶寬。通過6.4 Gb/s運行的接口連接到處理器的四個HBM3堆疊可提供超過3.2 TB/s的帶寬。

 

借助內(nèi)存的3D堆疊,可在極小的空間內(nèi)實現(xiàn)高帶寬和高容量。此外,通過保持相對較低的數(shù)據(jù)速率以及內(nèi)存與處理器的近距離,整體系統(tǒng)功耗得以保持較低水平。

 

隨著對更高內(nèi)存帶寬的需求持續(xù)增長,行業(yè)已推出工作速率達9.6 Gb/s及以上的HBM3E存儲設備。Rambus支持運行速率高達9.6 Gb/s的HBM3E接口,充分展示了這種內(nèi)存架構的全部功能。

 

所有版本的HBM都以“相對較低”的數(shù)據(jù)速率運行,但通過極寬的接口實現(xiàn)了非常高的帶寬。例如,運行速率高達6.4 Gb/s的HBM3堆疊通過1024條數(shù)據(jù)“線”的接口連接到其相關處理器。

 

加上命令和地址,線的數(shù)量增加到約1700條。這遠遠超過了標準PCB的支持能力。因此,硅中介層被用作連接內(nèi)存堆疊和處理器的中介。與SoC一樣,可在硅中介層中蝕刻精細間隔的數(shù)據(jù)跡線,以實現(xiàn)HBM接口所需的線數(shù)。

 

HBM的設計權衡在于復雜性和成本的增加。中介層是必須設計、表征和制造的附加元件。與制造傳統(tǒng)DDR型內(nèi)存(包括GDDR)所積累的巨大產(chǎn)量和制造經(jīng)驗相比,3D堆疊內(nèi)存的出貨量相形見絀。最終,HBM3E/3的實現(xiàn)和制造成本高于GDDR6。

 

副本_未命名__2025-05-23+14_42_20.jpg

圖片來源  / 豆包

 

然而,對于AI訓練應用,HBM3E/3的優(yōu)勢使其成為更優(yōu)選擇。其帶寬性能卓越,更高的實現(xiàn)和制造成本可以通過節(jié)省板空間和功耗來權衡。

 

在物理空間日益受限的數(shù)據(jù)中心環(huán)境中,HBM3E/3的緊湊架構提供了切實的優(yōu)勢。其較低的功耗意味著更低的熱負荷,而在數(shù)據(jù)中心環(huán)境中,冷卻通常是首要的運營成本之一。

 

總之,HBM3E/3為系統(tǒng)設計師提供了極高的帶寬能力和最佳的電源效率。盡管由于更大的設計復雜性和制造成本,HBM3E/3系統(tǒng)的實現(xiàn)可能具有挑戰(zhàn)性,但板空間和冷卻方面的節(jié)省可能非??捎^。

 

對于AI訓練,HBM3E/3是理想的解決方案。它建立在HBM2和HBM2E的成功基礎之上,這些產(chǎn)品已在領先的AI加速器中得到應用。

 

Part 2

GDDR6設計難點:24 Gb/s信號完整性的極限挑戰(zhàn)

 

圖形DDR SDRAM(GDDR SDRAM)最初是為二十多年前的游戲和圖形市場設計的。在此期間,GDDR經(jīng)歷了幾次重大演變,最新一代GDDR6的數(shù)據(jù)速率高達24 Gb/s。

 

GDDR6在帶寬、容量、延遲和功耗方面實現(xiàn)了令人印象深刻的組合。Rambus支持運行速率為24 Gb/s的GDDR6接口,充分展示了這種內(nèi)存架構的全部功能。

 5搜狗高速瀏覽器截圖20250523140820.png

 

與HBM3E/3不同,GDDR6 DRAM依賴于與生產(chǎn)標準DDR型DRAM相同的高容量制造和組裝技術。更具體地說,GDDR6采用傳統(tǒng)方法,通過標準PCB將封裝和測試后的DRAM與SoC連接在一起。利用現(xiàn)有基礎設施和流程為系統(tǒng)設計師提供了熟悉感,從而降低了成本和實現(xiàn)復雜性。

 

基于經(jīng)過時間考驗的制造工藝,GDDR6內(nèi)存出色的性價比使其成為AI推理應用的絕佳選擇。

 

與HBM3E/3的寬而慢的內(nèi)存接口不同,GDDR6接口窄而快。兩個16位寬的通道(32條數(shù)據(jù)線)將GDDR6 PHY連接到相關的SDRAM。在每引腳24 Gb/s的速率下,GDDR6接口可提供96 GB/s的帶寬。

 

GDDR6實現(xiàn)的主要設計挑戰(zhàn)源于其最強特性之一:速度。在24 Gb/s的速度下保持信號完整性(SI),尤其是在較低電壓下,需要豐富的專業(yè)知識。設計師面臨更嚴格的時序和電壓裕量,同時損耗源的數(shù)量及其影響都迅速增加。接口、封裝和板的行為之間的相互依賴關系要求采用這些組件協(xié)同設計的方法,以保持系統(tǒng)的信號完整性。

 

總之,基于可靠的制造工藝,GDDR6內(nèi)存出色的性能特性使其成為AI推理的理想內(nèi)存解決方案。其性價比特性使其適合在廣泛的邊緣網(wǎng)絡和物聯(lián)網(wǎng)端點設備中大規(guī)模部署。

 

總之,GDDR6集帶寬、容量、電源效率、可靠性和性價比于一體。有了Rambus這樣值得信賴的合作伙伴,SoC設計師可以在應對24 Gb/s運行速度帶來的設計挑戰(zhàn)的同時,實現(xiàn)所有這些優(yōu)勢。

 

Part 3

全棧覆蓋:AI生態(tài)需要HBM3E與GDDR6的互補

 

鑒于AI/ML的雙重性質(zhì),內(nèi)存的選擇取決于應用場景:訓練或推理。這不是“或”的問題,而是“和”的問題,因為HBM3E和GDDR6這兩種高帶寬內(nèi)存都可以發(fā)揮至關重要的作用。

 

對于訓練而言,帶寬和容量是關鍵要求。考慮到訓練集每年增長10倍,情況尤其如此。訓練工作負載現(xiàn)在運行在大規(guī)模并行架構上。鑒于訓練所創(chuàng)造的價值,存在強大的“上市時間”激勵,以盡快完成訓練運行。此外,訓練應用在數(shù)據(jù)中心運行,電源和空間日益受限,因此對提供電源效率和更小尺寸的解決方案有很高的要求。

 

考慮到所有這些要求,HBM3E是AI訓練硬件的理想內(nèi)存解決方案。它提供了出色的帶寬和容量能力。該接口具有16個獨立通道,每個通道包含64位,總數(shù)據(jù)寬度為1024位。在標準數(shù)據(jù)速率6.4 Gb/s下,這提供了819.2 GB/s的總接口帶寬。其2.5/3D結構以非常緊湊的形式提供了這些功能,并且由于接口速度低以及內(nèi)存和處理器之間的接近性,功耗更低。

 

在推理方面,由于需要實時行動,帶寬和延遲至關重要。隨著推理部署在廣泛的邊緣和端點設備上,實現(xiàn)需要比數(shù)據(jù)中心核心更具成本敏感性。

 

對于AI推理這一日益具有挑戰(zhàn)性的領域,GDDR6是理想的解決方案。它可以通過單個或少量DRAM設備提供出色的帶寬:在24 Gb/s數(shù)據(jù)速率下,每個GDDR6存儲設備的內(nèi)存帶寬為96 GB/s?;诔墒斓闹圃旃に?,它提供了適合大規(guī)模部署的性價比特性。

 

其結果是,AI/ML并非單一的,訓練和推理都需要針對其特定要求的內(nèi)存解決方案。HBM3E和GDDR6分別滿足訓練和推理的需求,提供了這些應用所需的一系列強大優(yōu)勢。

 

如前所述,HBM3E和GDDR6在實現(xiàn)時都面臨設計挑戰(zhàn)。但有了Rambus這樣值得信賴的合作伙伴提供的解決方案,這些內(nèi)存的優(yōu)勢可以很容易地實現(xiàn)。

 

Part 4

從設計到落地:Rambus如何簡化AI內(nèi)存集成難題?

 

  • Rambus HBM3E/3內(nèi)存控制器

 

Rambus HBM3內(nèi)存控制器針對高帶寬和低延遲進行了優(yōu)化,以緊湊的外形和高效的電源效率為AI訓練提供了最大的性能和靈活性。

 

Rambus HBM3E/3內(nèi)存控制器使最大HBM2E信令速度翻倍以上,將數(shù)據(jù)速率提高到市場領先的每數(shù)據(jù)引腳9.6 Gb/s(遠高于6.4 Gb/s的標準速度)。

 

該接口具有16個獨立通道,每個通道包含64位,總數(shù)據(jù)寬度為1024位。在最大數(shù)據(jù)速率下,這為每個連接的HBM3E/3存儲設備提供了1228.8 GB/s或1.23 TB/s的總接口吞吐量。

 

6搜狗高速瀏覽器截圖20250523140837.png

 

核心通過簡單的本地接口接受命令,并將其轉(zhuǎn)換為HBM3E/3設備所需的命令序列。核心還執(zhí)行所有初始化、刷新和掉電功能。核心在命令隊列中排隊多個命令。這使得對于短傳輸?shù)礁叨入S機的地址位置以及長傳輸?shù)竭B續(xù)的地址空間,都能實現(xiàn)最佳的帶寬利用率。

 

命令隊列還用于機會性地執(zhí)行預激活、預充電和自動預充電,進一步提高整體吞吐量。重新排序功能完全集成到控制器命令隊列中,提高了吞吐量并最小化了門數(shù)。

 

其他關鍵特性包括:

- 支持HBM3E/3存儲設備

- 支持所有標準HBM3E/3通道密度(高達32 Gb)

- 支持高達9.6 Gb/s/引腳(HBM3E)或8.4 Gb/s/引腳(HBM3)

- 刷新管理(RFM)支持

- 通過預命令處理最大化內(nèi)存帶寬并最小化延遲

- 集成重新排序功能

- 在最小的路由限制下實現(xiàn)高時鐘速率

- 自刷新和掉電低功耗模式

- 支持HBM3E/3 RAS功能

- 內(nèi)置硬件級性能活動監(jiān)視器

- 兼容DFI

- 端到端數(shù)據(jù)奇偶校驗

- 支持到用戶邏輯的AXI或本地接口

- 提供全套附加核心,包括在線ECC核心

- 與目標HBM3E/3 PHY完全集成并驗證

 

  • Rambus GDDR6內(nèi)存控制器

 

Rambus GDDR6內(nèi)存控制器專為性能和電源效率而設計,支持AI/ML推理的高帶寬、低延遲要求。

 

7搜狗高速瀏覽器截圖20250523140855.png

 

Rambus GDDR6控制器完全符合JEDEC GDDR6 JESD250C標準。它提供行業(yè)領先的每引腳24 Gb/s的速度,并支持2個通道,每個通道16位,總數(shù)據(jù)寬度為32位。在每引腳24 Gb/s的速度下,Rambus GDDR6控制器提供96 GB/s的帶寬。

 

其他關鍵特性包括:

- 支持每引腳高達24 Gb/s的操作

- 一個控制器可處理兩個x16 GDDR6通道,或兩個控制器獨立處理

- 支持x8或x16翻蓋模式

- 基于隊列的接口優(yōu)化性能和吞吐量

- 通過預命令處理最大化內(nèi)存帶寬并最小化延遲

- 檢測到EDC錯誤時自動重試事務

- 完全運行時可配置的時序參數(shù)和內(nèi)存設置

- 支持自動和控制器啟動的訓練

- 兼容DFI(帶有GDDR6擴展)

- 提供全套附加核心,包括在線ECC核心

- 支持到用戶邏輯的AXI或本地接口

- 與目標GDDR6 PHY完全集成并驗證

 

Part 5

結論

 

AI/ML的發(fā)展繼續(xù)以閃電般的速度前進。訓練能力以每年10倍的速度增長,推動著計算硬件和軟件各個方面的快速改進。與此同時,AI推理正在網(wǎng)絡邊緣的特定應用硅和AI加速器中部署。

 

訓練和推理具有獨特的應用要求,可以通過定制的內(nèi)存解決方案來滿足,HBM3E非常適合前者,GDDR6適合后者。

 

設計師可以通過與Rambus合作,克服這些架構中固有的設計挑戰(zhàn),實現(xiàn)這些高性能內(nèi)存的優(yōu)勢。Rambus提供市場領先的HBM3E/3和GDDR6內(nèi)存控制器,可隨時集成到AI/ML訓練和推理SoC中。

 

資料來源:Rambus《HBM3 and GDDR6 Memory Solutions for AI》

https://go.rambus.com/l/803123/2020-03-02/wsx59/803123/1681938714dkV4H1uf/HBM3_and_GDDR6_Memory_Solutions_for_AI_wp.pdf

關注微信公眾號 - 榮格電子芯片
聚焦電子芯片制造領域的技術資訊、企業(yè)動態(tài)以及前沿創(chuàng)新,涵蓋半導體、集成電路、貼片封裝等多個行業(yè)領域的解決方案。
推薦新聞