我爱Av01,中文字幕亚洲无线码,最近中文字幕mv免费视频,最近2018中文字幕免费看在线,两男添一女60分钟玩法介绍

<pre id="nhgii"><strike id="nhgii"></strike></pre>

<nobr id="nhgii"></nobr>

<pre id="nhgii"><menu id="nhgii"><input id="nhgii"></input></menu></pre>

歡迎來到榮格工業(yè)資源網(wǎng)!

行業(yè)資訊

在線研討會

榮格工業(yè)精彩聚焦

供需大廳

登錄/注冊

公眾號

更多資訊，關注微信公眾號

小秘書

更多資訊，關注榮格小秘書

郵箱

您可以聯(lián)系我們 info@ringiertrade.com

電話

您可以撥打熱線

+86-21 6289-5533 x 269

建議或意見

+86-20 2885 5256

頂部

榮格工業(yè)資源APP

了解工業(yè)圈，從榮格工業(yè)資源APP開始。

打開

首頁：行業(yè)資訊 > AI 算力之爭：HBM3E 與 GDDR6 如何重塑訓練與推理場景？

AI 算力之爭：HBM3E 與 GDDR6 如何重塑訓練與推理場景？

來源：Rambus 發(fā)布時間：2025-05-26 250

電子芯片其他半導體技術專欄

根據(jù)場景的不同，HBM3E是AI訓練硬件的理想內(nèi)存解決方案。GDDR6更適合AI推理領域。

來源 / Rambus;榮格電子芯片編譯

人工智能正在眾多技術市場中催生驚人的增長。這一點在AI訓練集的增長中得到了有力體現(xiàn)，其規(guī)模正以每年10倍的速度增長，并且預計在這十年內(nèi)將繼續(xù)增長。

訓練AI系統(tǒng)的兩個不同計算使用時代

1搜狗高速瀏覽器截圖20250523140305.png

要跟上這種發(fā)展速度，僅靠摩爾定律所能實現(xiàn)的改進是遠遠不夠的，何況摩爾定律本身也在放緩。這就需要人工智能計算機硬件和軟件的各個方面都持續(xù)快速改進。

隨著我們進入計算的下一個時代并推動人工智能的持續(xù)發(fā)展，內(nèi)存帶寬將成為關鍵關注領域之一。

2搜狗高速瀏覽器截圖20250523140322.png

GDDR6和HBM3E具有不同的優(yōu)勢，在設計上需要權衡考量。在為AI/ML應用選擇HBM3E和GDDR6時，設計師必須考慮許多權衡因素和關鍵指標，包括成本、功耗、容量和實現(xiàn)復雜性。

3搜狗高速瀏覽器截圖20250523140333.png

在本白皮書中，我們將探討HBM3E和GDDR6的優(yōu)勢和設計注意事項。我們還將重點介紹每種內(nèi)存在整個AI/ML架構中的適用性。最后，我們將討論可用于實現(xiàn)完整內(nèi)存子系統(tǒng)的Rambus HBM3E和GDDR6內(nèi)存控制器解決方案。

Part 1

從HBM2到HBM3E：堆疊技術的進化與性能飛躍

高帶寬內(nèi)存（HBM）是一種高性能的2.5/3D堆疊SDRAM架構。2013年推出的第二代HBM2規(guī)定每個堆疊最多8個內(nèi)存芯片，引腳傳輸速率為2 Gb/s。HBM2每個封裝（DRAM堆疊）實現(xiàn)256 GB/s的內(nèi)存帶寬，HBM2規(guī)范支持每個封裝高達8 GB的容量。

2018年底，JEDEC發(fā)布了HBM2E規(guī)范，以支持更高的帶寬和容量。隨著每引腳傳輸速率提升至3.6 Gb/s，HBM2E每個堆疊可實現(xiàn)461 GB/s的內(nèi)存帶寬。此外，HBM2E支持12層堆疊，每個堆疊的內(nèi)存容量高達24 GB。

4搜狗高速瀏覽器截圖20250523140803.png

HBM3代標準于2022年推出，能夠?qū)崿F(xiàn)更高的內(nèi)存帶寬。通過6.4 Gb/s運行的接口連接到處理器的四個HBM3堆疊可提供超過3.2 TB/s的帶寬。

借助內(nèi)存的3D堆疊，可在極小的空間內(nèi)實現(xiàn)高帶寬和高容量。此外，通過保持相對較低的數(shù)據(jù)速率以及內(nèi)存與處理器的近距離，整體系統(tǒng)功耗得以保持較低水平。

隨著對更高內(nèi)存帶寬的需求持續(xù)增長，行業(yè)已推出工作速率達9.6 Gb/s及以上的HBM3E存儲設備。Rambus支持運行速率高達9.6 Gb/s的HBM3E接口，充分展示了這種內(nèi)存架構的全部功能。

所有版本的HBM都以“相對較低”的數(shù)據(jù)速率運行，但通過極寬的接口實現(xiàn)了非常高的帶寬。例如，運行速率高達6.4 Gb/s的HBM3堆疊通過1024條數(shù)據(jù)“線”的接口連接到其相關處理器。

加上命令和地址，線的數(shù)量增加到約1700條。這遠遠超過了標準PCB的支持能力。因此，硅中介層被用作連接內(nèi)存堆疊和處理器的中介。與SoC一樣，可在硅中介層中蝕刻精細間隔的數(shù)據(jù)跡線，以實現(xiàn)HBM接口所需的線數(shù)。

HBM的設計權衡在于復雜性和成本的增加。中介層是必須設計、表征和制造的附加元件。與制造傳統(tǒng)DDR型內(nèi)存（包括GDDR）所積累的巨大產(chǎn)量和制造經(jīng)驗相比，3D堆疊內(nèi)存的出貨量相形見絀。最終，HBM3E/3的實現(xiàn)和制造成本高于GDDR6。

副本_未命名__2025-05-23+14_42_20.jpg

圖片來源 / 豆包

然而，對于AI訓練應用，HBM3E/3的優(yōu)勢使其成為更優(yōu)選擇。其帶寬性能卓越，更高的實現(xiàn)和制造成本可以通過節(jié)省板空間和功耗來權衡。

在物理空間日益受限的數(shù)據(jù)中心環(huán)境中，HBM3E/3的緊湊架構提供了切實的優(yōu)勢。其較低的功耗意味著更低的熱負荷，而在數(shù)據(jù)中心環(huán)境中，冷卻通常是首要的運營成本之一。

總之，HBM3E/3為系統(tǒng)設計師提供了極高的帶寬能力和最佳的電源效率。盡管由于更大的設計復雜性和制造成本，HBM3E/3系統(tǒng)的實現(xiàn)可能具有挑戰(zhàn)性，但板空間和冷卻方面的節(jié)省可能非?？捎^。

對于AI訓練，HBM3E/3是理想的解決方案。它建立在HBM2和HBM2E的成功基礎之上，這些產(chǎn)品已在領先的AI加速器中得到應用。

Part 2

GDDR6設計難點：24 Gb/s信號完整性的極限挑戰(zhàn)

圖形DDR SDRAM（GDDR SDRAM）最初是為二十多年前的游戲和圖形市場設計的。在此期間，GDDR經(jīng)歷了幾次重大演變，最新一代GDDR6的數(shù)據(jù)速率高達24 Gb/s。

GDDR6在帶寬、容量、延遲和功耗方面實現(xiàn)了令人印象深刻的組合。Rambus支持運行速率為24 Gb/s的GDDR6接口，充分展示了這種內(nèi)存架構的全部功能。

5搜狗高速瀏覽器截圖20250523140820.png

與HBM3E/3不同，GDDR6 DRAM依賴于與生產(chǎn)標準DDR型DRAM相同的高容量制造和組裝技術。更具體地說，GDDR6采用傳統(tǒng)方法，通過標準PCB將封裝和測試后的DRAM與SoC連接在一起。利用現(xiàn)有基礎設施和流程為系統(tǒng)設計師提供了熟悉感，從而降低了成本和實現(xiàn)復雜性。

基于經(jīng)過時間考驗的制造工藝，GDDR6內(nèi)存出色的性價比使其成為AI推理應用的絕佳選擇。

與HBM3E/3的寬而慢的內(nèi)存接口不同，GDDR6接口窄而快。兩個16位寬的通道（32條數(shù)據(jù)線）將GDDR6 PHY連接到相關的SDRAM。在每引腳24 Gb/s的速率下，GDDR6接口可提供96 GB/s的帶寬。

GDDR6實現(xiàn)的主要設計挑戰(zhàn)源于其最強特性之一：速度。在24 Gb/s的速度下保持信號完整性（SI），尤其是在較低電壓下，需要豐富的專業(yè)知識。設計師面臨更嚴格的時序和電壓裕量，同時損耗源的數(shù)量及其影響都迅速增加。接口、封裝和板的行為之間的相互依賴關系要求采用這些組件協(xié)同設計的方法，以保持系統(tǒng)的信號完整性。

總之，基于可靠的制造工藝，GDDR6內(nèi)存出色的性能特性使其成為AI推理的理想內(nèi)存解決方案。其性價比特性使其適合在廣泛的邊緣網(wǎng)絡和物聯(lián)網(wǎng)端點設備中大規(guī)模部署。

總之，GDDR6集帶寬、容量、電源效率、可靠性和性價比于一體。有了Rambus這樣值得信賴的合作伙伴，SoC設計師可以在應對24 Gb/s運行速度帶來的設計挑戰(zhàn)的同時，實現(xiàn)所有這些優(yōu)勢。

Part 3

全棧覆蓋：AI生態(tài)需要HBM3E與GDDR6的互補

鑒于AI/ML的雙重性質(zhì)，內(nèi)存的選擇取決于應用場景：訓練或推理。這不是“或”的問題，而是“和”的問題，因為HBM3E和GDDR6這兩種高帶寬內(nèi)存都可以發(fā)揮至關重要的作用。

對于訓練而言，帶寬和容量是關鍵要求。考慮到訓練集每年增長10倍，情況尤其如此。訓練工作負載現(xiàn)在運行在大規(guī)模并行架構上。鑒于訓練所創(chuàng)造的價值，存在強大的“上市時間”激勵，以盡快完成訓練運行。此外，訓練應用在數(shù)據(jù)中心運行，電源和空間日益受限，因此對提供電源效率和更小尺寸的解決方案有很高的要求。

考慮到所有這些要求，HBM3E是AI訓練硬件的理想內(nèi)存解決方案。它提供了出色的帶寬和容量能力。該接口具有16個獨立通道，每個通道包含64位，總數(shù)據(jù)寬度為1024位。在標準數(shù)據(jù)速率6.4 Gb/s下，這提供了819.2 GB/s的總接口帶寬。其2.5/3D結構以非常緊湊的形式提供了這些功能，并且由于接口速度低以及內(nèi)存和處理器之間的接近性，功耗更低。

在推理方面，由于需要實時行動，帶寬和延遲至關重要。隨著推理部署在廣泛的邊緣和端點設備上，實現(xiàn)需要比數(shù)據(jù)中心核心更具成本敏感性。

對于AI推理這一日益具有挑戰(zhàn)性的領域，GDDR6是理想的解決方案。它可以通過單個或少量DRAM設備提供出色的帶寬：在24 Gb/s數(shù)據(jù)速率下，每個GDDR6存儲設備的內(nèi)存帶寬為96 GB/s?；诔墒斓闹圃旃に?，它提供了適合大規(guī)模部署的性價比特性。

其結果是，AI/ML并非單一的，訓練和推理都需要針對其特定要求的內(nèi)存解決方案。HBM3E和GDDR6分別滿足訓練和推理的需求，提供了這些應用所需的一系列強大優(yōu)勢。

如前所述，HBM3E和GDDR6在實現(xiàn)時都面臨設計挑戰(zhàn)。但有了Rambus這樣值得信賴的合作伙伴提供的解決方案，這些內(nèi)存的優(yōu)勢可以很容易地實現(xiàn)。

Part 4

從設計到落地：Rambus如何簡化AI內(nèi)存集成難題？

Rambus HBM3E/3內(nèi)存控制器

Rambus HBM3內(nèi)存控制器針對高帶寬和低延遲進行了優(yōu)化，以緊湊的外形和高效的電源效率為AI訓練提供了最大的性能和靈活性。

Rambus HBM3E/3內(nèi)存控制器使最大HBM2E信令速度翻倍以上，將數(shù)據(jù)速率提高到市場領先的每數(shù)據(jù)引腳9.6 Gb/s（遠高于6.4 Gb/s的標準速度）。

該接口具有16個獨立通道，每個通道包含64位，總數(shù)據(jù)寬度為1024位。在最大數(shù)據(jù)速率下，這為每個連接的HBM3E/3存儲設備提供了1228.8 GB/s或1.23 TB/s的總接口吞吐量。

6搜狗高速瀏覽器截圖20250523140837.png

核心通過簡單的本地接口接受命令，并將其轉(zhuǎn)換為HBM3E/3設備所需的命令序列。核心還執(zhí)行所有初始化、刷新和掉電功能。核心在命令隊列中排隊多個命令。這使得對于短傳輸?shù)礁叨入S機的地址位置以及長傳輸?shù)竭B續(xù)的地址空間，都能實現(xiàn)最佳的帶寬利用率。

命令隊列還用于機會性地執(zhí)行預激活、預充電和自動預充電，進一步提高整體吞吐量。重新排序功能完全集成到控制器命令隊列中，提高了吞吐量并最小化了門數(shù)。

其他關鍵特性包括：

- 支持HBM3E/3存儲設備

- 支持所有標準HBM3E/3通道密度（高達32 Gb）

- 支持高達9.6 Gb/s/引腳（HBM3E）或8.4 Gb/s/引腳（HBM3）

- 刷新管理（RFM）支持

- 通過預命令處理最大化內(nèi)存帶寬并最小化延遲

- 集成重新排序功能

- 在最小的路由限制下實現(xiàn)高時鐘速率

- 自刷新和掉電低功耗模式

- 支持HBM3E/3 RAS功能

- 內(nèi)置硬件級性能活動監(jiān)視器

- 兼容DFI

- 端到端數(shù)據(jù)奇偶校驗

- 支持到用戶邏輯的AXI或本地接口

- 提供全套附加核心，包括在線ECC核心

- 與目標HBM3E/3 PHY完全集成并驗證

Rambus GDDR6內(nèi)存控制器

Rambus GDDR6內(nèi)存控制器專為性能和電源效率而設計，支持AI/ML推理的高帶寬、低延遲要求。

7搜狗高速瀏覽器截圖20250523140855.png

Rambus GDDR6控制器完全符合JEDEC GDDR6 JESD250C標準。它提供行業(yè)領先的每引腳24 Gb/s的速度，并支持2個通道，每個通道16位，總數(shù)據(jù)寬度為32位。在每引腳24 Gb/s的速度下，Rambus GDDR6控制器提供96 GB/s的帶寬。

其他關鍵特性包括：

- 支持每引腳高達24 Gb/s的操作

- 一個控制器可處理兩個x16 GDDR6通道，或兩個控制器獨立處理

- 支持x8或x16翻蓋模式

- 基于隊列的接口優(yōu)化性能和吞吐量

- 通過預命令處理最大化內(nèi)存帶寬并最小化延遲

- 檢測到EDC錯誤時自動重試事務

- 完全運行時可配置的時序參數(shù)和內(nèi)存設置

- 支持自動和控制器啟動的訓練

- 兼容DFI（帶有GDDR6擴展）

- 提供全套附加核心，包括在線ECC核心

- 支持到用戶邏輯的AXI或本地接口

- 與目標GDDR6 PHY完全集成并驗證

Part 5

結論

AI/ML的發(fā)展繼續(xù)以閃電般的速度前進。訓練能力以每年10倍的速度增長，推動著計算硬件和軟件各個方面的快速改進。與此同時，AI推理正在網(wǎng)絡邊緣的特定應用硅和AI加速器中部署。

訓練和推理具有獨特的應用要求，可以通過定制的內(nèi)存解決方案來滿足，HBM3E非常適合前者，GDDR6適合后者。

設計師可以通過與Rambus合作，克服這些架構中固有的設計挑戰(zhàn)，實現(xiàn)這些高性能內(nèi)存的優(yōu)勢。Rambus提供市場領先的HBM3E/3和GDDR6內(nèi)存控制器，可隨時集成到AI/ML訓練和推理SoC中。

資料來源：Rambus《HBM3 and GDDR6 Memory Solutions for AI》

https://go.rambus.com/l/803123/2020-03-02/wsx59/803123/1681938714dkV4H1uf/HBM3_and_GDDR6_Memory_Solutions_for_AI_wp.pdf

關注微信公眾號 - 榮格電子芯片

聚焦電子芯片制造領域的技術資訊、企業(yè)動態(tài)以及前沿創(chuàng)新，涵蓋半導體、集成電路、貼片封裝等多個行業(yè)領域的解決方案。

推薦新聞

<samp id="04vci"></samp>