> > > > Warum HBM mehr als nur eine Erhöhung der Speicherbandbreite ist

Warum HBM mehr als nur eine Erhöhung der Speicherbandbreite ist

DruckenE-Mail
Erstellt am: von

hbmMit den kommenden beiden neuen GPU-Architekturen bzw. "Graphics Core Next"-Ausbaustufen konzentriert sich vieles auf eine schnellere Speicheranbindung. AMD wird vermutlich in wenigen Wochen die "Fiji"-GPU vorstellen, die auf High Bandwidth Memory der 1. Generation setzt und damit auf eine Speicherbandbreite von 640 GB pro Sekunde kommt. Damit sprechen wir von einer Verdopplung der Speicherbandbreite gegenüber der aktuellen GPU-Generation mit schnellem GDDR5-Speicher. Mit der 2. Generation von HBM soll sich dieser Trend sogar noch weiter steigern und über 1 TB pro Sekunde möglich sein.

Offen ist derzeit aber die Frage, in wie weit die nächsten Grafikkarten von dieser hohen Speicherbandbreite profitieren werden. Bereits bei den aktuellen Karten führt der Blick immer wieder auf den Speicherausbau und dessen Anbindung. Bei der GeForce GTX 980 (Hardwareluxx-Artikel) haben wir dies untersucht und konnten keine echte Limitierung durch das nur 256 Bit breite Speicherinterface feststellen. Die Speicherkomprimierung der "Maxwell"-Architektur spielt bei NVIDIA in diesem Bereich offenbar aber auch eine entscheidende Rolle. Mit der GeForce GTX Titan X (Hardwareluxx-Artikel) und ihrem Speicherausbau von 12 GB spielte dann weniger die Anbindung als schlichtweg die Kapazität die entscheidende Rolle. Mehr als 6 oder 8 GB an Grafikspeicher, wie AMD es für die beiden "Fiji"-Karten plant, dürften auf absehbare Zeit wenig sinnvoll sein. Die 12 GB der GeForce GTX Titan X konnten wir nicht auslasten.

Pascal-Modul mit HBM
Pascal-Modul mit HBM (rot eingefärbt).

Doch zurück zu HBM: Die hohe Speicherbandbreite ist sicherlich einer der wichtigsten, aber nicht der alleinstehende Grund für den Einsatz dieses Speichers. Aktuelle GPU-Architekturen sowie der dazugehörige Speicher bzw. dessen Anbindung sind aufeinander abgestimmt. Es macht daher kaum Sinn ein aktuelles GPU-Design auf den schnelleren HBM zu übertragen und hier entsprechende Simulationen oder Hochrechnungen durchzuführen. Die weiteren Einflüssen von HBM sind weitestgehend unbekannt und lassen sich auch nicht simulieren. Sowohl AMD als auch NVIDIA haben sich bereits zum Einsatz von HBM geäußert und auch schon einige Details verraten, die wir uns nun etwas genauer anschauen wollen.

1. HBM hat eine geringere Leistungsaufnahme

Vorteile von High Bandwidth Memory
Vorteile von High Bandwidth Memory

Rückt der Speicher derart dicht in die Nähe der GPU, wird die Leistungsaufnahme zu einem entscheidenden Faktor, da die Abwärme auch irgendwie abgeführt werden muss. Einsparungen beim Stromverbrauch sind also weniger für den Nutzer auf der Stromrechnung interessant, als vielmehr für die Entwicklung der Grafikkarten bzw. GPUs. NVIDIA vergleicht die Leistungsaufnahme zwischen DRAM und HBM und kommt auf etwa 18-22 pJ/Bit bei DRAM und 6-7 pJ/Bit bei HBM. Dies entspricht einer Reduzierung auf 33 Prozent des ursprünglichen Verbrauchs.

2. HBM arbeitet mit niedrigeren Latenzen

Vorteile von High Bandwidth Memory
Vorteile von High Bandwidth Memory

Neben der Speicherbandbreite spielen auch möglichst geringe Latenzen eine wichtige Rolle. Dies kennen wir bereits in Form der Timings von klassischem Arbeitsspeicher. Aufgrund seines Aufbaus kann HBM mit unterschiedlichen Taktraten und Timings für die verschiedenen Stacks und Channel arbeiten. Diese unterschiedlichen Timings (tRC, tRRD, tRP, tFAW, etc.) könne entsprechend den Anforderungen unterschiedlich eingestellt und genutzt werden.

3. Single Refresh Bank/Cell bei HBM:

Vorteile von High Bandwidth Memory
Vorteile von High Bandwidth Memory

Klassischer DRAM-Speicher setzt in vorher definierten Zeiträumen eine Refresh-Operation voraus, welche den Inhalt des Speichers weiterhin nutzbar macht. Üblicherweise erfolgt dies in Zeiträumen von etwa 1 µs. Da während der Refresh-Operation keine anderen Operationen auf dem Speicher ausgeführt werden können, führt dies zu einem Overhead von 5 bis 10 % über der insgesamt zur Verfügung stehenden Speicherbandbreite. Je größer die Speicherkapazität wird, desto größer wird auch der Overhead durch die Refresh-Operationen.

Vorteile von High Bandwidth Memory
Vorteile von High Bandwidth Memory

Beim HBM kümmern sich die Controller einer Speicherbank eigenständig um die Refresh-Operationen und müssen diese auch nicht mehr simultan ausführen. Bis auf die Ebene einer einzelnen Speicherzelle herunter wäre ein eigenständiges Verhalten in dieser Hinsicht denkbar, aber nicht immer sinnvoll. Der Single Refresh Bank birgt also noch weiteres Optimierungspotenzial für AMD und NVIDIA bei der Verwaltung des Speichers.

4. Flexible Nutzung von ECC:

Vorteile von High Bandwidth Memory
Vorteile von High Bandwidth Memory

Sowohl AMD als auch NVIDIA bieten Grafikkarten mit Error-Correcting Code (ECC) Speicher an. Dabei werden eventuelle Übertragungsfehler oder solche in der Vorhaltung der Daten im Speicher erkannt und können auch wieder korrigiert werden. Allerdings sind diese Prozesse auch rechenintensiv und verschlingen einen Teil der zur Verfügung stehenden Speicherbandbreite bzw. des Speicherplatzes. Mit HBM können die einzelnen Stacks untereinander eigenständig operieren und für sich selbst festlegen, ob sie ECC verwenden oder nicht. Verwendet eine GPU demnach 8 GB an Grafikspeicher, können 4 GB durch ECC geschützt sein und die weiteren 4 GB verbleiben ohne Schutz durch ECC. Weiterhin sollen dabei die vollen 640 GB pro Sekunde an Speicherbandbreite zur Verfügung stehen.

5. Split Command Interfaces

Vorteile von High Bandwidth Memory
Vorteile von High Bandwidth Memory

Für jeden der 128 Bit breiten Channel können nicht nur unterschiedliche Frequenzen verwendet werden, sondern diese verwenden auch jeweils Command Interfaces, die unabhängig voneinander sind. Unterteilt sind diese in "Column Commands" (Read/Write) und "Row Commands" (ACT/PRE). Theoretisch ist der Speichercontroller damit in der Lage die Command-Bandbreite komplett zu saturieren, was letztendlich zu einer höheren Speicherbandbreite führt, ohne das zu viele weitere Commands übertragen werden müssen. Es erlaubt auch den Speichercontroller in der GPU im Aufbau einfacher zu gestalten - dazu kommen wir später noch.

6. HBM benötigt weniger komplexe Anbindung der GPU:

Vorteile von High Bandwidth Memory
Vorteile von High Bandwidth Memory

Speichercontroller in modernen GPUs kommen mit ihrem 256 oder 384 Bit breiten Speicherinterface auf eine beachtliche Komplexität innerhalb einer GPU-Architektur. Aber nicht nur die Komplexität spielt eine Rolle, sondern auch der Platz, den sie inzwischen im Design und bei der Fertigung benötigen. Mit HBM sollen die Bandbreiten und die Leistung generell steigen, dies wird aber nicht mit komplexeren Speichercontrollern erkauft, sondern diese sollen im Gegenteil sogar weniger komplex werden.

Dabei spielt auch die physikalische Anbindung eine Rolle, die nicht mehr über ein Ball Grid Array (BGA) erfolgt, sondern über Through-silicon Via (TSV) bzw. eine andere direkte physikalische Verbindung in direkter Nähe zwischen GPU und Speicher. Da HBM zunächst im 2,5D-Design neben der GPU untergebracht sein wird, werden diese Verbindungen direkt innerhalb des Interposer ausgeführt.

Zur Versorgung und Kommunikation mit Bauteilen oder Schnittstellen außerhalb des Trägers auf dem sich Speicher und GPU befinden, werden weiterhin Verbindungen über ein BGA verwendet.

7. Temperaturverhalten von HBM:

Vorteile von High Bandwidth Memory
Vorteile von High Bandwidth Memory

Durch eine geringere Speicherspannung sowie weitere Maßnahmen besitzt HBM nicht nur eine geringere Leistungsaufnahme, sondern produziert dementsprechend auch weniger Abwärme. Dazu werden sogenannte Thermal Dummy Bumps verwendet, welche das Abführen von Abwärme aus dem Inneren der Stacks erleichtern.

Die eben erwähnten Refresh-Operationen sind auch abhängig von der Temperatur (je wärmer der Speicher wird, desto häufiger müssen diese ausgeführt werden) und daher unterstützt HBM auch Temperature Compensated Self Refresh. Die Refresh Operationen werden dazu in bestimmten Temperaturbereiche eingeteilt, in denen sie unterschiedlich oft ausgeführt werden. Temperatursensoren im Speicher messen die aktuelle Temperatur und passen die Refresh Operationen dementsprechend an.

Vorläufiges Fazit

High Memory Bandwidth ist also viel mehr als nur eine gestiegene Speicherbandbreite oder eine höhere Speicherkapazität. HBM bringt für Hersteller wie AMD und NVIDIA noch weitere Vorteile, die sich hinter den zugegebenermaßen wichtigen Standard-Kennzahlen (Speicherbandbreite und Speicherausbau) verstecken. Allerdings werden manche technische Teilbereiche auch deutlich komplexer, was auf Seiten des Speicherherstellers (bisher wird nur SK Hynix im Zusammenhang mit AMD und NVIDIA genannt) sowie der beiden Hersteller der GPUs für einen deutlichen Mehraufwand bei der Entwicklung sorgen wird bzw. schon gesorgt hat.

Schlussendlich wollen wir festhalten, dass aktuell Vergleiche (oder besser gesagt Simulationen und Hochrechnungen) zwischen 320 und 640 GB pro Sekunde oder 4 GB GDDR5 vs. 8 GB HBM wenig aussagekräftig sind. Das Zusammenspiel von GPU und Speicher ist inzwischen weitaus komplexer und da genügt es nicht an nur einer Stellschraube zu drehen. Wir werden also abwarten müssen, bis die ersten Karten mit HBM auf dem Markt sind und vermutlich werden uns AMD und NVIDIA noch genauer erklären, worin die Vorteile von HBM ihrer Meinung nach noch liegen. Einen ersten Ansatz haben wir versucht zu vermitteln. Letztendlich fehlt uns aber der tiefere Einblick in die Materie.

Social Links

Ihre Bewertung

Ø Bewertungen: 5

Tags

Kommentare (63)

#54
customavatars/avatar220193_1.gif
Registriert seit: 29.04.2015

Banned
Beiträge: 965
Zitat Thunderburne;23480568
Habe das nur so in Erinnerung gehabt.

AMD verwendet die bezeichnungen GCN1, GCN2 und GCN3
http://amd-dev.wpengine.netdna-cdn.com/wordpress/media/2013/07/AMD_GCN3_Instruction_Set_Architecture.pdf
#55
Registriert seit: 21.11.2011

Matrose
Beiträge: 17
Zitat DragonTear;23480360
Zudem gilt es als recht sicher dass AMD eine Technik entwickelt hat, um jeweils 2 der Stapel zu verbinden. Ob wir die in einer 8Gb Versions ehen werden, bleibt abzuwarten.

@ozMan: Du hast die Ahnung einer maus, über dieses Thema...


Die Maus hat leider vom Thema keine Ahnung, aber die Verbindung 2er HBM's ist von JEDEC nicht vorgesehen, die haben ein Point_to_Point Interface. Sowas macht man nur aus Verzweiflung weil 4GB bei einer High-End Karte echt blöd kommen.
Point_to_2Point kann eventuell bei HBM1 noch gehen weil die IO Speed niedriger ist, aber die Signal-Integrität auf so einem doppelt so langen Silicon-Interposer-Kanal ist schon grenzwertig ( Silicon dämpft sehr stark im Vergleich zum FR4 einer Leiterplatte). Zusätzlich gibt es noch hässliche Data-Bubbles, Zeiten in denen gewartet werden muss, wenn von einem HBM zum 2. HBM am gleichen Kanal umgeschaltet wird. HBM1 und HBM2 haben bewusst keine DLL wie DDR3/4 zum Ausgleich Prozess Spannung Tempertur(PVT) bedingten Access-time Schwankungen, weil kein Busbetrieb geplant war, so muss dieses Manko mit Wartezeiten ausgebügelt werden - super effiziente Lösung. Fragen?
#56
Registriert seit: 05.08.2009
Neckarsulm
Korvettenkapitän
Beiträge: 2378
Naja,

wie es gelöst wird ist doch erst mal egal, wichtig bleibt am Ende, was kommt am Ende auf dem Bildschirm an!
Ob das jetzt wirklich so dramatisch ist oder nicht, wird sich ein hochbezahlter Ingenieur bei AMD schon vorher ausgedacht haben.
#57
customavatars/avatar76352_1.gif
Registriert seit: 05.11.2007
Mittelfranken
Flottillenadmiral
Beiträge: 5104
Hawaii profitiert nur wenig von mehr Bandbreite CB hat wohl wieder mal den Durchblick eingeflöst bekommen von NV echt lustig die Typen. :)
Mann darf gespannt sein was dann von denen kommt wen NV dann endlich mal HBM verbaut.
#58
customavatars/avatar220193_1.gif
Registriert seit: 29.04.2015

Banned
Beiträge: 965
Zitat Motkachler;23482359
Mann darf gespannt sein was dann von denen kommt wen NV dann endlich mal HBM verbaut.

oder was sie schreiben wenn es die R9 390X zu kaufen gibt und alle erkennen welcher schwachsinn der artikel war^^
#59
customavatars/avatar95761_1.gif
Registriert seit: 27.07.2008

Fregattenkapitän
Beiträge: 2577
Zitat ozMan;23481698

Point_to_2Point kann eventuell bei HBM1 noch gehen weil die IO Speed niedriger ist, aber die Signal-Integrität auf so einem doppelt so langen Silicon-Interposer-Kanal ist schon grenzwertig ( Silicon dämpft sehr stark im Vergleich zum FR4 einer Leiterplatte).


Ja da hast du natürlich Recht. Das kann einfach nicht funktionieren und niemand ist in der Lage die Leiterlänge und die Lage der Leitung exakt so anzupassen und abzuschirmen, das sie ohne Problem ihren Dienst verrichten kann. Notfalls müsste man noch das Signal verstärken, was ja auch nicht funktionieren kann, da niemand weiß wie man das macht bzw. es vorher weniger abzudämpfen, was ja auch völlig unmöglich ist...

Wie haben die das nur vorher mit GDDR5 gemacht, als dieser noch viel weiter weg vom Speicherkontroller war mit teils bis zu 2000 MHz ? Hatte wohl nur Glück oder doch mehr Kenntnis darüber.

Zitat

Zusätzlich gibt es noch hässliche Data-Bubbles,


Ja, diese Bubbles...ganz furchtbare Sache und erst diese Data-Rülpser sowie diese Data-Pupser sind wirklich sehr unangenehm. Da kann man wirklich nur hoffen, das AMD da noch einen guten Filter einbauen kann...

Zitat

Zeiten in denen gewartet werden muss, wenn von einem HBM zum 2. HBM am gleichen Kanal umgeschaltet wird. HBM1 und HBM2 haben bewusst keine DLL wie DDR3/4 zum Ausgleich Prozess Spannung Tempertur(PVT) bedingten Access-time Schwankungen, weil kein Busbetrieb geplant war, so muss dieses Manko mit Wartezeiten ausgebügelt werden - super effiziente Lösung.


HBM arbeitet parallel. Wie oft eigentlich noch ? Das hat nix mit dem uralten DDR3 zu tun !
Bei HBM werden eben 2 x 4GB auf den Interposer verbaut. Alle Beide arbeiten unabhängig mit voller Bandbreite und können hin und her geschaltet werden. Wie man das nun bewerkstelligt und aufteilt, ist Treibersache und daher vermutlich die ganze Verzögerung.
Davon bekommst du als Spieler nix mit, da der Speicher deswegen nicht langsamer läuft. Klar ist das nur eine Notlösung bis HBM2 erscheint, aber immer noch besser als nur 4GB zu besitzen.

Zitat
Fragen?


Nö. Das was du erzählst wissen wir schon aus dem Grundkurs. ;)
#60
customavatars/avatar66241_1.gif
Registriert seit: 16.06.2007
Ludwigshafen
Oberstabsgefreiter
Beiträge: 443
wie die naiven sich wieder mal blicken lassen, wenn es um neue technik geht, immer wieder lächerlich, wenn ihr versucht was zu analysieren bzw zu prophezeien ob das neue technik was taugt oder nicht :fresse:

ihr kommt so rüber als seit ihr die zukunfttechniker, ich habe das gefühl das einige an zweite hd2900 serie mit den hochen 512bit speicher glauben :haha:

auserdem wofür ist nochmal der hocher speicherbandbreite gut bzw verantwortlich ?, das man den angeblich kaum an vorteile sieht ???

leute leute lasst doch bitte es sein, und begrüsst das neue technik immer herzlich willkommen.

ansonsten wird die zukunft zeigen was in hbm technik steckt, und dann dürft ihr nochmal was dazu sagen.
#61
customavatars/avatar202850_1.gif
Registriert seit: 06.02.2014
Im sonnigen Süden
Admiral
Beiträge: 9432
Zitat crynis;23489834
wie die naiven sich wieder mal blicken lassen, wenn es um neue technik geht, immer wieder lächerlich, wenn ihr versucht was zu analysieren bzw zu prophezeien ob das neue technik was taugt oder nicht :fresse:

ihr kommt so rüber als seit ihr die zukunfttechniker, ich habe das gefühl das einige an zweite hd2900 serie mit den hochen 512bit speicher glauben :haha:

auserdem wofür ist nochmal der hocher speicherbandbreite gut bzw verantwortlich ?, das man den angeblich kaum an vorteile sieht ???

leute leute lasst doch bitte es sein, und begrüsst das neue technik immer herzlich willkommen.

ansonsten wird die zukunft zeigen was in hbm technik steckt, und dann dürft ihr nochmal was dazu sagen.


Um ehrlich zu sein.,. ich hab keinerlei Schimmer was du hiermit ausdrücken willst o.O
#62
customavatars/avatar91153_1.gif
Registriert seit: 09.05.2008
Hadamar
Kapitän zur See
Beiträge: 3769
Schöner Artikel, aber der Absatz zu BGA uns TSV ist mMn teilweise falsch und sollte überarbeitet werden.
#63
Registriert seit: 21.11.2011

Matrose
Beiträge: 17
Zitat Pickebuh;23482499

HBM arbeitet parallel. Wie oft eigentlich noch ? Das hat nix mit dem uralten DDR3 zu tun !
Bei HBM werden eben 2 x 4GB auf den Interposer verbaut. Alle Beide arbeiten unabhängig mit voller Bandbreite und können hin und her geschaltet werden. Wie man das nun bewerkstelligt und aufteilt, ist Treibersache und daher vermutlich die ganze Verzögerung.
Davon bekommst du als Spieler nix mit, da der Speicher deswegen nicht langsamer läuft. Klar ist das nur eine Notlösung bis HBM2 erscheint, aber immer noch besser als nur 4GB zu besitzen.


Jeweils 2 x 4x1GB vollkommen parallel arbeiten zu lassen ist illusorisch, ausversehen noch mal ein Interface mit 6176 pins/~25mm2 zu implementieren kann ich mir nicht vorstellen. In diesem speziellem Fall müssen 2 HBM Stapel an einem Kanal im Bus-Betrieb arbeiten- old school mäßig wie DDR3/4 - was eigentlich nicht vorgesehen war. Der Hynix 1GB ist nur 5.1mm x 6.9mm groß(ISSCC 2014), das wird geradeso klappen, wenn der GPU Die nicht allzu groß ist - Silicon Interposer gibt nicht in beliebigen Größen, Belichtungsfeldlimitiert. Dann muss noch ein nicht vorhandener ChipSelect reingefrickelt vielleicht evtl. über ClockEnable + Wartezeit( ~ns) am Bus bis der andere HBM endlich Ruhe gibt. In Software (Mikrosekunden) per Treiber geht so was nicht.
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

Roundup: 5x GeForce GTX 1070 mit Custom-Design im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/5X-GTX1070/GTX1070_CUSTOM_ROUNDUP-TEASER

Nachdem wir bereits eine Reihe von Boardpartner-Karten der NVIDIA GeForce GTX 1080 ausführlich getestet haben, holen wir gleiches nun für das kleinere Schwestermodell nach, denn auch von der NVIDIA GeForce GTX 1070 gibt es viele Custom-Modelle mit höheren Taktraten, eigenen Kühlsystemen und... [mehr]

Drei Custom-Modelle der GeForce GTX 1060 im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/3X-GTX1060/GTX1060_ROUNDUP_TEST-TEASER

Anders als bei der GeForce GTX 1080 und GeForce GTX 1070 trudelten wenige Stunden nach unserem Test zur Founders Edition der NVIDIA GeForce GTX 1060 schon die ersten Boardpartner-Karten mit teils höheren Taktraten, eigenem Kühlsystem und überarbeitetem Platinenlayout ein. Sie dürften... [mehr]

NVIDIA GeForce GTX 1080 mit Pascal-Architektur im XXL-Test

Logo von IMAGES/STORIES/LOGOS-2016/GEFORCE-GTX-1080

Heute ist es soweit: NVIDIA läutet mit der GeForce GTX 1080 und GTX 1070 auf Basis der Pascal-Architektur den diesjährigen Neustart bei den Grafikkarten ein. In Kürze wird wohl auch AMD seinen Beitrag zu diesem Thema leisten. Vor zehn Tagen lud NVIDIA die gesammelte Fachpresse nach Austin ein... [mehr]

Roundup: 5x GeForce GTX 1080 im Custom-Design im Test

Logo von IMAGES/STORIES/LOGOS-2016/GEFORCE-GTX-1080

Nachdem wir uns die Founders Edition der GeForce GTX 1080 und GeForce GTX 1070 bereits angeschaut haben, folgen nun fünf Retail-Modelle, die wir in aller Ausführlichkeit unter die Lupe nehmen wollen. Aus den vielen Boardpartnern und unterschiedlichen Modellen haben wir uns solche von ASUS, EVGA,... [mehr]

AMD Radeon RX 480 im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/RADEON-RX480/RADEON-RX480-REFERENCE-LOGO

Es ist also soweit: AMD startet die großangelegte Zurückeroberung des Grafikkartenmarktes mit der Radeon RX 480, die als erste Grafikkarte der Polaris-Generation mit gleichnamiger Architektur erscheint und die wir uns genauer anschauen können. Dabei versucht sich AMD an einem anderen Ansatz im... [mehr]

PowerColor Radeon RX 480 Red Devil im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/POWERCOLOR-RX480/POWERCOLOR-RX480REDDEVIL-LOGO

Mit der Radeon RX 480 will AMD zurück zu alter Stärke und hat daher über Monate hinweg die PR-Trommel geschlagen. Letztendlich dabei herausgekommen ist eine sehr gute Karte für einen niedrigen Preis, die aber nicht in allen Bereichen zu überzeugen weiß. Wohl größtes Manko der Karte sollte... [mehr]