1. Hardwareluxx
  2. >
  3. News
  4. >
  5. Hardware
  6. >
  7. Arbeitsspeicher
  8. >
  9. Hot Chips 33: Samsung Aquabolt-XL - HBM2 mit integrierter Rechenkapazität

Hot Chips 33: Samsung Aquabolt-XL - HBM2 mit integrierter Rechenkapazität

Veröffentlicht am: von

samsung-hbm2Anfang des Jahres stellte Samsung den HBM-PIM, den ersten HBM-Speicher mit eingebauter AI-Engine, vor. Einige Details kennen wir also bereits, auf der Hot-Chips-Konferenz sprach Samsung aber etwas genauer über die Motivation und die Ziele hinter einem solchen Speichertyp. Auch hat man bereits erste Produkte mit diesem Speicher ausgestattet und testet diese zusammen mit seinen potenziellen Kunden.

Beim Aquabolt-XL handelt es sich um HBM2-Speicher, der eine Processing-in-Memory (PIM) Architektur enthält. AI/ML- und HPC-Anwendungen sollen von einem solchen Speicher profitieren können, da die zu verarbeitenden Daten vorverarbeitet werden können. Die direkte Nähe der Daten zu den verarbeitenden Einheiten im Speicher ist hier natürlich von Vorteil.

Ein PIM ist laut Samsung eine weitere Ebene in der Speicherhierarchie. GPUs und CPUs haben Caches, darauf folgt ein sogenannter Near Memory (HBM, GDDR), der auch als Last Level Cache (LLC) bezeichnet wird. Darauf folgt der Speicherpool eines Nodes, der Arbeitsspeicher, der in solchen Systemen als kohärenter Speicher von vielen Einzelkomponenten beansprucht wird. Ein PIM soll sich zwischen dem LLC und dem Arbeitsspeicher platzieren bzw. dort seinen Dienst verrichten und seine Vorteile ausspielen. Noch arbeitet Samsung an einem HBM2-PIM, geplant sind aber schon Varianten in Form eines HBM3-PIM und auch LPDDR- und DDR-Speicher soll es in einer PIM-Variante geben.

Über all dort, wo eine gewisse Effizienz gefragt ist oder die Leistung durch eine Vorverarbeitung optimiert werden kann, soll ein PIM-Speicher zum Einsatz kommen.

Den Aufbau des HBM2-PIM hat Samsung nun etwas genauer erläutert. Zwar kennen wir auch hier bereits einige Details, es gibt aber auch einige weitere Informationen.

So verwendet Samsung für den HBM2-PIM einen Buffer Die, vier Lagen des Speichers mitsamt der Recheneinheiten (FIMDRAM) und weitere vier Lagen klassischen HBM2-Speichers (DRAM). Der Buffer-Die ist über einen Silicon-Interposer direkt mit dem Host-Prozessor (dies kann ein FPGA oder eine GPU sein) verbunden. TSVs stellen die Verbindungen zwischen dem Buffer-Die, den FIMDRAM- und den DRAM-Lagen her.

Jede Lage des FIMDRAM verfügt über jeweils 32 Rechenkerne. Organisiert sind diese in 16 Lanes zu jeweils zwei FP16-Recheneinheiten. Die Rechenleistung eines kompletten Speicherchips mit vier FIMDRAM-Layern beträgt also 4 x 32 x 32 Byte x 300 MHz = 1,2 TFLOPS für FP16-Berechnungen. Um die Rechenkerne ansprechen zu können, gibt es natürlich auch hier ein bestimmtes Instruction Set, welches in Ausschnitten RISC-Instruktionen mit 32 Bit unterstützt.

Der HBM2-PIM kann in verschiedenen Modi betrieben werden. Zunächst einmal kann er ohne jegliche Einbußen in der Bandbreite als klassischer HBM2 verwendet werden. Dann ist es möglich, dem PIM gewisse Bereiche des Speichers zuzuweisen, die exklusive der Vorverarbeitung zur Verfügung stehen. Die Bandbreite des Speicher als solches soll dadurch aber nicht beeinflusst werden, da sogenannte Pseudo-Channels den Speicher weiterhin schnell genug anbinden – auch wenn gewisse Bereiche ausgenommen sind.

Getestet wurde der Aqualbolt-XL, so der Codename des HBM2-PIM, mit einem Xilinx FPGA. Der Speichercontroller für den HBM-Speicher muss auf Seiten des FPGAs nicht angepasst werden. Mit vier HBM2-PIM-Stacks (und einem 4.096 Bit breiten Speicherinterface) bliebt die Speicherbandbreite bei 1,23 TB/s. On-Chip, also im HBM2-PIM selbst, lag die Bandbreite bei 4,92 TB/s.

Je nach Anwendung und den gewählten Parametern für die Daten steigt die Leistung des Xilinx Alveo U280 um den Faktor 2,5 bis 2,8 an. In einigen weiteren Beispielen nennt Samsung auch weitaus größere Leistungssteigerungen. Auch die Energieeffizienz kann für solche Anwendungen deutlich gesteigert werden. Hier spricht Samsung von bis zu 70 %. Grundsätzlich verbraucht der Aquabolt-XL zunächst einmal 5,4 % mehr als der klassische HBM2 ohne die Recheneinheiten.

Ein nächster Schritt soll nun die Ausweitung des PIM in andere Speichertypen sein. Konkret spricht Samsung von einem LPDDR5-PIM. Auch DIMM-PIMs sind in Planung. Konkrete Produktankündungen zum HBM2-PIM gibt es aber noch nicht.

Social Links

Das könnte Sie auch interessieren:

  • Corsair spricht über die Vorteile von DDR5 (Update)

    Logo von IMAGES/STORIES/2017/PREVIEW_CORSAIR_DOMINATOR_PLATINUM

    Ende des Jahres werden die ersten Desktop- und Server-Plattformen auf den neuen DDR5-Arbeitsspeicher wechseln. Intel dürfte in dieser Generation den ersten Schritt machen – vor AMD, denn sowohl mit Alder Lake als auch Sapphire Rapids dürfte man früher dran sein als der Konkurrent mit... [mehr]

  • Angebot von 4.800 bis 7.200 MHz: ZADAK zeigt DDR5

    Logo von IMAGES/STORIES/2017/ZADAK

    Nachdem zahlreiche Hersteller entsprechende Ankündigungen gemacht haben und Teamgroup seinen ersten DDR5 sogar schon im Handel hat, hat nun auch ZADAK seinen ersten DDR5-Speicher vorgestellt. ZADAK ist ein Gaming-Ableger von Apacer und will ab Ende 2021 mit der SPARK-Serie neuen... [mehr]

  • ADATA will DDR5 mit bis zu 12.600 MT/s bei 1,6 V anbieten

    Logo von IMAGES/STORIES/2017/ADATA

    Unter dem Motto "XPG XTREME INNOVATION" hat ADATA zahlreiche Neuankündigungen aus den verschiedensten Produktbereichen gemacht. Auch hier will man in Kürze den ersten DDR5-Speicher anbieten, der mit 8.400 MT/s und 1,1 V loslegt, was den Einstieg in diesen neuen Speicherstandard darstellt.... [mehr]

  • Und noch eine Schippe drauf: DDR5-7000 CL40 von G.Skill

    Logo von IMAGES/STORIES/2017/GSKILL-TRIDENT-Z5-FAMILY-LOGO

    Und wieder legt G.Skill nach. Dieses Mal mit DDR5-7000 mit Timings von CL40-40-40-76. Zuvor zeigte man bereits einen DDR5-6800 mit CL38-38-38-76 und DDR5-6600 CL36-36-36-76 aus der Trident-Z5-Serie. Das Kit besteht aus zwei Modulen mit jeweils 16 GB, so dass die Gesamtkapazität bei... [mehr]

  • Teamgroup T-Create: Schlichter Arbeitsspeicher mit 64 GB im Test

    Logo von IMAGES/STORIES/2017/PREVIEW_TEAMGROUP_T-CREATE_3600

    Mit den T-Create Modellen hat Teamgroup ein paar sehr schlichte RAM-Module im Angebot, welche nicht dem aktuellen RGB-Trend folgen. Und das muss auch nicht unbedingt schlecht sein. Es gibt noch genug User, die kein offenes Gehäuse zuhause haben und dann entsprechend auch keine bunte... [mehr]

  • Corsair Vengeance RGB PRO SL im Test: Schick und kompatibel

    Logo von IMAGES/STORIES/2017/PREVIEW_CORSAIR_VENGEANCE_RGB_PRO_SL

    Die Vengeance-RGB-Pro-SL-Speicherserie, welche von Corsair Anfang diesen Jahres vorgestellt wurde, hat auch ihren Weg zu uns in die Redaktion gefunden und wir durften den Speicher auf Herz und Nieren prüfen. Dabei schauen wir uns natürlich nicht nur die optischen Anpassungen im Vergleich zur... [mehr]