1. Hardwareluxx
  2. >
  3. News
  4. >
  5. Hardware
  6. >
  7. Prozessoren
  8. >
  9. Hot Chips: AMD Vega, Intel Knights Mill, GDDR5 TPU von Google und IBM z14 mit viel Cache

Hot Chips: AMD Vega, Intel Knights Mill, GDDR5 TPU von Google und IBM z14 mit viel Cache

Veröffentlicht am: von

Im kalifornischen Cupertino findet in jedem Jahr die Hot Chips statt. Auch in diesem Jahr gaben zahlreiche Unternehmen wieder einen Einblick in die aktuellen Entwicklungen im jeweiligen Bereich. AMD sprach über die Vega-Architektur, Intel über die Weiterentwicklung bei den Xeon-Phi-Beschleunigern, Google über den Einsatz von GDDR5 oder HBM für die TPU und IBM über den z14 mit massiv viel Cache. Wir haben eine kleine Zusammenfassung zu einigen der Vorträgen mit den dazugehörigen Präsentationen. Auf einige weitere Punkte gehen wir noch in gesonderten Berichten ein.

AMD legt den Fokus auf Virtualisierung und Kryptowährungen

AMD stellte auf der Hot Chips die Vega-Architektur noch einmal ausführlich vor. Wir sind im Rahmen der Berichterstattung zur Radeon RX Vega 56 und Vega 64 bereits genauer darauf eingegangen. Den Fokus legte AMD dabei auf zwei Funktionen, die bisher zumindest im Falle der Virtualisierung noch recht wenig beachtet wurden.

Die Vega-Architektur kann im Falle der Vega-10-GPU mit SR-IOV (Single Root I/O Virtualization) bis zu 16 virtuelle Umgebungen virtualisieren. Die Compute- und Speicher-Ressourcen der GPU werden dabei dynamisch zugeteilt. Neben der Anzahl der VMs spielt aber vor allem das Lizenzierungsmodell eine entscheidende Rolle. Anders als bei NVIDIA fallen keinerlei Gebühren an, so dass mit jeder professionellen Karte mit Vega-GPU die Virtualisierung auch ohne Zusatzkosten verwendet werden kann. Auf der Siggpraph zeigte AMD das Project 47. Dabei handelt es sich um ein komplettes Rack aus 20 Epyc 7601 und 80 Radeon Instinct MI25. Diese 80 Karten können jeweils 16 VMs erstellen, so dass theoretisch 1.280 virtuelle Nutzer darauf arbeiten können.

Neben der Virtualisierung spielten bei AMD und der Präsentation der Vega-Architektur aber auch die speziellen Instruktionen in der Vega-ISA eine wichtige Rolle. Dabei wies AMD noch einmal darauf hin, dass Vega dedizierte Instruktionen für das Hashing von Kryptowährungen besitzt. Viele Spieler sehen das durchaus kritisch, denn die Preise der Karten sind durch den Aufschwung in diesem Bereich stark gestiegen. Darüber hinaus gab es keinerlei Neuheiten zur Vega-Architektur.

Intel Xeon Phi Knights Mill marschiert in Richtung Machine Learning

Intel fährt im Compute-Bereich derzeit zweigleisig. Während die Xeon-Phi-Modelle für das General Computing vorgesehen sind, arbeitet Intel für den Deep-Learning- oder Machine-Learning-Bereich mit einigen Aufkäufen zusammen und entwickelt Chips mit dedizierten FPGAs.

Auf der Hot Chips zeigte Intel allerdings, dass auch die nächste Xeon-Phi-Generation in der Lage sein wird, Machine-Learning-Anwendungen zu beschleunigen. Dazu hat man einige Maßnahmen vorgenommen. Zunächst einmal wurde das Speicherlimit auf 384 GB verdoppelt. Unterstützt wird DDR4-2400 über sechs Speicherkanäle und weiterhin vorhanden sind 16 GB MCDRAM auf dem Chip selbst. Für die Anbindung stehen 36 PCI-Express-3.0-Lanes zur Verfügung.

Knights Mill wird aus bis zu 36 Tiles bestehen, die über ein 2D-Mesh miteinander verbunden sind. Pro Tile stehen zwei Kerne zur Verfügung, die sich 1 MB an L2-Cache teilen. Pro Kern können vier Threads verarbeitet werden. Insgesamt stehen also 72 Kerne und 288 Threads zur Verfügung. Für Deep-Learning-Anwendungen hat Intel einige Instruktionen hinzugefügt, welche die dazugehörigen Berechnungen beschleunigen sollen. In der Präsentation spricht Intel von einer Beschleunigung um den Faktor vier.

Im vierten Quartal will Intel mit der Auslieferung der ersten Knights-Mill-Beschleuniger beginnen. Dann wird es wohl auch weitere technischen Daten zu den einzelnen Modellen geben.

Google TPU mit HBM deutlich schneller

Wie jedes in diesem Bereich aktive Unternehmen hat auch Google in die Entwicklung eigener Hardware für Deep-Learning-Anwendungen investiert. Die erste Generation der TPU (Tensor Processing Unit) kann als ASIC bereits einen deutlichen Schub bei der Rechenleistung verbuchen. Die zweite Generation stellte Google in diesem Jahr vor und versprach noch einmal einen deutlichen Geschwindigkeitszuwachs.

Während die erste Generation noch auf DDR3-Speicher zurückgreifen musste, galt es für Google bei der zweiten Generation zu entscheiden, ob GDDR5 als Speicher ausreichend ist oder HBM eingesetzt werden muss. Mit in Betracht gezogen werden muss dabei nicht nur die Rechenleistung, sondern auch die Leistung pro Watt. Letztendlich hat sich Google aber dazu entschieden, HBM zu verwenden. Durch den Einsatz von HBM hat man eine Leistungssteigerung und eine Verbesserung der Effizienz erreicht.

Die neue TPU kann auch Floating-Point-Operationen ausführen. In 16-Bit-Berechnungen kommt die TPU 2 damit auf 180 TFLOPS. Die erste Generation erreicht mit Hilfe einer Matrix aus 256 × 256 Multiplizier/Aufaddier-Einheiten (Multiplier/Accumulator, MAC) und einem Takt von 700 MHz eine Rechenleistung von 91,75 TOPS (Tera Operations per Second). Damit gemeint sind 8-Bit-Operationen für das Inferencing. Die zweite Generation soll auch das Training von Deep-Learning-Netzwerken ermöglichen.

IBM z14: Zehn Kerne und sehr viel Cache

Bereits im Juli stellte IBM den z14 vor. Dabei handelt es sich um einen Prozessor mit zehn Kernen und 30 MB Cache pro Kern. Auf der Hot Chips hat man nun weitere Details öffentlich gemacht. So besteht ein Rack nicht aus mehreren gleichen Prozessoren, sondern IBM passt den z14 entsprechend an. In einem solchen Rack kommen sechs CP- (Central Processor) und ein SC-Chip (System Controller) zum Einsatz. Vier Racks werden zu einem Mainframe.

Jeder Prozessor arbeitet mit einem Takt von bis zu 5,2 GHz. Wie bereits in der Überschrift erwähnt, verbaut IBM massiv viel Cache. Dazu gehören jeweils 128 kB an Instruction und Date L1-Cache sowie 2 bzw. 4 MB an Instruction und Data L2-Cache. Weiterhin vorhanden sind 128 MB an L3-Cache. Je nach Last kann ein solcher Prozessor eine TDP von 500 W aufweisen. Daher kommt auch ausschließlich eine Wasserkühlung in Frage. Jedem Prozessor können bis zu 32 TB an Speicher zur Seite gestellt werden. Hinzu kommen 1,5 bis 6 TB an IBM Virtual Flash Memory. Für solche Systeme extrem wichtig sind natürlich auch die Interconnects und hier stehen mehrere Optionen zur Verfügung. Unterstützt wird zum einen die aktuelle InfiniBand-Generation. Hinzu kommen zum anderen Netzwerkverbindungen bis hin zum Standard 1000-BaseT mit 1.000 GBit/s.

Ein paar Anmerkungen zur Fertigung. IBM lässt in 14 nm (14HP-SOI) bei Global Foundries fertigen. Ein z14 kommt auf 696 mm² und besteht aus 6,1 bzw. 9,7 Milliarden Transistoren – je nachdem, um welches Modell es sich handelt.

Als Betriebssystem kommt beim IBM z14 ein z/OS V2.3 zum Einsatz. Angaben zum Preis gibt es nicht, da solche Systeme sehr individuell für den Kunden zugeschnitten werden

Welche ist die beste CPU?

Unsere Kaufberatung zu den aktuellen Intel- und AMD-Prozessoren hilft dabei, die Übersicht nicht zu verlieren. Dort zeigen wir, welche Prozessoren aktuell die beste Wahl darstellen - egal, ob es um die reine Leistungsfähigkeit oder das Preis-Leistungs-Verhältnis geht.


Social Links

Das könnte Sie auch interessieren:

  • AMD Ryzen 5 3600 im Test: Ohne X noch viel besser

    Logo von IMAGES/STORIES/2017/AMD_RYZEN_5_3600_TEST-TEST

    Gegenüber dem AMD Ryzen 5 3600X aus unserem letzten Test, der trotz seiner Einstufung in die Mittelklasse ältere Topmodelle schlägt, ist der AMD Ryzen 3600 ohne das X-Kürzel nur 200 bis 300 MHz niedriger getaktet und mit einer TDP von 65 W sparsamer klassifiziert, was einen... [mehr]

  • AMD Ryzen 7 3800X im Test: Ein hungriger Lückenfüller

    Logo von IMAGES/STORIES/2017/AMDRYZEN93900X

    Kurz vor dem Start des lange ersehnten AMD Ryzen 9 3950X und der kommenden Threadripper-Modelle schließen wir eine weitere Lücke in unserer Testdatenbank und stellen den AMD Ryzen 7 3800X auf den Prüfstand, der über acht Kerne verfügt, gegenüber seinem kleinen Schwestermodell jedoch in einer... [mehr]

  • In Spielen König, sonst eher ein kleiner Prinz: Intel Core i5-10600K und Core...

    Logo von IMAGES/STORIES/2017/INTEL-CML-S

    Heute ist es soweit und wir dürfen die ersten Leistungsdaten des Core i5-10600K und des Core i9-10900K präsentieren. Damit öffnet Intel seine Comet-Lake-Prozessoren für den Markt, denn ab heute sind die ersten Modelle im Handel verfügbar. Die Kernkompetenzen der neuen Prozessoren liegen vor... [mehr]

  • AMD hängt Intel weiter ab: Der Ryzen 9 3950X im Test

    Logo von IMAGES/STORIES/2017/RYZEN-3950X

    Besser spät als nie – so ließe sich das Timing für unseren Test des Ryzen 9 3950X wohl am besten zusammenfassen. Zum Ursprünglichen Termin der Tests konnte uns AMD kein Sample zur Verfügung stellen und so mussten wir uns etwas gedulden, bis auch wir den 16-Kerner testen konnten. Der... [mehr]

  • Insider-Gerüchte: Intel streicht 10-nm-Pläne für den Desktop komplett

    Logo von IMAGES/STORIES/2017/INTEL

    Aus Insiderkreisen haben wir einige exklusive Informationen zu zukünftigen Desktop-Prozessoren von Intel erhalten. Die Quelle hat sich in der Vergangenheit zu CPU-Themen bereits mehrfach aus treffsicher erwiesen. Dennoch sollte wie bei allen Gerüchten dieser Art eine gewisse Vorsicht an den... [mehr]

  • Schneller dank Zen 2: Ryzen Threadripper 3960X und 3970X im Test

    Logo von IMAGES/STORIES/2017/RYZEN-THREADRIPPER-3RDGEN

    Nachdem sich AMD auf dem klassischen Desktop mindestens auf Augenhöhe zu Intel sieht, will man nun den bereits vorhandenen Vorsprung im High-End-Desktop weiter ausbauen. Den Anfang machen der Ryzen Threadripper 3960X mit 24 und der Ryzen Threadripper 3970X mit 32 Kernen. Zum Vorgänger... [mehr]