1. Hardwareluxx
  2. >
  3. News
  4. >
  5. Hardware
  6. >
  7. Prozessoren
  8. >
  9. Manticore: RISC-V Multi-Chiplet-Konzept mit HBM2 und 4.096 Kernen

Manticore: RISC-V Multi-Chiplet-Konzept mit HBM2 und 4.096 Kernen

Veröffentlicht am: von

manticore-risc-vAuf der HotChips-Konferenz zeigten Wissenschaftler der Systems Laboratory der ETH Zürich sowie der Universität von Bologna ein Multi-Chiplet-Konzept auf Basis eines RISC-V-Designs. HBM2, ein Chiplet-Design, schneller Interconnect und bis zu 4.096 Kerne zeigen die Richtung, in die es gehen soll. Mit dem Manticore getauften Design zielt man klar auf ein HPC-Design für einen solchen Prozessor ab.

Das Manticore-Konzept besteht aus vier Chiplets. Jedes dieser Chiplets misst 222 mm² (14,9 x 14,9mm). Die Fertigung könnte bei GlobalFoundries in 22 nm (22FDX) stattfinden. Diese Prozesstechnologie wurde gewählt, weil die Ausbeute und Kosten in einem guten Verhältnis stehen. Jedes der vier Chiplets ist mit den anderen dreien per Interconnect verbunden. Pro Chiplet sind 8 GB an HBM2 geplant. Zur Anbindung des Manticore-Konzepts soll ein PCI-Express-Interface genutzt werden.

Jedes der Chiplets besteht aus vier Quadranten (in denen sich die Rechenkerne befinden), einem 27 MB großen L2-Cache, einem HBM2-Speicherinterface sowie dem PCI-Express-Controller. Jeder der vier Quadranten besteht aus 32 Clustern bzw. 256 Kernen – jedes Cluster besitzt also acht RV32G Snitch Kerne. Pro Takt können die Kerne 16DP- und 32SP-Operationen ausführen. Die Taktfrequenz soll bei 1.000 MHz liegen. Auf jedem Chiplet befinden sich außerdem vier Management-Kerne namens Ariane. Auf diesen kann ein Linux arbeiten.

Die RV32G-Kerne haben einen 8 kB großen L1-Instruction- und einen 128 kB großen L1-Data-Cache. Die großen Caches für die Daten sind notwendig, um die zu verarbeitenden Daten so nahe wie möglich am eigentlichen Rechenkern behalten zu können. Dies trifft auch auf den großen L2-Cache sowie den HBM2 zu. Die Ariane-Kerne (RV64G) haben ein anderes Design und bieten daher 16/32 kB an L1-Instruction/Data-Cache.

Einen solch großen Chip können die Wissenschaftler nicht einfach so fertigen lassen. Dies wäre zu aufwendig und kostenintensiv. Also hat man einen Prototypen der Chiplet-Architektur fertigen lassen. Dieser hat eine Fläche von gerade einmal 9 mm². Man will hier die wichtigsten Komponenten testen können – darunter die RV32G Snitch Kerne, 1,25 MB an L2-Cache und die Ariane-Kerne auf Basis eines RV64G-Designs.

Hinsichtlich der Rechenleistung und Effizienz muss man sich auf Projektionen verlassen, die auf Basis des Prototyps erstellt wurden. Demnach käme das Manticore-Konzept auf eine Rechenleistung im Bereich einer GV100-GPU von NVIDIA – je nach Art der Berechnungen natürlich. Als HPC-Chip stehen die FP64, also Berechnungen bei doppelter Genauigkeit, im Fokus. Auf der Spannungs/Takt-Kurve entsprechend getrimmt wäre das Manticore-Konzept im den Faktor fünf effizienter als ein A100-Beschleuniger von NVIDIA. Hinsichtlich der FP32-Rechenleistung ist man etwas im Nachteil, aber noch immer besser als anderen Designs.

In einem nächsten Schritt soll nun ein Quad-Chiplet-Prototyp hergestellt werden. Dabei wird es sich aber noch nich um ein vollintegriertes Package handeln. Zunächst einmal will man Chip-Prototypen mit FinFET-Komponenten fertigen lassen, um die Vorteile einer modernen Fertigung mit einfließen zu lassen.

Welche ist die beste CPU?

Unsere Kaufberatung zu den aktuellen Intel- und AMD-Prozessoren hilft dabei, die Übersicht nicht zu verlieren. Dort zeigen wir, welche Prozessoren aktuell die beste Wahl darstellen - egal, ob es um die reine Leistungsfähigkeit oder das Preis-Leistungs-Verhältnis geht.


Social Links

Das könnte Sie auch interessieren:

  • Core i9-12900K und Core i5-12600K: Hybrid-Desktop-CPUs Alder Lake im Test

    Logo von IMAGES/STORIES/2017/ALDER-LAKE-REVIEW

    Heute ist es soweit: Intel holt zum Gegenschlag gegen AMD aus und will nicht mehr nur weiterhin in der Single-Threaded-Leistung besser als sein Konkurrent sein, sondern dank eines Hybrid-Designs auch in der Multi-Threaded-Leistung. Alder Lake ist laut Intel der größte Schritt in der... [mehr]

  • K wie Mittelklasse: Intel Core i7-12700K im Test

    Logo von IMAGES/STORIES/2017/ALDER-LAKE-REVIEW

    Nachdem wir uns das schnellste und das langsamste K-Modell der Alder-Lake-Prozessoren bereits angeschaut haben, folgt heute das Mittelklasse-Modell in Form des Core i7-12700K. Nach unserem initialen Test kann man sagen: Intel ist zurück! Viele Aspekte des Alder-Lake-Designs sind neu, von den... [mehr]

  • Ein letztes Hurra auf AM4: Der Ryzen 7 5800X3D im Test

    Logo von IMAGES/STORIES/2017/RYZEN7-5800X3D

    Vor etwas mehr als einer Woche erschienen die ersten Tests des Ryzen 7 5800X3D, dem ersten Prozessor mit 3D V-Cache, der explizit auf Spiele ausgelegt ist und hier seine Stärken haben soll. Inzwischen ist der Prozessor auch im Handel verfügbar. Heute wollen wir unseren Test des Einhorns für AM4... [mehr]

  • Core i5-12400 im Test: Ohne E-Cores zur günstigen und effizienten Gaming-CPU

    Logo von IMAGES/STORIES/2017/CORE-I5-12400

    Erst vor wenigen Tagen hat Intel die Alder-Lake-Produktpalette um die sparsameren 65- und 35-W-Modelle ergänzt. Mit dem Core i5-12400 wollen wir uns heute den heißesten Anwärter auf die Preis/Leistungskrone anschauen. Natürlich gäbe es noch zahlreiche weitere interessante Modelle, wir machen... [mehr]

  • BCLK OC: Core i3-12100F und B660-Plattform-Erfahrungen

    Logo von IMAGES/STORIES/2017/BCLK-OC

    Nachdem wir uns das Thema Basistakt-Overclocking auf Basis des ASUS ROG Maximus Z690 Hero und dem Core i5-12400 bereits angeschaut haben, bekam das Thema mit der vermeintlichen Unterstützung einiger Mainboards von ASUS mit B660-Chipsatz eine interessante Wendung, da die Kombination aus günstigem... [mehr]

  • Test: Effizienz von Alder Lake in Spielen im Vergleich

    Logo von IMAGES/STORIES/2017/ALDER-LAKE-REVIEW

    In unseren bisherigen Tests der Alder-Lake-Prozessoren spielte natürlich auch der Stromverbrauch eine Rolle. Dabei haben wir aber nur Idle- und Volllast-Betrieb betrachtet, da sich diese am konsistentesten nachstellen lässt und der Volllast-Betrieb das Worst-Case-Szenario... [mehr]