NEWS

NextSilicon Maverick-2

Mit FP64, HBM3E und Dataflow ins HPC-Segment

Portrait des Authors


Mit FP64, HBM3E und Dataflow ins HPC-Segment
1

Werbung

NextSilicon hat mit dem Maverick-2 einen neuen Prozessor vorgestellt, der nach acht Jahren Entwicklungszeit eine Alternative zu bestehenden Computing-Architekturen bieten soll. Der Chip basiert auf einer Dataflow-Architektur und läuft bereits in Produktivsystemen wie dem Spectra-Supercomputer in den Sandia National Laboratories. Das Unternehmen verspricht bis zu zehnfache Performance-Vorteile gegenüber führenden GPUs bei gleichzeitig 60 % geringerem Stromverbrauch – und das mit unverändertem, standardisiertem Code.

Die Computing-Industrie steht laut NextSilicon vor einem Trilemma: Prozessoren sind flexibel programmierbar, verschwenden aber etwa 98 % ihrer Siliziumfläche für Kontroll-Overhead wie Branch Prediction und Out-of-Order-Logik statt für tatsächliche Berechnungen. GPUs bieten eine bessere Parallel-Rechenleistung, erfordern aber spezialisierte Programmiersprachen wie CUDA und komplexes Speicher-Management. ASICs wiederum liefern optimale Performance für spezifische Workloads, benötigen jedoch Investitionen von über 150 Millionen Dollar, Entwicklungszyklen von drei Jahren und werden unflexibel, sobald sich Workloads ändern. Für die meisten Unternehmen bleibt diese Option unerreichbar.

Der Maverick-2 setzt auf die Intelligent Compute Architecture (ICA) von NextSilicon. Anders als in traditionellen Prozessoren wird die Berechnung nicht durch eine sequenzielle Abfolge von Instruktionen gesteuert, sondern durch die Verfügbarkeit von Daten. Das System besteht aus einem Gitter von Recheneinheiten (ALUs), die in einer Graphstruktur verbunden sind. Sobald Daten an einer Einheit ankommen, startet die Berechnung automatisch, und das Ergebnis fließt zur nächsten Einheit weiter. Dieser Ansatz eliminiert den Overhead für Instruction Handling und Memory-Bottlenecks vollständig und ermöglicht es, den Großteil der Chipfläche für tatsächliche Berechnungen zu nutzen.

Der entscheidende Durchbruch liegt laut NextSilicon in der Programmierbarkeit. Frühere Dataflow-Architekturen scheiterten daran, dass Entwickler ihre Anwendungen mit spezialisierten räumlichen Programmiersprachen komplett neu schreiben mussten. NextSilicon möchte dieses Problem gelöst haben: Die ICA-Software identifiziert die rechenintensivsten Code-Abschnitte automatisch und optimiert die Hardware in Echtzeit dynamisch – ohne spezielle Programmiersprachen oder manuelle Optimierung. Bestehende C++-, Python-, Fortran-, CUDA- und AI-Framework-Anwendungen laufen unverändert. Die software-definierte Hardware rekonfiguriert sich automatisch für unterschiedliche Workloads, von heutigen Transformer-Modellen bis zu zukünftigen Algorithmen.

Die Benchmark-Ergebnisse aus NextSilicons internem Testing sollen die Vorteile aufzeigen: Bei GUPS (Giga-Updates Per Second) erreicht der Maverick-2 32,6 GUPS bei 460 W – 22-mal schneller als CPUs und fast sechsmal schneller als GPUs für Anwendungen wie High-Throughput-Datenbanken, Agentic AI und Scattered-Data AI Inference. Im HPCG-Benchmark (High-Performance Conjugate Gradients) liefert der Chip 600 GFLOPS bei 750 W und erreicht damit GPU-Performance bei halbem Stromverbrauch im Produktivbetrieb. Besonders beeindruckend: Bei PageRank erreicht Maverick-2 zehnfach höhere Graph-Analytics-Performance als führende GPUs. Bei großen Graphen über 25 GB versagten konkurrierende GPUs komplett, während der Maverick-2 sie problemlos verarbeitete.

Den Maverick-2 wird es in verschiedenen Varianten geben. Eine Single-Chip-Variante mit 96 GB HBM3E kommt als PCI-Express-Karte. Die OAM-Variante setzt auf ein Package mit gleich zwei Chips.

Gegenüberstellung der Maverick-2-Beschleuniger

Maverick-2 (Single-Die) Maverick-2 (Dual-Die)
Formfaktor PCIe-Erweiterungskarte OAM
RISC-V-Kerne 32 64
Taktfrequenz 1,5 GHz 1,5 GHz
TDP 400 W 750 W
PCIe-Interface PCIe 5.0 x16 PCIe 5.0 x16
L1-Cache 128 MB 256 MB
HBM-Speicher 96 GB HBM3E 192 GB HBM3E
Speicherbandbreite 3,2 TB/s 6,4 TB/s
Interconnect 1x 100GbE 2x 100 GBE
Kühlung Luftkühlung Wasserkühlung

In welchem Umfeld und in welchem Umfang solche Spezialhardware eine echte Alternative zu den bestehenden Systemen sein kann, ist die große Frage. Startups wie NextSilicon und andere haben häufig das Problem, dass der Markt sich schwer damit tut, von bereits etablierter Hardware und Infrastruktur zu wechseln. 

Arbel mit eigenen RISC-V-Kernen

NextSilicon kündigte zudem mit Arbel einen eigenen RISC-V-Performance-Core an, der ursprünglich für serielle Code-Pfade im Maverick-2 entwickelt wurde. Der in 5 nm bei TSMC gefertigte Chip verfügt über eine massive Instruction-Pipeline mit 10-Wide Issue Width, einem 480-Entry Reorder Buffer, erreicht eine Taktfrequenz von 2,5 GHz und unterstützt 16 skalare Instruktionen parallel sowie vier integrierte 128-Bit-Vektor-Einheiten. Mit Arbel demonstriert NextSilicon die Fähigkeit zur vertikalen Integration von CPU- und Beschleuniger-Technologien – ähnlich wie AMD und NVIDIA.

Quellen und weitere Links KOMMENTARE (1) VGWort
Back to top