Werbung
Den neuen mobilen GeForce-Chips dient die Blackwell-Architektur als Basis, die NVIDIA erst zu Beginn des Jahres für den Desktop einführte. Im Vergleich zur Ada-Lovelace-Generation wurde sie in einigen Details optimiert, die überwiegend die RT und Tensor Cores, mithilfe derer NVIDIA Techniken wie Raytracing oder DLSS möglich macht, betreffen. NVIDIA will diese deutlich effizienter gestaltet haben.
So gibt es weiterhin FP64- und FP32/INT32-Recheneinheiten, die in ihrer Anzahl deutlich aufgebohrt wurden. Zusammen mit den Tensor-Kernen können sie sowohl klassische Shaderaufgaben (Animation, Beleuchtung, Geometrie, Materials, Physik und Traversals), aber auch die KI-Workloads übernehmen und nicht mehr nur parallel verarbeiten, wie dies noch bei Ada Lovalace der Fall war. NVIDIA nennt sie daher auch Blackwell Neural Shader. Während es bei Ada Lovalace 64 FP32-Recheneinheiten plus ebenfalls 64 flexibel nutzbare FP32- oder INT32-Recheneinheiten gab, gibt es nun 128 FPS32/INT32-Kerne pro SM. Hinzu kommen weiter verbesserte Tensor- und RT-Kerne.
Im Vollausbau der GB202-GPU stehen insgesamt zwölf Graphics Processing Cluster (GPCs), 96 Texture Processing Clusters (TPCs), 192 Streaming-Multiprozessoren (SMs) und ein 512 Bit breites Speicherinterface, bestehend aus 16 jeweils 32 Bit breiten Speichercontrollern bereit. Jeder GPC umfasst eine dedizierte Raster Engine, zwei Raster Operations (ROPs) Partitionen, wobei jede Partition acht einzelne ROP-Einheiten enthält, und acht TPCs. Jede TPC enthält eine PolyMorph-Engine und zwei SMs. Im Vollausbau kommt die GB202-GPU zudem auf 128 MB an L2-Cache, von dem auf der GeForce RTX 5090 96 MB nutzbar sind. Der neue GDDR7-Speicher mit 28 GBit/s erreicht eine höhere Datenrate bei gleichzeitig geringerer Spannung, womit GDDR7 gegenüber GDDR6 doppelt so effizient sein soll.
NVIDIA macht aber nicht nur die Ausführung von Workloads effizienter, sondern verwendet obendrein neue Hardware-Technologien. Bei Blackwell kann NVIDIA ein Gating für die Takt-Domänen und die Spannungsversorgung vornehmen und hat obendrein zwei Spannungsschienen für den Compute- und Uncore-Bereich der GPU umgesetzt, um eine höhere Effizienz zu erreichen und aufgrund einer schnelleren Taktanpassung sowie einem niedrigeren Power-Status die Rechenleistung schneller machen. Die neuen Rail- und Clock-Gating-Funktionen erlauben aber auch effizientere Power-Stati, womit die Blackwell-GPUs ihren Takt um den Faktor 1.000 schneller wechseln können soll.
Die neuen RT Cores kommen nun in der vierten Generation zum Einsatz und sollen somit noch größere und komplexere KI-Modelle mit ihren Trainings- und Inferencing-Leistung erheblich beschleunigen – konkret geht es um Techniken wie DLSS oder Frame Generation. Die Raytracing-Kerne der dritten Generation haben weitere Tricks gelernt, um entsprechende Berechnungen schneller durchführen zu können.
Ansonsten nutzt NVIDIA eine neue Display- und Video-Engine, die nun DisplayPort 2.1 UHBR20 für 20 GBit/s pro Lane unterstützt und damit 4K bei 480 Hz oder 8K bei 120 HT mit DSC möglich machen kann. Der NVENC-Decoder der sechsten Generation ermöglicht ein AV1 mit UHQ-Profil, die Blackwell-Video-Engine verfügt zudem über gleich zwei H.264-Decoder und ermöglicht das De- und Encoding von 4:2:2-Videoinhalten.
Ausführlichere Details zur Blackwell-Architektur gibt es in unserem Launch-Artikel zum Editors Day und zur NVIDIA GeForce RTX 5090 Founders Edition aus dem Desktop.
Desktop - Modell = Laptop
Den Vollausbau der Blackwell-Architektur wird NVIDIA wie erwartet jedoch nicht im Notebook einsetzen, sondern vielmehr den kleineren GB203-Chip der GeForce RTX 5080 nutzen und diesen zugunsten der physikalischen und elektrischen Gegebenheiten in einem mobilen Gerät weiter beschneiden. Bei den kleineren Modellen verwendet NVIDIA auch den GB205-Chip der GeForce RTX 5070 und begrenzt somit auch die De- und Encoding-Fähigen im Notebook weiter.
So ist bei der NVIDIA GeForce RTX 5090 Laptop bereits bei 82 SMs und damit bei 10.496 Shadereinheiten sowie 328 Tensor Cores und 82 RT Cores Schluss. Die GeForce RTX 5080 aus dem Desktop hat zwei SMs mehr zu bieten. Keine weiteren Abstriche gibt es dafür beim Speicherinterface. So setzt man auf schnelle 28 Gbps-Chips, die über 256 Bit angeschlossen werden und üppige 24 GB VRAM bereitstellen.
Damit entspricht die NVIDIA GeForce RTX 5090 Laptop in etwa einer NVIDIA GeForce RTX 5080 aus dem Desktop, wobei im Vergleich dazu die Einheiten leicht reduziert und die Taktraten abgesenkt wurden. NVIDIA spezifiziert bei unserem Modell einen Basis- und Boost-Takt von 990 respektive mindestens 1.515 MHz. Hier muss allerdings erwähnt werden, dass das Modell auf eine TGP von 175 W begrenzt ist somit seine maximale Leistung nicht voll entfalten kann. In der Praxis erreichte unser Testgerät einen Takt von rund 2.150 MHz.
Max-Q geht in die nächste Runde
Ursprünglich liefen unter dem Max-Q-Label gebinnte Modelle, die speziell auf Effizienz getrimmt wurden, um besonders schlanke und kompakte Geräte mit einer dennoch hohen Grafikleistung ermöglichen zu können. Seit ein paar Generationen fasst NVIDIA darunter alle Funktionen und Technologien, die im Notebook für eine bessere Effizienz sorgen sollen, zusammen.
Dazu gehören beispielsweise bekannte Features wie der Whisper Mode oder Battery Boost. Dabei wird die Bildfrequenz automatisch begrenzt, um so die Last auf der Hardware zu reduzieren und somit die Kühlung leiser zu machen und den Akku zu schonen. Resizable BAR, bei der die CPU Zugriff auf den gesamten Videospeicher erhält, um so die Performance in Spielen weiter zu erhöhen, ist ebenfalls mit darunter. Gleichzeitig kann die TDP von CPU und GPU intelligenter aufgeteilt werden: Bei geringer CPU-Auslastung und hoher GPU-Last kann das System der Grafikkarte etwas mehr Headroom zur Verfügung stellen, um so kurzfristig höhere Geschwindigkeiten und damit eine bessere Performance abrufen zu können, während die ohnehin nicht benötigte Leistung für den Prozessor abgesenkt wird.
Bei Blackwell gehören nun die weiter optimierten GDDR7-Chips des Speichers zur nächsten Generation. Aufgrund einer niedrigeren Spannung will NVIDIA hier die Effizienz erheblich verbessert haben, genau wie mit dem überarbeiteten und schnelleren Taktwechsel, aber auch mit neuen und tieferen Schlaf-Modi sowie dem oben beschriebenen Power Gating. Vor allem fasst NVIDIA DLSS 4 zu den neuen Max-Q-Features von Blackwell.
Offener wird NVIDIA bei den TGP-Werten. So kann die GeForce RTX 5090 Laptop von den Partnern im Bereich von 95 bis 150 W konfiguriert werden, während man bei der GeForce RTX 5080 Laptop auf bis zu 60 W herunter gehen darf und alle anderen Modelle sogar mit nur 50 W konfiguriert werden können. Das macht auch die Blackwell-Generation äußerst flexibel und somit selbst für sehr dünne Geräte einsetzbar, am Ende aber auch die Leistungseinschätzung komplizierter: Eine NVIDIA GeForce RTX 5080 Laptop mit 150 W kann eine namentlich schnellere GeForce RTX 5090 mit nur 95 W überholen.
Eine Kennzeichnung der TGP-Werte bleibt aus Transparenzgründen weiterhin Pflicht – immer mehr Hersteller verpflichten sich zur Angabe dieser Kennzahlen.