Seite 3: Architektur (2)

Nun wollen wir die Unterschiede zwischen "Fermi" und "Kepler" noch etwas detaillierter herausstellen.

gtx680-pres-12-rs

NVIDIA hat in einem SMX-Cluster aber nicht einfach nur die Anzahl der Cores erhöht, sondern auch die Abarbeitung von Instruktionen optimiert. Sowohl "Fermi" wie auch "Kepler" verfügen über ähnliche Hardware, um Instruktionen auf bestimmte Recheneinheiten zu verteilen. "Fermi" allerdings setzte zusätzliche Hardware ein, um Instruktionen auf ihre Konsistenz hin zu prüfen. 

In "Kepler" löst der Compiler dieses Problem bereits auf Software-Ebene und NVIDIA spart sich einige komplexe Hardware-Blöcke.

gtx680-pres-11-rs

Den Wegfall des Shader-Taktes bzw. der sogenannten Hotclocks haben wir bereits angesprochen. Begründet wird dies mit der geringen Effizienz einer solchen Lösung. NVIDIA sparte sich durch den doppelten Shader-Takt einiges an Chipfläche, erkaufte sich dies aber über einen höheren Verbrauch. In obigem Beispiel für eine einfache Rechenoperation (eigentlich derer zwei) wird dies deutlich. Während "Fermi" in der gleichen Zeit die doppelte Anzahl an Operationen ausführen konnte, schafft "Kepler" dies nur über die höhere Anzahl an Cores.

Neben dem höheren Verbrauch spielt aber auch die dahinterstehende Logik eine wichtige Rolle. So benötigte NVIDIA für "Fermi" auch doppelt so viele Pipelines, um die Shader mit Daten zu füttern. Aufgrund der kleineren Fertigung kann NVIDIA die größere Chipfläche für die höhere Anzahl an Cores kompensieren.

gtx680-pres-13-rs

Die "Fermi"-Generation bzw. die Shader sind aufgrund einer Limitierung der DirectX-11-API nur in der Lage auf 128 Texturen gleichzeitig zuzugreifen. Mit "Kepler" können die Shader nun direkt auf Texturen im Speicher zugreifen, was die sogenannten "Binding-Tables" (links in grau zu sehen), obsolet macht. Somit können die Shader auf über eine Millionen Texturen zugreifen, was detailiertere und abwechslungsreichere Szenen ermöglicht.

gtx680-pres-14-rs

Die NVIDIA GeForce GTX 680 ist die erste Grafikkarte, die GDDR5-Speicher mit 6 Gbps anspricht. Dazu musste NVIDIA besonderen Wert auf die Anbindung und das physikalische Design legen. Obiges Bild stellt die Signalintegrität dar. Je ausgeprägter und größer die zwei Augen bei der Messung sind, desto höher ist die Signalqualität.