NVIDIA GeForce GTX 1080 mit Pascal-Architektur im XXL-Test

Veröffentlicht am: von

geforce gtx 1080Heute ist es soweit: NVIDIA läutet mit der GeForce GTX 1080 und GTX 1070 auf Basis der Pascal-Architektur den diesjährigen Neustart bei den Grafikkarten ein. In Kürze wird wohl auch AMD seinen Beitrag zu diesem Thema leisten. Vor zehn Tagen lud NVIDIA die gesammelte Fachpresse nach Austin ein und präsentierte dort die Neuigkeiten rund um die neuen Karten. Heute nun können wir weitere Informationen von diesem Event präsentieren und liefern auch die dazu passenden Benchmarks. Neben der Vorstellung der Architektur, dem Referenzdesign als Founders Edition sowie den bereits angesprochenen Benchmarks werden aber auch die neuen Technologien eine wichtige Rolle spielen.

Nach langer Zeit nutzte NVIDIA in diesem Jahr wieder einmal die GPU Technology Conference, um eine neue GPU-Architektur anzukündigen. Etwas überraschend wurde Mitte März die Pascal-Architektur vorgestellt, der auch gleich die Ankündigung zur Tesla P100 folgte, dem ersten GPU-Beschleuniger, der die neue Architektur verwendet. Überrascht wurde die versammelte Fachpresse daher, da NVIDIA auch unter Ausschluss der Öffentlichkeit vorher nichts zu diesem Thema durchblicken ließ. Natürlich bezog sich die Vorstellung der Pascal-Architektur ausschließlich auf den Compute-Bereich, doch die potenzielle Rechenleistung ließ sich bereits ablesen. In einer ersten Analyse der Pascal-Architektur wurde schnell klar, was diese zu leisten im Stande ist.

NVIDIA geht mit der GP100-GPU in die Vollen – "All in" wie es der CEO Jen-Hsun Huang auf der Keynote zu sagen pflegte. 15,3 Milliarden Transistoren, 16 GB HBM2, eine Chipfläche von 610 mm² und ein ebenso komplexes Design für den Interposer sind die technischen Herausforderungen, denen sich NVIDIA angenommen hat. Mehrere Jahre sollen tausende Ingenieure an der Entwicklung gearbeitet haben. Schlussendlich soll das R&D-Budget für die Pascal-Architektur zwischen 2-3 Milliarden US-Dollar betragen haben. Das NVIDIA eine solche Hardware überhaupt zum aktuellen Zeitpunkt anbieten kann, hatten viele sicherlich nicht erwartet. Auf der anderen Seite aber macht die Ausrichtung der GP100-GPU klar, welche Ziele NVIDIA damit verfolgt. Der Stückpreis für eine Tesla P100 dürfte irgendwo zwischen 12.000 und 15.000 US-Dollar liegen – Preise dazu hat NVIDIA allerdings noch nicht veröffentlicht.

Die fünf Hauptmerkmale der GeForce GTX 1080
Die fünf Hauptmerkmale der GeForce GTX 1080

Für die GeForce GTX 1080 und GTX 1070 müssen wir zunächst einmal einen Schritt zurück machen. NVIDIA verwendet hier ein angepasstes Design, welches sich in vielen Bereichen deutlich von der GP100-GPU für die Tesla P100 Beschleunigerkarte unterscheidet. Auf eben diese Details gehen wir auf den folgenden Seiten ein. Hinzu kommen neue Technologien, die ebenfalls in Zukunft eine wichtige Rolle spielen sollen.

Die technischen Daten der GeForce GTX 1080 im Überblick
Modell NVIDIA GeForce GTX 1080 AMD Radeon R9 Fury X NVIDIA GeForce GTX 980 Ti
Straßenpreis 789 Euro ab 615 Euro ab 620 Euro
Homepage www.nvidia.de www.amd.de www.nvidia.de
Technische Daten
GPU GP104 Fiji XT GM200
Fertigung 16 nm 28 nm 28 nm
Transistoren 7,2 Milliarden 8,9 Milliarden 8 Milliarden
GPU-Takt (Base Clock) 1.607 MHz - 1.000 MHz
GPU-Takt (Boost Clock) 1.733 MHz 1.050 MHz 1.075 MHz
Speichertakt 2.500 MHz 500 MHz 1.750 MHz
Speichertyp GDDR5X HBM GDDR5
Speichergröße 8 GB 4 GB 6 GB
Speicherinterface 256 Bit 4.096 Bit 384 Bit
Speicherbandbreite 320 GB/s 512,0 GB/Sek. 336,6 GB/s
DirectX-Version 12 12 12
Shadereinheiten 2.560 4.096 2.816
Textureinheiten 160 256 176
ROPs 64 64 96
Typische Boardpower 180 W 275 W 250 W
SLI/CrossFire SLI CrossFire SLI

Im Verlaufe dieses Artikels verwenden wir für die GPU auf der GeForce GTX 1080 den Modellnamen GP104. Gleiches gilt bislang auch für die GeForce GTX 1070, auch wenn wir hier eine Beschneidung hinsichtlich der Architektur sehen. NVIDIA hat noch keine technische Bezeichnung für die Chips benannt. Damit ein Vergleich zur GP100 der Tesla P100 möglich ist, nutzen wir zunächst den Namen GP104 für GeForce GTX 1080 und GTX 1070. Die Fertigung der GPU erfolgt in 16 nm FinFET bei TSMC. Die Anzahl der Transistoren gibt NVIDIA mit 7,2 Milliarden an. Die Größe der GPU liegt bei 314 mm².

Pascal-Architektur

Weiterhin ein zentraler Bestandteil der Architektur sind die Streaming Multiprocessors (SM). Der Aufbau sieht Graphics Processing Clusters (GPCs), Streaming Multiprocessors (SMs) und Speichercontroller vor, die in einem bestimmten System organisiert sind. GP104 auf der GeForce GTX 1080 besteht aus vier GPCs, 20 SMs und diese wiederum besitzen jeweils zwei SM-Blöcke mit jeweils 64 Shadereinheiten. Damit kommt man auf insgesamt 2.560 Shadereinheiten (10x128). Neben den 128 Shadereinheiten befinden sich in jedem SM auch noch acht Textureinheiten, sodass wir hier insgesamt auf 160 Textureinheiten kommen. Das Speicherinterface ist 256 Bit breit. NVIDIA setzt den Speichercontroller aus Blöcken zu jeweils 32 Bit zusammen. Acht Render-Backends oder ROPs sind jeweils an einen Speichercontroller angebunden. Bei 8x 32 Bit (256 Bit insgesamt) sehen wir hier also 64 ROPs für die GeForce GTX 1080.

Blockdiagramm der GP104-GPU
Blockdiagramm der GP104-GPU

Die PolyMorph Engine beinhaltet auch eine spezielle Hardwareeinheit für eine Funktion namens Simultaneous Multi Projection. Die Kombination aus einem SM plus der PolyMorph Engine wird als Thread Processing Cluster (TPC) bezeichnet. Jeder Streaming Multiprocessor verfügt außerdem über 256 kB File Register, 96 kB Shared Register und 48 kB L1-Cache. Hinzu kommen auch noch 2.048 kB an L2-Cache.

Blockdiagramm eines Streaming Multiprocessors in der GP104-GPU
Blockdiagramm eines Streaming Multiprocessors in der GP104-GPU

Vergleicht man die GP104-GPU der GeForce GTX 1080 mit der GP100-GPU der Tesla P100 fallen hier einige Änderungen auf. So verfügt die GP100-GPU über 64 Shadereinheiten pro SM und bei der GP104-GPU sind es 128. Außerdem haben sich die Register- und Cache-Größen leicht verändert. Damit hat NVIDIA erstmals innerhalb einer Architektur nicht nur das Grundgerüst entsprechend angepasst (FP64-Einheiten hinzugefügt und die grundsätzliche Anzahl an Shadereinheiten variiert), sondern teilweise eine Restrukturierung der Architektur vorgenommen, um diese den Bedürfnissen einer Tesla- oder GeForce-Karte anzupassen.

Strom- und Spannungsversorgung

Bei einer Fertigung in 16 nm bei mehreren Milliarden Transistoren rückt die Strom- und Spannungsversorgung mehr und mehr in den Fokus. Jeder einzelne Bereich der GPU muss mit einer möglichst stabilen Spannung versorgt werden, weshalb dedizierte Schaltkreise vorhanden sind. Je umfangreicher diese Versorgungs-Infrastruktur in der GPU ausgebaut wird, desto stabiler sind die Spannungen. NVIDIA hat bei der Entwicklung der Pascal-Architektur bzw. der GP104-GPU tausende von Simulationen durchgeführt, um das letztendlich effizienteste Verhältnis zwischen der Spannungsversorgung und dem Takt der GPU zu finden – dies gilt sicherlich auf für die GP100-GPU der Tesla P100.

Eine neue Spannungsversorgung für mehr Leistung
Eine neue Spannungsversorgung für mehr Leistung

Begonnen hat die Entwicklung mit einem Verhältnis von etwa 1.300 Voltage Paths, was einen Boost-Takt von 1.325 MHz möglich gemacht hätte. Über die Entwicklung hinweg hat man die Anzahl der Voltage Paths auf über 1.700 erhöht. Damit konnte ein Boost-Takt von mindestens 1.733 MHz, wie er bei der GeForce GTX 1080 möglich ist, erreicht werden. Sicherlich wäre es möglich gewesen, die Anzahl der Voltage Paths weiter zu erhöhen, allerdings hätte dies in keinem Verhältnis zur weiteren Taktsteigerung gestanden.

Neben der GPU selbst sind bei der Strom- und Spannungsversorgung natürlich auch die Anforderungen an die weiteren daran beteiligten Komponenten gestiegen. So muss das GPU-Package ebenso gleichmäßig mit den notwendigen Spannungen versorgt werden. NVIDIA hat dazu das Board Channel Design optimiert, was vor allem das Layout des PCBs betrifft. Wieder einen Schritt näher an die GPU-Architektur selbst rückt man mit einem Redesign der GPU Circuit Architektur – also den spannungsversorgenden Komponenten, die sich direkt auf der GPU selbst befinden.

Eine neue Spannungsversorgung für mehr LeistungEine neue Spannungsversorgung für mehr Leistung

Eine neue Spannungsversorgung für mehr Leistung

Ebenso hohe Anforderungen werden an das PCB, das BGA des GPU-Package und das Package selbst gestellt, wenn es um die Übertragung der Signale an das PCI-Express-Interface oder den angebundenen GDDR5X-Speicher geht. Der Speicher spielt vor allem dann eine Rolle, wenn er wie in diesem Fall Frequenzen von bis zu 2.500 MHz erreicht. Sobald die Wellenlänge der Signale in der Größenordnung der Leitungslänge reicht ein vereinfachtes Modell aus ohmschen Widerstand, Leitungsquerschnitt, Leitfähigkeit und eben der Länge nicht mehr aus. Durch die auf jeder Leitung vorhandenen Kapazitäts- und Induktivitätsbeläge breiten sich die Signale maximal mit Lichtgeschwindigkeit aus.

Um bei den vorhandenen Laufzeiten überhaupt noch eine Signalintegrität gewährleisten zu können, muss die Modulation und Detektion der Signale extrem präzise sein. Um die Laufzeiten möglichst identisch zu halten sind die Speicherchips ohnehin schon relativ regelmäßig um die GPU herum platziert. Diese Methodik wird sich mit zukünftigen Speichergenerationen immer weiter verstärken und durch die Hersteller optimiert werden müssen.


Ende des vergangenen Jahres präsentierte Micron die finalen Spezifikationen zu GDDR5X. Demnach sieht Micron GDDR5X als Lückenfüller zwischen GDDR5 und HBM der ersten und zweiten Generation bzw. legt den Speicher auf bestimmte Einsatzgebiete aus. Um die Leistung des Speichers zu erhöhen, wird beispielsweise der Prefetch von 32 auf 64 Bit verdoppelt. Dadurch verdoppelt sich auch die Anzahl der Datenwörter pro Zugriff von 8 auf 16. Die Datenraten pro Pin am Speicherchip liegen aktuell bei 8 GBit/s bei den erwähnten GDDRX5-Varianten mit 1.000 MHz. Micron arbeitet in der aktuellen Ausführung von GDDR5X mit 10 bis 12 GBit/s, plant aber mit bis zu 16 GBit/s. Laut Micron sorgen die geringen Unterschiede zwischen GDDR5 und GDDR5X dafür, dass nur wenige Änderungen beim Design der Speichercontroller vorgenommen werden müssen, was AMD und NVIDIA sicherlich entgegenkommt.

Besitzt eine GPU aktuell ein Speicherinterface mit 256 Bit, so steigert der Einsatz von GDDR5X bei 12 GBit/s die Speicherbandbreite von 256 auf 384 GB/s (bei einem angenommenen Chiptakt von 1.000 MHz). Bei 16 GBit/s wäre sogar eine Verdopplung auf 512 GB/s möglich. Damit läge man schon auf Niveau der aktuellen HBM-Generation. An dieser Stelle muss aber auch erwähnt werden, dass ein GDDR5X mit 16 GBit/s derzeit noch nicht realisierbar ist. NVIDIA setzt bei der GeForce GTX 1080 auf GDDR5X-Speicher mit einem Takt von 2.500 MHz und kommt damit auf eine Speicherbandbreite von 320 GB/s. Damit ist die Speicherbandbreite gerade so auf Niveau des direkten Vorgängers GeForce GTX 980 und langsamer als bei der GeForce GTX 980 Ti. NVIDIA will dies aber mit einer verbesserten Delta-Farbkompression ausgleichen können.

Briefing von Micron zu GDDR5XBriefing von Micron zu GDDR5X

Briefing von Micron zu GDDR5X

Zunächst einmal schaut es danach aus, als seien sich GDDR5 und GDDR5X sehr ähnlich - dem ist auch so. Allerdings gibt es einige Einschränkungen. So verfügen die GDDR5X-Speicherchips über 190 anstatt 170 Kontakte im BGA. Die Abmessungen der Speicherchips spielen mit 14 x 10 mm wohl kaum eine Rolle. High Bandwidth Memory ist die zukünftige Speichertechnologie, soviel steht wohl bereits jetzt fest. Gerade der nächste Entwicklungsschritt auf die 2. Generation zeigt ein enormes Potenzial und wird von NVIDIA auf das Tesla P100 sogar schon verbaut. Aber HBM wird nicht über eine komplette Produktpalette eingeführt werden können - NVIDIA macht dies aktuell vor und AMD wird bei den kommenden GPUs auf Basis der Polaris-Architektur sicherlich auch (noch) nicht auf HBM2 setzen können. GDDR5X besitzt also seine Daseinsberechtigung, zumal die Entwicklung hier ebenfalls voranschreitet und die Integration bzw. die Anbindung an bestehende Speichercontroller recht einfach ist (ähnliche/identische Timings und Clocks). Netter Nebeneffekt ist die Senkung der Speicherspannung von aktuell 1,5 auf 1,35 V.

Delta-Farbkompression

Das nur 256 Bit breite Speicherinterface wirkt im Vergleich zu den 512 Bit der Hawaii-GPUs oder 4.096 Bit der ersten Karten mit HBM bzw. HBM2 von AMD und NVIDIA recht schmal. NVIDIA will über eine neue Speicherkomprimierung dennoch eine vergleichbare Performance in diesem Bereich bieten. Eine Delta-Farbkompression hat sich inzwischen bei GPUs von AMD und NVIDIA seit einigen Generationen durchgesetzt. Bei NVIDIA handelt es sich um die 4. Generation eines solchen Kompressionsverfahrens. AMD verwendet diese bereits mit der Tonga-GPU der Radeon R9 295. Erst kürzlich sprach AMD noch einmal über die Delta-Farbkompression, wie sie in der GCN-Architektur implementiert ist. Wichtig dabei ist, dass es sich um ein verlustloses Kompressionsverfahren handelt. Es gehen also keiner Daten verloren und Entwickler können sich auf das Verfahren verlassen, ohne speziell darauf angepasst zu entwickeln.

Delta-Farbkompression in der Pascal-Architektur
Delta-Farbkompression in der Pascal-Architektur

NVIDIA verwendet für die Speicherkomprimierung eine sogenannte Delta Color Compression. Dabei wird nur der Basispixelwert gespeichert und für die umliegenden Pixel in einer 8x8-Matrix nur noch der Unterschied (das Delta) gespeichert. Da das Delta ein deutlich kleinerer Wert ist, kann dieser schneller gespeichert werden und benötigt auch weniger Platz im Speicher. Es müssen also weniger Daten in den VRAM geschrieben und daraus gelesen werden. Komprimiert werden kann aber auch der einzelne Farbwert, so dass auch hier Speicherplatz oder besser Speicherbandbreite eingespart werden kann. Ein Beispiel für die Kompression ist ein vollständiges Schwarz und Weiß, deren Wert üblicherweise als {1.0, 0.0, 0.0, 0.0} oder {0.0, 1.0, 1.0, 1.0} im Speicher abgelegt wird. In einem einfachen Verfahren reichen aber auch die Werte 0.0 oder 1.0 aus, um dies eindeutig zu beschreiben.

Delta-Farbkompression in der Pascal-Architektur
Delta-Farbkompression in der Pascal-Architektur

Delta-Farbkompression in der Pascal-ArchitekturDelta-Farbkompression in der Pascal-Architektur

Delta-Farbkompression in der Pascal-Architektur

NVIDIA hat die Verfahren zur Detektion der komprimierbaren Bildinhalte verbessert. Das bereits bekannte 2:1 Verhältnis kann also schneller angewendet werden und ist zudem auf einen größeren Datenbestand anwendbar. Neu hinzugekommen sind die Kompressionen um den Faktor 4:1 und 8:1. Am Beispiel von ProjectCARS spricht NVIDIA von einer Reduzierung der benötigten Speicherbandbreite um die Hälfte, während es im Schnitt in etwa der Faktor 1,2 sein soll. Diese Werte auf die Speicherbandbreite von 320 GB/s angewendet, erreicht die GeForce GTX 1080 damit theoretische Bandbreiten von 384 bis 480 GB/s. Natürlich sind das rein theoretische Werte, die sich aufgrund der Komprimierung ergeben. Es ist auch schwierig den Einfluss der Delta-Farbkompression zu testen, da das Verfahren in der Hardware selbst durchgeführt wird und nicht ausgeschaltet werden kann.


Eine der wichtigsten neuen Funktionen in der Pascal-Architektur ist die Simultaneous Multi Projection (SMP). Den ersten Schritt in diese Richtung machte NVIDIA mit der Maxwell-Architektur und Multi Resolution Shading (MRS). MRS beschreibt eine Technik zur Einsparung der Rechenleistung und macht sich dabei zu Nutzen, dass der Träger einer VR-Brille in den Randbereichen eine etwas geringere Auflösung ohnehin nicht mehr wahrnimmt.

Multi Resolution Shading noch einmal genauer erklärt:

Damit der Nutzer einer VR-Brille überhaupt in der Lage ist, auf einer Brille und den darin verbauten Displays etwas zu sehen, wird eine Optik verwendet, die das Bild entsprechend dem Betrachtungsabstand und gewünschtem Blickwinkel anpasst. Die Ausgabe auf dem Display erfolgt daher in einer Fisheye-ähnlichen Verzerrung und zudem wird das Bild an den Rändern noch gestaucht, damit nach der Optik ein für den Nutzer normales und unverzerrtes Bild entsteht. Da GPUs und die Rendering-Prozesse aber nicht darauf ausgelegt sind, ein solches Bild auszugeben, gehen die Hersteller hin und rendern das Bild auf gewöhnliche Art und Weise, um es in einem Post Processing entsprechend anzupassen. Diese nachträgliche Bearbeitung kostet zum einen Leistung, viel entscheidender aber ist, dass eine weitere Verzögerung bis zur Ausgabe des Bildes entsteht und gerade diese ist für ein möglichst optimales VR-Erlebnis störend.

NVIDIA GameWorks VRNVIDIA GameWorks VR

NVIDIA GameWorks VR

NVIDIA wendet nun einen Trick an, um die nicht oder nur eingeschränkt sichtbaren Bereiche anders zu behandeln. Dazu wird das Bild in neun Bereiche aufgeteilt. Diese sogenannten Viewports orientieren sich in etwa an den sonst im Post Processing bearbeiteten Abschnitten. So wird der mit Abstand größte Viewport in der Mitte fast vollständig so belassen, wie er ursprünglich auch behandelt wurde. Die Seitenbereiche und vor allem die vier Ecken aber werden mit einer Art Komprimierung belegt und in ihrer Auflösung entsprechend dem gewünschten Endergebnis angepasst.

Alle neun Viewports werden gleichzeitig durch die GPU berechnet – allerdings getrennt voneinander. Die Ausgabe erfolgt schlussendlich in einer bereits fertig angepassten Form. Ein Post Processing ist damit nicht mehr notwendig. Durch die Aussparung von nicht sichtbaren Bereichen sowie der Anpassung der Auflösung der Ränder und einer zusätzlichen Komprimierung kommt NVIDIA auf eine erhöhte Pixel-Shader-Performance um den Faktor 1,3 bis 2 für die Maxwell-Architektur. Da auch Pascal die Viewports unterstützt, kann Multi Resolution Shading auch hier verwendet werden. Allerdings hat NVIDIA den Funktionsumfang mit Pascal erweitert und bietet nun neue Funktionen für die Verwendung der Viewports.

16 Viewports und Simultaneous Multi Projection

Simultaneous Multi Projection
Simultaneous Multi Projection

Neben den VR-Brillen kann eine Berechnung einer 3D-Szene aus einem anderen Blickwinkel heraus sinnvoll sein – beispielsweise wenn mehrere Monitore nebeneinander aufgestellt werden oder Curved-Displays zum Einsatz kommen. Multi-Monitor-Setups sind sicher noch immer nicht sonderlich weit verbreitet und dennoch geht NVIDIA ein Problem an, wenn mehr als ein Monitor verwendet wird. Denn bei der Umrechnung der 3D-Szene in ein 2D-Bild auf dem Monitor wird nicht mit einbezogen, dass das Bild eigentlich für jeden Monitor einzeln berechnet werden müsste, um einen realistischen Blickwinkel zu erreichen. NVIDIA verwendet dazu die bereits erwähnten Viewports, die auch schon in der Maxwell-Architektur verwendet wurden. Während Maxwell mit 9 Viewports umgehen kann, sind bei Pascal bis zu 16 Viewports möglich. Mit Simultaneous Multi Projection wird für jeden Monitor eine eigene Projektion berechnet. Das Video zeigt den Effekt bei einem Multi-Monitor-Setup am deutlichsten.

Interessant ist dies aber eben nicht nur für Multi-Monitor-Setups, sondern vor allem bei VR-Anwendungen. Dort können diese 16 Viewports verwendet werden, um die zwei Bilder für die 3D-Darstellung in einem einzigen Durchlauf zu berechnen. Auch bei Simultaneous Multi Projection soll die durch die Linsen vorgenommene Anpassung bereits im Vorfeld mit einbezogen werden. Dazu verwendet NVIDIA das sogenannte Lens Bend Shading. Dabei wird jedes Bild pro Auge in vier Tiles eingeteilt. Diese vier Flächen sind in einer Halbschale zueinander ausgerichtet. Bei 16 Viewports, die von der Pascal-Architektur unterstützt werden, wären auch acht Tiles pro Auge möglich. NVIDIA selbst spielt laut eigenen Angaben aber noch mit der Technik und will hier auch keine Vorgaben machen. Stattdessen will man für Simultaneous Multi Projection eine Art SDK anbieten, auf das Entwickler direkt zugreifen können. Neben Multi-Monitor-Setups und VR-Brillen sollen entsprechende Anpassungen auch für Curved-Monitore möglich sein. Die Anpassung an die Krümmung eines Curved-Monitors oder den Winkel, den die Monitore zueinander haben, erfolgt im Control Panel des NVIDIA-Treibers mit Hilfe von Hilfslinien.

Simultaneous Multi ProjectionSimultaneous Multi Projection

Simultaneous Multi Projection

Simultaneous Multi Projection ist Teil der PolyMorph Engine 4.0. Innerhalb der Rendering-Pipeline wird die SMP nach der Shader-Berechnung und vor dem Rasterizer ausgeführt (Input Assembler —> Vertex/Tessellation/ Geometry Shader —> SMP —> Setup Raster —> Pixel Shader). In VR-Anwendungen erreicht die GeForce GTX 1080 die doppelte Leistung gegenüber der GeForce GTX Titan X bei dreifacher Effizienz. Simultaneous Multi Projection ist dabei für ein Performance-Plus von 50 bis 60 Prozent verantwortlich.

Simultaneous Multi Projection
Simultaneous Multi Projection

Dieses Leistungsplus kann auch durch einige Zahlen untermauert werden. So müssen für die Oculus Rift 4,2 Megapixel berechnet werden Bei einem konservativen Preset ist eine Einsparung von 2,8 Megapixel möglich, was wiederum einen 1,5 höheren Pixeldurchsatz zur Folge hat. Da die Geometrie-Daten nur einmal berechnet werden sollen, ist der Durchsatz hier sogar doppelt so hoch. Laut NVIDIA ist das Simultaneous Multi Projection getaufte Verfahren etwas effizienter als Multi Resolution Shading, allerdings kann MRS nicht durch eine SMP ersetzt werden (und umgekehrt), denn die Verfahren sprechen unterschiedliche Einsatzzwecke an, habe beide aber eine Einsparung hinsichtlich der Leistung zu verzeichnen.

Simultaneous Multi Projection kann auch genutzt werden, um einerseits eine Darstellung in der VR-Brille zu berechnen, auf der anderen Seite aber auch eine klassische Monitor-Darstellung (z.B. um dies zu streamen) oder anderweitig zur Verfügung zu stellen.


Das Vorhandensein von mehreren tausend Shaderprozessoren bietet ein enormes Leistungspotenzial, macht es den Hard- und Softwareentwicklern aber auch schwierig diese tausenden von Recheneinheiten möglichst effizient mit Rechenaufgaben zu versorgen. Weitere Komplexität bekommt das Thema, wenn neben den für eine Grafikkarte klassischen Graphics-Berechnungen auch noch solche im Bereich das Computings hinzukommen. Diese Berechnungen lassen sich nicht so ohne weiteres mischen und gemeinsam ausführen.

Dynamischee Load Balacing für Async Compute
Dynamischee Load Balacing für Async Compute

Das asynchrone Computing wird in Zukunft eine immer wichtigere Rolle spielen. AMD hat mit den Asynchronous Shaders eine dedizierte Hardware entwickelt, die Bestandteil der Graphics-Core-Next-Architektur ist. Der Vorsprung, den AMD in einigen DirectX-12-Spielen hat, lässt sich zumindest teilweise auf das Vorhandensein der Asyncronous Shaders zurückführen. Ashes of the Singularity ist ein gutes Beispiel dafür. NVIDIA führt mit der Pascal-Architektur ein neues dynamisches Load Balancing ein. Von Vorteil ist das dynamische Load Balancing vor allem bei Prozessen und Berechnungen, die zwar zur gleichen Zeit starten, deren Rechenaufwand aber unterschiedlich hoch ist. Die statische Partitionierung ist im Vergleich zum dynamischen Load Balacing deutlich weniger effektiv und hat eine geringere Auslastung der Recheneinheiten zur Folge.

Preemption

Nicht immer ist es sinnvoll einen Prozess oder eine Berechnung vollständig auszuführen. Preemption heißt hier das Stichwort und beschreibt übersetzt ein präemptives Multitasking. Dabei wird jeder Prozess nach einer bestimmten Abarbeitungszeit unterbrochen, egal ob er vollständig beendet wurde oder nicht. Sogenannte Time Slices sind dabei global festgeschriebene Zeitspannen, in die eine Berechnung unterteilt werden kann. Ist der Prozess unterbrochen, also inaktiv, können die Daten aus den Registern und den Caches der GPU in den Grafikspeicher verschoben werden. Erhält der entsprechende Prozess wieder eine Prozesszuteilung, so setzt er seine Arbeit an der Stelle fort, an der er zuvor abgebrochen wurde.

Nun ist es besonders wichtig eine Unterbrechung zu einem beliebigen Zeitpunkt durchzuführen, um möglichst flexibel zu sein. Je beliebiger bzw. feinkörniger dieser Zeitraum gewählt werden kann, desto besser. Bei der Graphics Preemption werden die Berechnungen aus dem Command Pushbuffer entnommen. Dabei handelt es sich üblicherweise um Milliarden von Dreiecken, die wiederum aus unterschiedlich vielen Pixeln bestehen. Die in der Pascal-Architektur implementierte Graphics Preemption kann nun pixelgenau ausgeführt werden, bei der Maxwell-Architektur ist dies nur bis auf Triangle-Ebene möglich. Aus der Graphics Pipeline kann ein Prozess auf den Pixel genau (X- und Y-Koordinate) gestoppt und wieder gestartet werden. Feinkörniger war dies bisher nicht möglich.

Preemption in der Pascal-ArchitekturPreemption in der Pascal-Architektur

Preemption in der Pascal-Architektur

Für Compute-Prozesse liegen die Rechenaufgaben ebenfalls in einem Command Pushbuffer vor und werden dort durch Grids in unterschiedliche Workloads bzw. Threads unterteilt. Ein Abbrechen und Fortsetzen ist bei Compute Preemption auf Threadlevel möglich. Die Kombination aus beiden Methoden sorgt für ein gesamten Preemption im Bereich von 100 µs in Spielen.

Besonders wichtig ist das Preemption bei VR-Anwendungen, denn hier ist die Hardware darauf ausgelegt auf die ms genau die entsprechenden Frames auszugeben. Einen Frame alle 11 ms (90 Frames pro Sekunde) auszugeben ist für High-End-Hardware bei der Auflösung von VR-Brillen eigentlich kein Problem mehr, allerdings steigen die Anforderungen der VR-Hardware in Zukunft immer weiter.


Für die Ausgabe und Darstellung auf dem Display wird ab diesem Jahr das Thema High Dynamic Range von großer Bedeutung sein. AMD kündigte bereits im vergangenen Jahr an, dass die zukünftigen GPUs HDR unterstützen werden. HDR beschreibt eine höhere Darstellung von Helligkeitsunterschieden und einem größeren Dynamikumfang im Vergleich zu Standard Dynamic Range (SDR). HDMI 2.0a beispielsweise unterstützt grundsätzlich eine Übertragung in HDR, Amazon Prime Instant Video bietet einige Inhalte in den USA inzwischen damit an, die neuen 4K-Blu-rays sollen ebenfalls den höheren Dynamikumfang unterstützen. Netflix streamt seit Anfang 2016 ebenfalls erste Inhalte mit HDR-Unterstützung.

Um die Unterschiede zwischen HDR und SDR zu kennen, muss man folgendes wissen: Ähnlich wie bei den Bildwiederholungsraten von Monitor- und Fernseh-Panels schleppen die Hersteller auch bei den Übertragungstechniken noch Altlasten mit sich herum, die aus der Zeit der Röhrenmonitore stammen. Dazu gehört das Fehlen von Übertragungsstandards, die zusätzliche Informationen, wie eben zum Beispiel HDR, an die Ausgabegeräte liefern können. Also auch wenn Kino- und Fernsehproduktionen mit HDR-Informationen aufgenommen werden, werden diese Informationen bei der Übertragung wieder entfernt und heruntergerechnet. Dies betrifft den Farbraum ebenso wie Kontrast und Leuchtdichte, die aktuell bei maximal etwa 100 cd/m² liegt. Dies sorgt dafür, dass ein Schwarz nicht wirklich schwarz ist und bei zu hellen Darstellungen Informationen teilweise verloren gehen.

HDR und die Pascal-Architektur
HDR und die Pascal-Architektur

Nun gibt es aber mehrere Ebenen innerhalb der Erstellung von Video-Inhalten, die aufeinander abgestimmt werden müssen. Dazu gehören das Aufnahmeverfahren, die Bildbearbeitung, die Distribution in Form von Medien und eben die Darstellung auf dem Display selbst. Die Hersteller von Fernsehern und Monitoren versuchen dies mit eigenen Dynamic-Profilen und Anpassungen etwas abzufangen, doch verlorengegangene Informationen lassen sich im Nachhinein nicht mehr hinzufügen und so können diese Details allenfalls interpoliert werden. Auch technisch stehen die Hersteller dabei noch vor Herausforderungen, denn die Vorgaben von HDR lassen sich derzeit noch nicht direkt umsetzen. So bieten LC-Panels die notwendige Helligkeit, rechen beim Schwarzwert aber nicht an die Darstellungsqualität heran, wie sie OLED-Panels bieten. Auch die Hintergrundbeleuchtung muss weiter verbessert werden, um eine dynamischere Leuchtdichte zu erreichen. Einzelne Bereiche des Panels müssen deutlich granularer angesteuert werden, was die Hintergrundbeleuchtung deutlich komplexer und schwieriger macht als dies aktuell der Fall ist.

Für Darstellungen mit einer solch hohen Dynamic gibt es wie im Audio-Bereich bereits einen Standard namens Dolby Vision. Dieser sieht beispielsweise eine maximale Leuchtdichte von bis zu 4.000 cd/m² vor, was ein Vielfaches der aktuell möglichen Leuchtdichte entspricht. HDR in der ersten Fassung beschränkt sich allerdings zunächst einmal auf 1.000 cd/ sowie ein Kontrastverhältnis von 10.000:1 bei einer Farbabdeckung von 75 Prozent des sichtbaren Lichtspektrums. Bis wir solche Darstellungen auch im heimischen Wohnzimmer bewundern werden können, werden noch Jahre vergehen.

HDR und die Pascal-Architektur
HDR und die Pascal-Architektur

Auf Seiten der Softwarecodecs ist man schon lange vorbereitet. So bietet HEVC derzeit als einziger "Consumer"-Codec die Möglichkeit, HDR-kodierte Inhalte wiederzugeben. Für solche Übertragungen wie sie Dolby Vision vorsieht, werden ebenfalls bestehende Codecs verwendet, die dann aber um zusätzliche Daten erweitert werden. Nur Dolby-Vision-Geräte können damit überhaupt umgehen und auch die Datenrate steigt um bis zu ein Viertel an, was zusätzlich Probleme bereiten kann.

Nicht nur größere Helligkeitsunterschiede können via HDR übertragen und ausgegeben werden, auch der Dynamikumfang bei den Farben ist mit HDR größer. Der sRGB- und Adobe-RGB-Farbraum dürfte den meisten etwas sagen. Darüber hinaus definiert sind Rec. 2020 und Digital Cinema (DCI) HDR-10 UHD TV mit einem deutlich erweiterten Farbraum, der in weiten Bereichen den Farbraum des menschlichen Auges abdeckt.

Wie auch bei den Filmen ist HDR in Spielen keine neue Erfindung. Bei Spielen wurde mit HDR versucht, einen größeren Dynamikbereich zu simulieren, denn intern konnte zwar damit gerechnet werden, ausgegeben werden konnte die Darstellung aber nur auf dem klassischen Wege, denn weder die Ausgabeseite der Grafikkarten, noch die Übertragung und schon gar nicht die Displays könnten die mit HDR-gefüllten Informationen ausgeben. Damals noch wurde eine übersättigte Darstellung von Lichteffekten als HDR-Darstellung verstanden, die natürlich keineswegs einer echten HDR-Darstellung entsprechen konnte. Auf dem Editors Day präsentierte NVIDIA zusammen mit den Entwicklern eine Version von Rise of the Tomb Raider mit HDR-Unterstützung. An die Darstellung wird man sich aber noch etwas gewöhnen müssen, denn gerade helle Bereiche wirken meist doch noch sehr übertrieben hell. Aber vielleicht hat sich das Auge auch nur an die Display-Darstellung der vergangenen Jahre gewöhnt und erkennt ein in dieser Hinsicht realistischeres Bild schon gar nicht mehr.

NVIDIA integriert in der Pascal-Architektur einen De- und Encoder mit der Möglichkeit HDCP in 10 Bit zu verschlüsseln. Damit wird ein Decoding in [email protected] 10/12 Bit HEVC möglich. Das Encoding beschränkt sich auf [email protected] 10 Bit HEVC (beispielsweise für ein einfaches Recording oder ein Streaming des Videosignales).

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Im Zuge der neue Pascal-Architektur stellt NVIDIA auch neue Standards für die Display-Ausgänge auf der GeForce GTX 1080 und GTX 1070 zur Verfügung. So verfügen die beiden Karten über HDMI 2.0b und DisplayPort 1.3/1.4. Während bei DisplayPort 1.3 aber von einem bereits zertifizierten Standard die Rede ist, beschreibt NVIDIA DisplayPort 1.4 nur als "ready", da die VESA hier die finalen Spezifikationen noch nicht festgelegt hat. Man rechnet aber fest damit, alle Belange des Standards einhalten zu können. Dies beschränkt sich natürlich nur auf die Pflichtkomponenten von DisplayPort. Weiterhin nicht unterstützt werden optionale Komponenten wie das Adaptive Sync.

Mit den ersten Gaming-Monitoren mit HDR-Unterstützung rechnet NVIDIA ab Anfang 2017. Es wird also noch einige Zeit dauern, bis Spieler in den Genuß von HDR kommen. Wer sein Heimkino mit einem HDR-fähigen Fernseher ausstatten möchte, muss ebenfalls noch tief in die Tasche greifen müssen. Um ein Streaming vom mit einer Pascal-GPU bestückten PC an den Fernseher im Wohnzimmer zu ermöglichen, will NVIDIA das GameStream-Feature um GameStream HDR erweitern. Dann könnte zur Übertragung des Videos die Shield mit Android TV und eine Übertragung in HEVC 10 Bit verwendet werden. NVIDIA plant diese Funktion derzeit ab Sommer 2016 anzubieten.

Bei AMD sehen die aktuellen Empfehlungen für HDR wie folgt aus:

Übersicht der Kompatibilität

Auflösung:

1080p bei 120 Hz
10bpc

1440p bei 60 Hz
10bpc

2160p bei 30 Hz
10bpc

2160p bei 60 Hz
10bpc
GPU-Serie: Radeon R9 300 Serie Radeon R9 300 Serie Radeon R9 300 Serie Radeon R9 300 Serie
Display-Ausgänge: HDMI 1.4b
DisplayPort 1.2
HDMI 1.4b
DisplayPort 1.2
HDMI 1.4b
DisplayPort 1.2
HDMI 1.4b
DisplayPort 1.2
Inhalte:

Spiele
Fotos

Spiele
Fotos
Spiele
Fotos
Spiele
Fotos
Filme

Wer im Besitz einer NVIDIA-Grafikkarte mit Maxwell-GPU ist, den interessiert sicherlich welche Änderungen sich nun mit der Pascal-Architektur ergeben. NVIDIA stellt daher eine Tabelle zur Verfügung, welche die GeForce GTX 980 mit der GTX 1080 vergleicht.

Übersicht der De- und Encoder-Kompatibilität

Grafikkarte

GeForce GTX 980 GeForce GTX 1080
H.264 Encode Ja Ja (2x [email protected] Hz)
HEVC Encode Ja Ja (2x [email protected] Hz)
10 Bit HEVC Encode Nein Ja
H.264 Decode Ja Ja ([email protected] Hz mit bis zu 240 Mbps)
HEVC Decode Nein Ja ([email protected] Hz / [email protected] Hz mit bis zu 320 Mbps
VP9 Decode Nein Ja ([email protected] Hz mit bis zu 320 Mbps)
MPEG2 Decode Ja Ja
10 Bit HEVC Decode Nein Ja
12 Bit HEVC Decode Nein Ja

Die fehlende Synchronisation zwischen der Ausgabe der Grafikkarten und der Darstellung durch das Panel des Monitors sind AMD mit FreeSync und NVIDIA mit G-Sync angegangen. Doch trotz oder gerade wegen dieser Synchronisation spielt das V-Sync weiterhin eine Rolle und ringt dem Nutzer auch ebenso weiterhin einige Kompromisse ab. Gerade sogenannten High-FPS-Games wie Counter-Strike, Dota 2 oder andere sind davon betroffen, denn hier sind die aktuellen High-End-Grafikkarten in der Lage hunderte von FPS auszugeben.

Fast Sync auf der GeForce GTX 1080Fast Sync auf der GeForce GTX 1080

Fast Sync auf der GeForce GTX 1080

Der Nutzer steht nun also vor der Wahl ob er V-Sync ein- oder ausschalten soll. Beide Methoden haben ihre Vor- und Nachteile. Während ein eingeschaltetes V-Sync vor allem ein Tearing (also die Darstellung von zwei verschobenen Frames auf einem Display-Scan) verhindert, wird durch das Verwerfen vieler Frames eine hohe Latenz erzeugt. Ausgeschalteten V-Sync reduziert diese Latenzen zwar wieder, sorgt aber für ein starkes Tearing. NVIDIA hat nun eine Methode entwickelt, in der der Render Buffer vom Display Buffer getrennt wird – Decoupling Render and Display nennt NVIDIA dies. Der Buffer wird dazu in drei Bereiche aufgeteilt: Front Buffer, Back Buffer und Last Rendered Buffer. Diese Buffer werden nun als eine Art Zwischenspeicher verwendet und nur der gerade zuletzt fertigestellte Frame wird an das Display ausgeliefert.

Mit Fast Sync werden keine Frames mehr zurückgehalten und damit unnötig verzögert. Ebenso werden die Latenzen reduziert. Zudem bewegt man sich mit Fast Sync hinsichtlich der Latenzen fast auf Niveau von ausgeschaltetem V-Sync. Ein Tearing ist bei Fast Sync ebenso nicht möglich. Fast Sync soll nicht nur für aktuelle Grafikkarten mit Pascal-GPU angeboten werden, sondern auch auf älteren Architekturen. Alle Maxwell-GPUs werden sicherlich dabei sein. Wie weit NVIDIA aber zurückgehen möchte, steht derzeit noch nicht fest.

Fast Sync im Control Panel des NVIDIA-Treibers
Fast Sync im Control Panel des NVIDIA-Treibers

Fast Sync noch einmal im Detail

Für alle diejenigen unter euch, die genauer wissen wollen, wie Fast Sync funktioniert, haben wir noch einmal etwas genauer nachgesehen. Die Game Engine liefert einen Frame an die DirectX-API bzw. den Treiber. Animation Time und Draw Calls werden über den Treiber an die GPU übertragen, woraufhin diese den gerenderten Frame an den Frame Buffer liefert. Daraus wird dann der Scan erstellt, der für die Darstellung auf dem Display sorgt.

Traditionelle Methode der Render Pipeline für die Ausgabe der Frames
Traditionelle Methode der Render Pipeline für die Ausgabe der Frames

Bei aktviertem V-Sync wird der Game Engine nun gesagt, dass diese nur so viele berechnen soll, wie auf dem Display dargestellt werden können (60 FPS, 90 FPS, 120 FPS, 144 FPS, etc.). Dies sorgt allerdings dafür, dass ein eventuell getätigter Input (eine Mausbewegung oder ein Tastendruck auf der Tastatur) erst verzögert mit in das Rendering einbezogen wird. Mit ausgeschaltetem V-Sync werden so viele Frames wie möglich geliefert, die Verzögerungen sind damit kurz, allerdings kann es zu einem Tearing kommen.

NVIDIA trennt nun die Auslieferung des Frames an den Frame Buffer von der Ausgabe durch die GPU. Daher stammt auch die Bezeichnung Decoupled Render and Display. Innerhalb der kompletten Rendering Pipeline kann die Rendering Stage, also von der Game Engine bis hin zur GPU, weiterhin Frames rendern, die dann nur temporär im Frame Buffer gespeichert werden. Die Display Stage ist davon abgetrennt und arbeitet in gewisser Weise eigenständig. Für die Game Engine wirkt also alles wie ein ausgeschaltetes V-Sync. Es werden so viele Frames wie möglich berechnet und jeder Input durch den Nutzer fließt in diesen Prozess mit ein. Im Frame Buffer entscheidet Fast Sync dann, welcher Frame passend zur Displayausgabe synchron läuft und gibt diesen aus.

Decoupled Render and Display
Decoupled Render and Display

Dazu musste NVIDIA den Frame Buffer aber in drei Bereiche aufteilen. Front Buffer und Back Buffer arbeiten weiterhin wie ein Double Buffered V-Sync. Im Front Buffer befindet sich der Frame, der durch das Display ausgegeben werden soll. Im Back Buffer wird der gerade gerenderte Frame vorgehalten. Zwischen diesen beiden Buffern wird normalerweise hin und hergewechselt, wenn V-Sync verwendet wird. In einem neuen neuen Last Rendered Buffer wird für Fast Sync nun der aktuellste gerenderte Frame vorgehalten – genau wie im Back Buffer. Man hat also eine Kopie des Back Buffer im Last Rendered Buffer.

Decoupled Buffer - Front, Back und last Rendered Buffer
Decoupled Buffer - Front, Back und last Rendered Buffer

Hat der Front Buffer seinen Frame ausgeliefert, wird als nächster Frame derjenige aus dem Last Rendered Buffer genommen und der Prozess beginnt von vorne. Da zwischen den Buffern keine Frames kopiert werden, werden die Buffer einfach umbenannt. Der Buffer aus dem gerade für das Display gescannt wird ist der Front Buffer. Der Buffer in den gerade aktiv ein Frame gerendert wird, ist der Back Buffer und der Buffer der gerade den zuletzt gerenderten Frame vorhält ist der Last Rendered Frame. Eine neue Flip-Logik in der Pascal-Architektur kontrolliert diesen Prozess. Allerdings sollen wie gesagt auch ältere Architekturen dazu in der Lage sein.

SLI HD

In einem SLI-System erfolgt der Abgleich der fertig gerenderten Frames über die dazugehörigen SLI-Brücken. Theoretisch wäre die Übertragung auch per PCI-Express-Interface möglich, allerdings ist die Bandbreite dort limitiert und auch die Latenzen sind höher, als es die Anforderungen von SLI meist erlauben. NVIDIA verwendet daher einen oder zwei SLI-Anschlüsse auf seinen Karten. Die High-End-Modelle verfügen meist über zwei dieser Anschlüsse, während es in der Mittelklasse nur noch einer ist und im Low-End-Segment komplett darauf verzichtet wird. In Notebooks und auch im Low-End-Bereich ist manchmal ein SLI-Abgleich per PCI-Express möglich, allerdings sind die Bildrate und die Auflösung dann meist deutlich geringer, so dass dies kein größeres Problem ist.

Schematische Darstellung der SLI-HD-Brücken
Schematische Darstellung der SLI-HD-Brücken

Mit dem Aufkommen immer höher auflösender Displays sowie Bildwiederholungsraten von 144 Hz und mehr werden die Anforderungen an den Frame-Austausch via SLI-Brücken aber auch immer größer. Die Verbindung der SLI-Anschlüsse wird üblicherweise mit 400 MHz, also dem gleichen Takt wie die Ansteuerung der Display-Ausgänge betrieben. Im vergangenen Jahr aber haben Hersteller wie ASUS, EVGA und MSI spezielle SLI-Bridges vorgestellt, die nicht mehr mit 400 MHz arbeiten, sondern mit 540 MHz zu Werke gehen. Die damit einhergehende Erhöhung der Bandbreite kommt vor allem solchen Systemen zu gute, die einen Monitor mit mehr als 144 Hz oder der 4K-Aufösung betreiben. Allerdings sollen diese SLI-Brücken nicht so funktioniert haben, wie sich die Hersteller das vorgestellt haben – so NVIDIA.

Wer zukünftig ein Multi-Monitor-Setup mit besonders hoher Auflösung verwendet und dazu auch noch ein SLI-System bestehend aus zwei GeForce GTX 1080 oder GTX 1070 betreibt, wird in Zukunft per Treiber darüber in Kenntniss gesetzt, dass die verwendete SLI-Brücke nicht in der Lage ist, die notwendige Bandbreite zur Verfügung zu stellen. Dann muss eine der neue SLI-HD-Brücken erstanden werden, die NVIDIA selbst anbieten möchte. Die Brücken sind in verschiedenen Längen erhältlich. Je nachdem wie viele Slots Platz zwischen den Karten ist, muss eine passende Brücke erstanden werden. Wird ein anderes Mainboard mit einem größeren oder kleineren Abstand verbaut, muss eine neue Brücke gekauft werden. Flexible Brücken möchte NVIDIA nicht anbieten, da diese sich nicht in einer dafür notwendig hohen Qualität fertigen lassen. Über Preise macht NVIDIA noch keine Angaben.

NVIDIAs Empfehlungen sehen die alten Brücken für eine Auflösung bis zu 2.560 x 1.440 Pixel bei 60 Hz vor. Darüber hinaus, also ab 2.560 x 1.440 Pixel und ab einer Bildwiederholungsrate von 120 Hz sollen die neuen Brücken eingesetzt werden.

Empfehlungen seitens NVIDIA

Auflösung:

1.920 x 1.080 Pixel

2.560 x 1.440 Pixel
bei 60 Hz

2.560 x 1.440 Pixel
bei 120 HZ

4K 5K Surround
Standard-Brücke Ok Ok - - - -
LED-Brücke Ok Ok Ok Ok - -
Neue Brücke

Ok

Ok Ok Ok Ok Ok

Die obigen Bildergalerie zeigt ein SLI-Gespann aus zwei GeForce GTX 1080 sowie die SLI-Brücken in den zwei Größen. NVIDIA möchte die Sinnhaftigkeit der neuen SLI-Brücken auch mit einigen Messwerten untermauern. Dazu wurden in einem SLI-System Frametime-Messungen mittels FCAT vorgenommen:

Frametime-Messungen zweier GeForce GTX 1080 im SLI mit neuer und alter SLI-Brücke
Frametime-Messungen zweier GeForce GTX 1080 im SLI mit neuer und alter SLI-Brücke

Während die schwarze Linie die Schwankungen in den Frametimes mit einer alten SLI-Brücke zeigt, ist die blaue Linie deutlich flacher. Aus Benchmarks verwendete NVIDIA Mittelerde: Shadow of Mordor bei einer Auflösung von 11.520 x 2.160 Pixel.


Mit DirectX 12 wird sich einiges bei der Verwaltung und Unterstützung für Multi-GPU-Systeme ändern. So ist das Implicit SLI eigentlich auf zwei GPUs limitiert, NVIDIA kann aber einen Key zur Verfügung stellen, wenn mehr GPUs verwendet werden sollen (z.B. für das Competitive Benchmarking). Auf die Besonderheiten gehen wir aber nun noch einmal gesondert ein.

Mit DirectX 12 führt Microsoft drei Multi-Adapter-Modi ein. Der einfachste beschreibt dabei die bereits bekannte Funktionalität im AFR mit gleichen Grafikkarten wie bisher bei AMD und NVIDIA. Dieser Modus limitiert allerdings die Möglichkeiten der Entwickler, reduziert aber auch das Fehlerpotenzial bei tiefergehenden Zugriffen auf die Hardware. Weiterhin wird ein Großteil der Arbeit vom Treiber übernommen und nicht von DirectX 12.

Präsentation zu EMAPräsentation zu EMA

Präsentation zu EMA in DirectX 12

DirectX 12 ermöglicht einen tiefergehenden Zugriff auf die Hardware, auch in einem Multi-GPU-System. Dazu hat Microsoft auch den Explicit-Multi-Adapter-(EMA)-Modus eingeführt. Dazu müssen die Spieleentwickler explizit auf eine Multi-GPU-Unterstützung hinarbeiten. Jede einzelne GPU, die Speicherzugriffe und wie die GPUs untereinander kommunizieren – all dies muss zuvor festgelegt werden. Die Verantwortung der Funktionalität liegt vollständig in Händen der Spieleentwickler, was auch gewisse Gefahren birgt. Der Aufwand dieser expliziten Anpassungen darf nicht unterschätzt werden und Fehler müssen von den Entwicklern selbst und nicht durch Microsoft, AMD oder NVIDIA korrigiert werden.

Präsentation zu EMA in DirectX 12
Präsentation zu EMA in DirectX 12

Der EMA-Modus bietet aber auch noch zwei unterschiedliche Wege der Implementierung: Linked Mode und Unlinked Mode. Der Unlinked Mode stellt die Basis der Funktionalität von EMA dar. Der Linked Mode auf der anderen Seite bietet eine höhere Funktionalität, schränkt dann aber auch die kombinierbare Hardware deutlich stärker ein – ist wie ein festgelegtes SLI und CrossFire für DirectX 12 zu verstehen. Der Unlinked Mode hingegen kann dazu verwendet werden, unterschiedliche Grafikkarten, auch von unterschiedlichen Herstellern, miteinander zu kombinieren. Auch die Kombination zwischen diskreten und integrierten GPUs ist möglich.

Präsentation zu EMA in DirectX 12
Präsentation zu EMA in DirectX 12

Im Unlinked Mode wird jede Grafikkarte als eigenständige Hardware, mit eigenem Speicher, eigenem Commandprozessor, etc. angesehen. Das EMA in DirectX 12 ermöglicht aber nun den Datenaustausch zwischen diesen Instanzen und dies tiefergehend als nur der Austausch fertig gerenderter Frames. Teilweise gerenderte Frames oder Daten in den Buffern können nun ausgetauscht werden, was völlig neue Wege des Renderings auf mehreren GPUs ermöglicht. Was sich auf den ersten Blick aber wie eine einfache Möglichkeit des Datenaustausches darstellt und damit weiter als alles geht, was bisher möglich war, wird auf den zweiten Blick doch etwas komplizierter.

So werden die Daten über das PCI-Express-Interface ausgetauscht, was im Vergleich zur Kommunikation zwischen GPU und dem Grafikspeicher deutlicher langsamer ist und zudem über eine recht hohe Latenz verfügt. Die Entwickler müssen sich also überlegen, welche Daten sie wann austauschen wollen, damit das PCI-Express-Interface nicht zum Flaschenhals wird. Ebenfalls darauf geachtet werden muss, in welcher Form diese Daten ausgetauscht werden. Die verschiedenen Hersteller und GPU-Generationen und Varianten legen oftmals unterschiedliche Datenformate an, die dann nicht so einfach untereinander verwendet werden können. Hier wird dann die Arbeit ersichtlich, die bei der Implementierung von EMA im Unlinked Mode notwendig ist. Der Fokus des Unlinked Mode innerhalb des EMA liegt auf der bereits besagten Unterstützung von dGPUs und iGPUs, aber natürlich lassen sich hier auch unterschiedliche GPUs unterschiedlicher Hersteller kombinieren.

Präsentation zu EMA in DirectX 12
Präsentation zu EMA in DirectX 12

Der Linked Mode stellt wie gesagt in einfachster Form ein SLI oder CrossFire unter DirectX 12 dar, allerdings wird im Linked Mode die Hardware zu einer "Grafikkarte" zusammengefasst. Für das Spiel und den Nutzer sind nur noch eine GPU und ein Speicher sichtbar. Die Hardware muss dazu deutlich enger miteinander verknüpft werden, was deutlich mehr Möglichkeiten zulässt, allerdings auch für die Einschränkungen bei der Hardware sorgt.

Das größte Leistungspotenzial liegt durch die Freiheiten sicherlich im Linked Mode, die größte Flexibilität bietet der Unlinked Mode. Entwickler, die möglichst wenig Arbeit haben möchten und dennoch eine Basisfunktionalität für ein Multi-GPU-System bieten wollen, unterstützen einfach nur das EMA und überlassen die Arbeit den Treiberentwicklern von AMD und NVIDIA. Da aber nur die Entwickler selbst den besten Einblick in die eigene Arbeit haben, ist sicherlich ein Angebot aus Linked und Unlinked Mode zu bevorzugen.


Mit der Pascal-Architektur erweitert NVIDIA seine VRWORKS-API um eine Audio-Komponente. Bisher konzentriert sich viel auf die Optik bei den aktuellen VR-Anwendungen. Doch für ein möglichst immersives Erlebnis spielt die Tonwiedergabe eine ebenso wichtige Rolle. VRWorks Audio basiert dabei auf der IRAY-Technologie – anstatt virtueller Lichtstrahlen werden aber Audiowellen simuliert und damit möglichst realistisch berechnet und letztendlich auch ausgegeben. NVIDIA nennt diese Technologie Path Traced Audio. Dazu muss den Oberflächen der Grafiken bzw. den Texturen aber auch eine Audio-Komponenten hinzugefügt werden, die dann beschreibt, in wie weit die jeweiligen Oberfläche Schallwellen absorbiert, reflektiert und anderweitig damit umgeht.

VRWORKS Audio - Path Tracing Audio
VRWORKS Audio - Path Traced Audio

Ein möglichst realistischer 3D-Sound ist vor allem daher wichtig, da die Ortung der Geräuschquellen per Zeit- und Lautstärke-Unterschied ermöglicht wird. Hinzu kommen Reflektionen auf den Schultern, die vom Gehör bzw. dem Gehirn ausgewertet und damit die Höhe der Soundquelle bestimmt werden. All dies muss in Software simuliert werden, um nicht nur visuell, sondern auch in einer Audiowellt gefangen zu werden.

Eine aktuelle GPU von NVIDIA soll in der Lage sein, tausende von Audio-Pfaden berechnen zu können – änlich wie dies bei Raytracing der Fall ist. Dazu werden die Compute-Eigenschaften der GPU verwendet. Derzeit arbeitet NVIDIA mit zwölf Echoquellen für maximal 16.000 Soundpfade. NVIDIA bezeichnet VRWORKS Audio als die erste Echtzeitberechnung von 3D-Audio, während TrueAudio von AMD deutlich statischer arbeitet. Die PlayStation VR verwendet allerdings eine Zusatzhardware in Form eines kleinen Gehäuses, dass bei Sonys Lösung ebenfalls maßgeblich für die Berechnung des Audio in Echtzeit verantwortlich sein soll.

Für die Zukunft sieht NVIDIA aber noch andere Möglichkeiten der Berechnung von 3D-Audio. So könnte neben der Verschattungstechnologie Voxel Accelerated Ambient Occlusion (VXAO) und der Beleuchtungstechnologie Voxel Global Illumination (VXGI) auch eine Audio-Komponente die sogenannten Voxel zur Hilfe nehmen, um die Eigenschaften der Schallwellen durch den 3D-Raum zu beschreiben.

VRWORKS Audio spielt auch in einer VR-Demo namens VR Funhouse eine Rolle, die NVIDIA in Kürze auf Steam anbieten möchte.


Mit der Pascal-Architektur aktualisiert NVIDIA den GPU-Boost-Mechanismus. GPU-Boost 3.0 unterscheidet sich vom Vorgänger GPU Boost 2.0 vor allem durch die Tatsache, dass nun kein fixer Offset für den Takt mehr angegeben wird, sondern ein Takt-Offset pro Spannungs-Punkt. 30 dieser Punkte sind bei der GP104-GPU auf der GeForce GTX 1080 vorhanden. Der Takt passt sich damit besser dem theoretisch maximalen Takt an, weil sich die Taktkurve genauer dem Maximum annähern kann.

Vergleich zwischen GPU Boost 2.0 und 3.0Vergleich zwischen GPU Boost 2.0 und 3.0

Vergleich zwischen GPU Boost 2.0 und 3.0

Im Zuge der Änderung auf GPU Boost 3.0 musste natürlich auch die API geändert werden, die von den Softwareherstellern genutzt wird, um Software wie EVGA Precision oder den MSI Afterburner verwenden zu können. Darin ist auch ein OC-Scanner integriert. Dieser testet die Spannungs-Punkte automatisch der Reihe nach durch und ermitteln den maximalen Takt. Dabei kann dies auch sehr feinkörnig vorgenommen werden und dauert dann mehrere Stunden.

GPU Boost 3.0 ermöglicht drei Modi: Im Basic Mode kann der Takt weiterhin standardmäßig als Offset eingestellt werden. Für den Nutzer ändert sich dabei im Vergleich zu GPU Boost 2.0 wenig. Im Linear Mode werden die Anfangs- und Endpunkte der Kurve gesetzt. Zwischen diesen Werten wird nur interpoliert. Der 3. Modus ist der Manuell Mode. Bei diesem wird jeder einzelne Spannungs-Punkt manuell angepasst.

Die Details von GPU-Boost 3.0

Auch bei diesem Thema wollen wie noch etwas tiefer ins Detail gehen. Da das Thema eventuell aber für Text und Bild auch etwas komplex ist, bieten wir am Ende dieser Seite auch noch ein Video zum Thema.

EVGA Precision mit GPU Boost 3.0
EVGA Precision mit GPU Boost 3.0

Zunächst einmal sieht die Übersicht im EVGA-Precision-Tool mit GPU-Boost-3.0-Integration aus wie beim Vorgänger. Neben einer Übersicht der wichtigsten Sensordaten wie den aktuellen GPU- und Speichertakt wären hier noch die anliegende Spannung und die GPU-Temperatur zu nennen. Weiterhin lässt sich ein Offset einstellen, wie wir es von der Maxwell-Generation her kennen. Power- und Temperaturtarget werden Prozentual angegeben, wobei die Prozentangabe beim Temperaturtarget ein Anzeigefehler ist, denn hier sind Grad Celsius gemeint.

Das Powertarget lässt sich von 50 bis 120 % einstellen, was einer Boardpower von 90 bis 216 W gleichkommt. Das Temperaturtarget kann von 60 bis 91 °C gewählt werden. Dabei hat der Nutzer jeweils die Wahl, ob die Priorität auf dem Power- oder dem Temperaturtarget liegen soll. Beide Werte lassen sich auch aneinander koppeln – aber wie gesagt, das kennen wir in dieser Form bereits.

Der Offset für den GPU und Speichertakt kann im Bereich von -200 bis +1.200 MHz bzw. -502 bis +1.000 MHz eingestellt werden. An die Maximalwerte wird man ohne eine alternative Kühlung aber sicherlich nicht heranreichen können.

EVGA Precision mit GPU Boost 3.0
EVGA Precision mit GPU Boost 3.0

Durch Klick auf den rechten gelben Pfeil neben dem "Precision X OC"-Schriftzug gelangt man in die neue Übersicht zu GPU Boost 3.0. Hier werden in der Folge drei Modi angeboten. Im Basic-Mode verhält sich das Overclocking wie bei den früheren Karten auf Basis der Maxwell-Architektur. Demnach wird ein Offset zu jedem Spannungspunkt manuell festgelegt, was sich über alle 30 Punkte fortsetzt. Der Nutzer muss nur eine Frequenz für einen beliebigen Spannungspunkt auswählen. Die restliche Kurve wird von der Software erstellt.

EVGA Precision mit GPU Boost 3.0
EVGA Precision mit GPU Boost 3.0

Im Linear-Mode wählt der Nutzer einen Anfangs- und Endpunkt für einen die Abhängigkeit von Spannung und Frequenz. Die Software ermittelt daraus eine lineare Kurve, die von 0,862 bis 1,162 V reicht. Vielmehr gibt es an dieser Stelle nicht mehr zu beachten. Eine Informationsleiste unter dem Diagramm gibt dem Nutzer Auskunft darüber, für welchen Spannungsmesspunkt nun welcher Offset beim Takt gewählt wurde.

EVGA Precision mit GPU Boost 3.0
EVGA Precision mit GPU Boost 3.0

Der Manual-Mode ist das eigentliche Highlight von GPU Boost 3.0. Hier kann der Nutzer für jeden Spannungspunkt eine Frequenz festlegen. Dazu muss einfach nur eine entsprechende Frequenz für die jeweilige Spannung ausgewählt werden. An dieser Stelle sollte man sich natürlich sehr sicher sein, dass die gemachten Einstellungen auch funktionieren können. Ansonsten gilt es sich an diese heranzutasten.

EVGA Precision mit GPU Boost 3.0
EVGA Precision mit GPU Boost 3.0

Die API von GPU Boost 3.0 verfügt aber auch über eine Art Automatismus, die ein herantasten an den maximalen Takt bei der jeweiligen Spannung ermöglicht. Dazu muss nur ein Spannungspunkt ausgewählt werden und nach Klick auf "RUN" startet eine Furmark-Plugin, welches die gemachten Einstellungen auf Stabilität hin überprüft. Dazu wird nach Artefakten Ausschau gehalten und eventuell darauf hingewiesen. Für den Scan hat der Nutzer noch die Möglichkeit, die Dauer des Tests, die Clock-Offset-Start-Frequenz, die Clock-Offset-End-Frequenz und die Schrittgröße für die Erhöhung des Tests einzustellen. Je kleiner die Taktschritte sind, desto länger dauert der Test. Wer den Offset zu hoch wählt, kann direkt in einem Absturz landen und so sollte man sich auch hier langsam an die Einstellungen heranwagen.

NVIDIA plant die API und Software zusammen mit EVGA derart anzupassen, dass der Nutzer nur noch einen vollautomatischen Modus auswählen muss, in dem die Software die maximalen Einstellungen vollständig automatisch ermittelt. Diese Version der Software soll zu einem späteren Zeitpunkt erscheinen.

EVGA Precision mit GPU Boost 3.0
EVGA Precision mit GPU Boost 3.0

Die GPU-Spannung lässt sich auch manuell einstellen und reicht vom besagten Mindestwert von 0,862 V bis hin zu 1,162 V. Ab den oberen 90 % warnt die Software den Nutzer aber davor diese Einstellung zu wählen, da die GPU davon im Dauerbetrieb Schäden nehmen kann bzw. die Lebensdauer der Hardware darunter leidet. Letztendlich aber gibt NVIDIA dem Nutzer diesen Spielraum und daher kann dieser ihn auch nutzen.


Vielen mag es noch nicht bewusst zu sein, aber es hat sich eine lebendige Szene entwickelt, die nicht nur einfach Screenshots aus den verschiedensten Spiele erstellt, sondern die daraus eine Kunstform entwickelt haben: Game Photography. Dabei machen sich die Künstler die immer besser werdenden Grafik-Engines zu Nutze, optimieren diese weiter (belegen sie mit Filtern oder drehen manuell an Parametern wie dem Level of Details etc. pp.) und stellen ihre Screenshots dann ins Internet.

Allerdings sind solche Anpassungen meist ohne offiziellen Support und so kommt die Erstellung der Screenshots oftmals einem Hack nahe. Um alle erdenklichen Freiheiten zu haben, wäre ein Werkzeug wünschenswert, welches einen weitreichenden Support bietet und zudem weitere Optionen zugänglich macht. NVIDIA hat dazu ANSEL entwickelt. ANSEL ist dabei kein Akronym, sondern nach Ansel Adams benannt, der ein US-amerikanischer Fotograf war und sich auf Landschafts- und Naturfotografie spezialisiert hat. Eben darum geht es auch bei der Game Photography.

NVIDIA ANSELNVIDIA ANSEL

NVIDIA ANSEL

Mit ANSEL ist es möglich, zu einem beliebigen Zeitpunkt die Zeit einzufrieren. Danach kann der Blickwinkel beliebig angepasst werden. Dabei respektiert ANSEL die Grenzen des Spiels selbst – außerhalb dieser kann auch ANSEL nicht arbeiten. Damit sollen unter anderem Cheats verhindern werden, die durch ANSEL erkundet werden könnten. Zudem ermöglichst ANSEL das Anwenden verschiedener Post-Processing-Filter. ANSEL ermöglicht dabei eine Auflösung von bis zu 61.440 x 34.560 Pixel. Theoretisch wäre auch eine noch höhere Auflösung möglich, allerdings werden die Dateien bereits so mehrere Gigabyte groß. Auf einer GeForce-GTX-GPU werden diese Screenshots in nur wenigen Sekunden erstellt.

Neben der Auflösung spielt dabei auch eine Rolle, dass die Screenshots HDR-Informationen abgespeichert werden können. Dazu gehören ein größerer Kontrast, eine höhere Helligkeit und ein erweitertes Farbspektrum. NVIDIA bietet auch einige vorgefertigte Filter an. Dazu gehört eine Körnung für einen Filmeffekt oder ein Sepia-Filter. Wer möchte, kann auch 360°-Aufnahmen erstellen, die dann auf dem Smartphone oder der VR-Brille der Wahl betrachtet werden können.

NVIDIA ANSEL
NVIDIA ANSEL

ANSEL wird mit einer Reihe von NVIDIA-Grafikkarten möglich sein und nicht nur mit solchen, die eine Pascal-GPU einsetzen. NVIDIA hat dazu eine ausführliche Liste online gestellt. Eine Unterstützung von ANSEL muss auch von Seiten des Spiels bzw. der Engine gegeben sein. Bisher spricht NVIDIA von einer konkreten Zusammenarbeit mit The Division, The Witness, Law Breakers, The Witcher: Wild Hunt, Paragon, No Man's Sky und Unreal Tournament. Weitere Spiele sollen in Kürze folgen. Die Integration von ANSEL soll im Falle von The Witness weniger als 40 Zeilen an Code erfordert haben.


Nun haben wir die GeForce GTX 1080 in aller Ausführlichkeit hinsichtlich der Technik beschrieben – uns die Architektur genauer angeschaut und die neuen Technologien beleuchtet. Nun aber wird es sicherlich Zeit sich die GeForce GTX 1080 in der Praxis einmal anzuschauen.

GPU-Z-Screenshot der GeForce GTX 1080
GPU-Z-Screenshot der GeForce GTX 1080

Der GPU-Z-Screenshot bestätigt die technischen Daten der GeForce GTX 1080 noch einmal. So liegt der Basis-Takt bei den besagten 1.607 MHz und der Boost-Takt beträgt 1.734 MHz. Die 8 GB GDDR5X-Speicher kommen auf einen Takt von 2.500 MHz. GPU-Z ließt auch die restlichen Daten richtig aus. Dazu gehört die Speicherbandbreite mit 320,3 GB/s, die Anzahl der Shaderheiten (2.560), der Render Backends (64), Textureinheiten (160) und vieles weitere mehr.

Gegenüberstellung von Temperatur und Takt
Spiel Temperatur Takt
The Witcher 3: Wild Hunt 83 °C 1.809 MHz
Battlefield: Hardline 82 °C 1.809 MHz
Grand Theft Auto IV 83 °C 1.809 MHz
Far Cry 4 83 °C 1.825 MHz
Total War: Attila 83 °C 1.825 MHz
Metro: Last Light Redux 83 °C 1.809 MHz
Tomb Raider 83 °C 1.825 MHz
DiRT Rally 83 °C 1.825 MHz
Mittelerde: Shadow of Mordor 82 °C 1.809 MHz

Wie auf einer der vorherigen Seiten beschrieben, hat NVIDIA mit der Pascal-Architektur am GPU-Boost-Mechanismus geschraubt, um das Potential der Fertigung und der neuen Architektur bestmöglich ausschöpfen zu können. NVIDIA gibt einen Mindest-Boost-Takt vor, der immer dann erreicht werden soll, wenn die Voraussetzungen hinsichtlich der Temperatur und Spannung eingehalten werden können. Der von NVIDIA verbaute Kühler soll dies gewährleisten können.

In der Praxis stellt sich dies wie in obiger Tabelle dar: NVIDIA sieht für die GeForce GTX 1080 eine Zieltemperatur von 84 °C vor. GPU-Boost 3.0 hebt die Spannung und den GPU-Takt also so lange an, bis diese Temperatur erreicht wird. Meist besteht in der ersten Phase eine Limitierung durch die Spannung. Hat sich nach einigen Minuten die Temperatur auf der Zieltemperatur stabilisiert, wird diese zu einem limitierenden Faktor.

NVIDIA sieht einen Mindest-Boost-Takt von 1.733 MHz vor. Unser Sample der GeForce GTX 1080 erreichte einen Takt von 1.809 bis 1.825 MHz. Während sich die Karte noch aufwärmt, liegen teilweise sogar 1.875 MHz an. Die GPU-Temperatur liegt in den Dauertests zwischen 82 und 83 °C. Der Referenzkühler ist also durchaus in der Lage, einen Boost-Takt zu halten, der über den Vorgaben liegt. Wie hoch die Leistung dabei ist, werden wir später bei den Benchmarks sehen.

Das Verhalten von GPU Boost 3.0 während des Spielens
Das Verhalten von GPU Boost 3.0 während des Spielens

Der obige Screenshot zeigt das Verhalten der GeForce GTX 1080 wohl am besten. Besonders interessant ist dabei die unterste Leiste, in welcher die aktuelle Limitierung aufgeführt wird. Der blaue Balken zeigt an, dass hier eine Limitierung durch die Spannung vorhanden ist. Im Verlaufe des Aufwärmens beginnt die Karte dann den Boost-Takt zu reduzieren, da die Ziel-Temperatur erreicht wurde (grün). In der Folge findet ein wechselhaftes Verhalten zwischen einer Limitierung durch die Temperatur und der Spannung statt. An das Limit der Thermal Design Power von 180 W sind wir mit dem Standard-Takt zu keiner Zeit gestoßen.

NVIDIA GeForce GTX 1080 Founders Edition
Länge des PCBs 266 mm
Länge mit Kühler 266 mm
Slothöhe 2 Slots
zusätzliche Stromanschlüsse 1x 8-Pin
Lüfterdurchmesser 1x 65 mm
Kühlung 1x Vapor-Chamber
Display-Anschlüsse

1x HDMI 2.0b
3x Displayport 1.3/1.4
1x Dual-Link-DVI

Lüfter aus im Idle Nein

Noch einmal die wichtigsten technischen Daten der GeForce GTX 1080 Founders Edition, bevor wir uns den Bildern zur Karte widmen.


Seit der Präsentation der GeForce GTX 1080 geisterten einige Meldungen durch das Netz, die vermeintliche Unterschiede zwischen zwei Referenzversionen der GeForce GTX 1080 nannten. Diese zwei Versionen gibt es aber nicht. NVIDIA bietet eine GeForce GTX 1080 Founders Edition an, welche gleichzeitig die Referenzversion ist. Diese Founders Edition wird ab dem 27. Mai auch von einigen Boardpartnern verfügbar sein. Über die Zeit wird es dann von diesen Boardpartnern mehr und mehr Custom-Modelle geben. Das Angebot am ersten Tag wird also ausschließlich aus der GeForce GTX 1080 Founders Edition bestehen. Dabei ist es egal ob diese direkt bei NVIDIA oder bei den Boardpartnern erstanden wird.

Wichtig ist aber: Es wird nur eine Founders Edition der GeForce GTX 1080 geben. Diese hat eine unverbindliche Preisempfehlung von 699 US-Dollar, während die günstigen Custom-Modelle von den Boardpartnern ab 599 US-Dollar starten sollen. Bei der GeForce GTX 1070 wird sich dies ganz ähnlich verhalten. Auch hier wird es eine Founders Edition geben, die 449 US-Dollar kosten soll. Unverbindliche Preisempfehlungen zu Custom-Modellen der GeForce GTX 1070 liegt bei 379 US-Dollar.

Wer also am ersten Tag in den Genuss einer GeForce GTX 1080 kommen möchte, für den wird es nur eine Wahl geben und diese werden wir uns nun genauer anschauen.

NVIDIA GeForce GTX 1080NVIDIA GeForce GTX 1080

NVIDIA GeForce GTX 1080

Design und Verpackung sind seitens NVIDIA festgeschrieben. Die GeForce GTX 1080 wird in einem festen Pappkarton ausgeliefert. Der Deckel darauf kann in Längsrichtung hochgezogen werden und gibt dann den Blick auf die eigentliche Karte frei. Anders als viele Boardpartner bei den Custom-Modellen verzichtet NVIDIA auf die Nennung allzu vieler Merkmale auf der Verpackung.

NVIDIA GeForce GTX 1080NVIDIA GeForce GTX 1080

NVIDIA GeForce GTX 1080

Erst wer den Deckel öffnet wird mit einem "Inspired by Gamers. Built by NVIDIA" begrüßt. Auf Beigaben wie HDMI-, DisplayPort- oder DVI-Adapter verzichtet NVIDIA. Ebenso auf solche für den PCI-Express-Stromanschluss oder Kompakthandbuch oder eine Treiber-CD – so zumindest bei unserem Sample.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Und da ist das gute Stück auch schon. NVIDIA hält sich bei der GeForce GTX 1080 an die Designvorgaben der vorangegangenen Generationen, nimmt aber auch einige Änderungen im Detail vor. Es bleibt allerdings bei einer Schwarz/Silber-Optik mit Materialien wie Aluminium, Plexiglas und verchromten Elementen.

Die GeForce GTX 1080 hat eine Gesamtlänge von 266 mm und so lang ist auch das PCB selbst. Die Höhe des PCBs und der Karte liegt bei 100 mm (ohne PCI-Express-Steckplatz). Damit verbleibt NVIDIA bei den Abmessungen früherer Karte, ohne dabei besonders ausladend zu sein. Die Bauhöhe der Karte liegt bei zwei Slots und damit auch in einem üblichen Maß.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Die Rückseite des PCBs hat NVIDIA mit einer Backplate versehen. Diese deckt die komplette Fläche des PCBs ab. NVIDIA wählt keine plane Oberfläche für die Backplate, sondern versieht diese mit erhabenen Linien, die aber rein aus optischer Sicht einen Sinn machen. Auf der Rückseite sind auch ein NVIDIA-Logo und der "GeForce GTX 1080" Schriftzug zu sehen. Im eingebauten Zustand diese diese beiden Elemente korrekt ausgerichtet – ein Fehler, den leider noch immer viele Hersteller machen.

Wird die GeForce GTX 1080 in einem SLI betrieben, kann es passieren, dass die Karten dabei direkt aufeinandersitzen (weil die PCI-Express-Steckplätze direkt untereinander sitzen). Dann kann es dazu kommen, dass die zweite Karte bzw. deren Lüfter keine ausreichende Frischluft bekommt. Dies hatte NVIDIA auch schon bei der GeForce GTX Titan X mit Backplate bemerkt und ließ den Nutzer einen kleinen Teil der Backplate entfernen. Im Falle der GeForce GTX 1080 kann nun nicht mehr nur ein kleiner Teil der Backplate entfernt werden, sondern rund die Hälfte. Damit bekommt der Radiallüfter dann wieder ein paar Millimeter Platz, durch die er etwas mehr Frischluft ansaugen kann.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

In direkter Nähe zur Slotblende befindet sich auf dem Gehäuse der GeForce GTX 1080 auch der entsprechende Schriftzug. Diesen führt NVIDIA beim neuen Kühler erhaben und glänzend aus. An dieser Stelle wird auch gleich die neue Design-Sprache deutlich, die mehr Ecken und Kanten vorsieht. Rechts ist auch gleich eine kleine Öffnung zu sehen, die wir im vorderen und hinteren Bereich öfter finden und die wie Lufteinlässe bei Sportwagen aussehen.

Durch die Plexiglasscheibe auf der Front wird der Blick auf den eigentlichen Kühlkörper frei. Dieser ist mit feinen Kühlfinnen aus Aluminium bestückt, die in Längsrichtung ausgeführt sind. Der Lüfter drückt die warme Luft vom hinteren Bereich der Karte in Richtung Slotblende durch eben diese Kühlfinnen.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Der von NVIDIA verbaute Radiallüfter befindet sich im hinteren Bereich der Karte und besitzt einen Durchmesser von 65 mm. Der Lüfter saugt die Luft wie gesagt an dieser Stelle an und bläst sie in Richtung der Slotblende. Im Idle-Betrieb dreht der Lüfter mit etwa 1.100 rpm, ein Abschalten ist nicht vorgesehen. Unter Last werden dann auch schnell 2.200 rpm und mehr erreicht.

Die Umrandung des Lüfters sowie dessen Lüfternabe hat NVIDIA mit einer verchromten Blende versehen. Damit unterstreicht man auch das edle Design der Karte. Hinzu kommt das Gehäuse aus Aluminium sowie die gut platzierten Torx-Schrauben.


Und weiter geht es mit der detaillierten Betrachtung der GeForce GTX 1080:

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Ein Blick von der Seite auf die Karte gibt eigentlich keinerlei Besonderheiten preis. Die Bauhöhe mit zwei Slots ist bei High-End-Karten obligatorisch. Erst mit einem Full-Cover-Wasserkühler sind schmalere Designs überhaupt erst möglich.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Auf der Slotblende sieht zunächst einmal alles nach einer Standardbestückung aus. Allerdings hat NVIDIA die HDMI- und DisplayPort-Ausgänge hinsichtlich des Standards aktualisiert und selbst der alte DVI-Anschluss wurde bearbeitet und seiner analogen Datenverbindungen beraubt. Dem wird aber kaum jemand eine Träne nachweinen. Demzufolge sehen wir auf der GeForce GTX 1080 3x DisplayPort 1.3/1.4, 1x HDMI 2.0b und 1x Dual-Link-DVI.

Der restliche Bereich der Slotblende ist mit dreieckigen Öffnungen versehen, durch die NVIDIA die warme Luft aus dem Gehäuse befördert. Damit verbleibt die warme Luft nicht mehr im PC-Gehäuse und heizt dieses weiter aus. NVIDIA bleibt seinem Motto in dieser Hinsicht also treu.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Im hinteren Bereich der Karte sieht NVIDIA ebenfalls eine Öffnung vor. Ein kleiner Teil der Luft, die durch den Lüfter in den Kühler befördert wird, kann auch hier entweichen und verbleibt damit im Inneren des PC-Gehäuses. Autoaffine Nutzer werden auch hier sicherlich gewisse Parallelen des Design mit italienischen Sportwagen nicht abstreiten können.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Auf der oberen Kante der GeForce GTX 1080 verbaut NVIDIA einmal mehr den jeweiligen Schriftzug, der im laufenden Betrieb grün leuchtet. Davon profitieren natürlich besonders offene Systeme und solche mit einem Seitenfenster.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Die zusätzliche Stromversorgung der Karte erfolgt über einen PCI-Express-Stromanschluss mit 8 Pins. Dieser kann eine theoretische Leistung von 150 W an die Karte liefern. Hinzu kommen 75 W über den PCI-Express-Steckplatz, sodass die Karte insgesamt theoretisch 225 W aufnahmen kann. NVIDIA gibt eine Thermal Design Power von 180 W an, so dass hier noch etwas Luft von 45 W bleibt.

Allerdings kann ein zusätzlicher PCI-Express-Anschluss mit 8 Pins auch eine deutlich höhere elektrische Leistung liefern als die angegebenen 150 W. Dabei handelt es sich um eine Mindestvorgabe, damit die Netzteilhersteller diese auch entsprechend umsetzen und die Grafikkarten-Hersteller sich darauf verlassen können. Die Steckverbindungen und Kabel sind in der Lage eine deutlich höhere Leistung als 150 W zu übertragen. Für die GeForce GTX 1080 verbleiben wir aber bei der Angabe von 225 W für die Leistungsaufnahme der Verbindungen und 180 W für die Strom- und Spannungsversorgung.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

NVIDIA sieht bei der GeForce GTX 1080 weiterhin zwei SLI-Anschlüsse vor. Wer ein SLI-System mit einer Ausgabe auf mehreren Monitoren und/oder einer besonders hohen Bildwiederholungsrate verwendet, benötigt die neuen SLI-Brücken, die wir auf einer der vorherigen Seiten schon genauer angeschaut haben. SLI HD adressiert dabei besonders die fehlende Bandbreite bei der Übertragung der fertigen Frames von der sekundären an die primäre Karte. Mit zwei SLI-Anschlüssen können auch drei und vier GeForce GTX 1080 in einem SLI betrieben werden.


Bevor wir die GeForce GTX 1080 nun in ihre Einzelteile zerlegen, schauen wir uns den Vergleich des neuen Kühlerdesigns zum Maxwell-Vorgänger einmal an.

NVIDIA GeForce GTX 1080NVIDIA GeForce GTX 1080

NVIDIA GeForce GTX 1080

Bei der grundsätzlichen Designsprache hat sich wenig bis nichts getan. NVIDIA verwendet weiterhin eine Kombination aus silber (Aluminium), schwarz (entsprechend lackiertes Aluminium) und chromefarben (vor allem im Bereich der Lüfter mit zwei Blenden). Ansonsten nutzt NVIDIA nun einige Kanten, die für einen aggressiveren Look sorgen sollen. Sicherlich spielen Materialwahl und Verarbeitung eine wichtige Rolle, allerdings dürfte dies den meisten Käufer egal sind, da sie nur auf der Suche nach der bestmöglichen Leistung bei möglichst effizientem Kühler sind.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Das erste Bauteil, welches wir bei der GeForce GTX 1080 entfernt haben, ist der hintere Bereich der Backplate. Diese lässt sich entfernen, damit in einer SLI-Konfiguration die zweite Karte etwas mehr Luft bekommt. Eine Rolle spielt dies allerdings nur, wenn die beiden Karten in zwei direkt aufeinanderfolgenden PCI-Express-Steckplätzen sitzen. Acht kleine Kreuzschlitzschrauben halten die Hälfte der Backplate in Gewindeschrauben mit Kopf fest, die wiederum den Kühler auf dem PCB halten. Weitere dieser Schrauben halten auch die zweite Hälfte der Backplate und lassen sich ebenso einfach entfernen.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Eben diese Gewindeschrauben mit Sechskant-Kopf spielen auch in der Folge eine Rolle, denn üblich ist diese Art Werkzeug bei einer Grafikkarte bisher nicht. Größe M4.0 sollte also jeder im Haushalt haben, wenn er den Kühler der GeForce GTX 1080 tauschen möchte. Die Wahl der Schraubenköpfe ist aber nicht die schlechteste, denn die Wahrscheinlichkeit diese durch unsauberes Werkzeug zu zerstören, ist damit deutlich geringer.

NVIDIA GeForce GTX 1080NVIDIA GeForce GTX 1080

NVIDIA GeForce GTX 1080

Der Kühler als solches zeigt jede Menge Kontaktfläche zwischen den Komponenten auf dem PCB. Diese hat NVIDIA mit Wärmeleitpads belegt. Sehr schön ist dabei die Anordnung der Speicherchips zu sehen, aber auch einige spannungsversorgende Komponenten im hinteren Bereich der Karte werden damit abgedeckt. Die GPU sitzt auf einer vernickelten Bodenplatte aus Kupfer, welche wiederum ein Bestandteil einer Vapor-Chamber ist. Darin befindest sich eine Flüssigkeit, die verdampft und damit die Abwärme aufnimmt und im oberen Bereich der Kammer dann wieder kondensiert. Die hier entstandene Abwärme wird wiederum an dem großflächigen Kühlkörper abgegeben.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Die Vorderseite des PCBs zeigt ohne sich ohne Kühler in voller Pracht. Dabei hat NVIDIA hinsichtlich der Ausstattung eher zu einem "einfachen" PCB gegriffen, denn die Custom-Designs werden noch deutlich komplexer aussehen. Im linken Bereich des PCBs sind alle Komponenten zu finden, die sich um die Display-Ausgänge kümmern, während die Mitte der GPU und den Speicherchips vorbehalten ist. Das letzte Drittel ist für die Strom- und Spannungsversorgung verantwortlich.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Keinerlei Besonderheiten sind auf der Rückseite des PCBs zu finden. Hier platziert NVIDIA nur einige hundert Widerstände, die von der Bauhöhe auch noch locker unter die Backplate passen. Anhand der Struktur sind aber auch hier die Bauteile wie GPU und Speicher zu erkennen, denn das Layout der Widerstände verrät dies doch recht eindeutig.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Acht Speicherchips mit einer Kapazität von jeweils 1 GB sind auf der drei Seiten rund um die GPU platziert. Durch den relativ gleichmäßigen Abstand der Speicherchips zur GPU sind auch die Signallaufzeiten nahezu identisch, was bei der Ansteuerung der Speicherchips eine wichtige Rolle spielt. Den Herstellern ist es nicht mehr möglich die beliebig zu tun – das aber schon seit geraumer Zeit. Das Package der GPU ist ohne HBM relativ unspektakulär. Die grüne Trägerschicht beinhaltet auch noch einige Widerstände zur Versorgung der GPU selbst.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Die GPU auf der GeForce GTX 1080 trägt die Modellnummer GP104-400-A1. Es handelt sich also um das erste Stepping dieser Revision. Gefertigt wurde die GPU von TSMC in der 14. Woche 2016. Für die GeForce GTX 1070 werden wir sicherlich eine etwas andere Konfiguration sehen, die dann als GP104-300 oder so ähnlich bezeichnet wird.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Die GDDR5X-Speicherchips weisen wie gesagt eine Kapazität von jeweils 1 GB aus. Auf diesem Foto sind auch sehr schön die Leiterbahnen zwischen den Speicherchips und der GPU zu sehen. Die Speicherchips tragen die Bezeichnung MT58K256M32JA-100 und werkeln mit einer Spannung von 1,35 V. Das FBGA-Package der Chips besitzt 190 Pins und arbeitet im Bereich von 0 bis 95 °C.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Die Strom- und Spannungsversorgung von GPU und Speicher erfolgt bei der Referenzversion der GeForce GTX 1080 über sechs Phasen. Fünf Phasen dürften dabei der GPU zur Verfügung stehen, während die sechste dem Speicher vorbehalten bleibt. Für eine typische Boardpower von 180 W plus etwas Overclocking Spielraum sollte dies auch ausreichen. Die ersten Custom-Designs mit modifiziertem PCB werden hier sicherlich noch deutlich komplexer gestaltet sein. Das Referenzdesign des PCBs hat hier offenbar auch noch etwas Spielraum, denn auf dem PCB sind einige Pads zu sehen, die noch nicht mit Bauteilen bestückt sind.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Am hinteren Ende der Karte befinden sich noch weitere Komponenten, die für die Strom- und Spannungsversorgung eine Rolle spielen. Hier war früher auch immer der Controller für den Boost-Mechanismus zu finden, den NVIDIA aber offenbar integrieren konnte oder musste. Dennoch dürften einige der hier abgebildeten Komponenten weiterhin eine Rolle spielen, damit die Karte unter Zuhilfenahme des Boost-Mechanismus ihre maximale Leistung erreicht.

NVIDIA GeForce GTX 1080
NVIDIA GeForce GTX 1080

Noch einmal ein Blick auf die Rückseite des PCBs, die wie gesagt hauptsächlich mit kleineren SMD-Widerständen bestückt ist. Direkt hinter der GPU befinden sich aber auch noch einige Kondensatoren, die mit einem Wärmeleitpad belegt sind, welches wiederum auf der Backplate sitzt. Beim Zusammenbauen der Karte sollte unbedingt darauf geachtet werde, dass diese wieder an der richtigen Stelle sitzen.


Auch zum aktuellen Zeitpunkt gibt es noch nur recht wenigen Informationen zur GeForce GTX 1070, auch wenn diese gemeinsam mit der GeForce GTX 1080 vorgestellt wurde und auf der gleichen GPU basiert. Allerdings hat NVIDIA die Architektur in einigen Bereichen beschnitten und setzt auch auf den bisher verwendeten Speicherstandard GDDR5.

Die technischen Daten der GeForce GTX 1070 im Überblick
Modell NVIDIA GeForce GTX 1070 AMD Radeon R9 Fury NVIDIA GeForce GTX 970
Straßenpreis 449 US-Dollar ab 425 Euro ab 280 Euro
Homepage www.nvidia.de www.amd.de www.nvidia.de
Technische Daten
GPU GP104 Fiji XT GM204
Fertigung 16 nm 28 nm 28 nm
Transistoren 7,2 Milliarden 8,9 Milliarden 5,2 Milliarden
GPU-Takt (Base Clock) 1.506 MHz - 1.050 MHz
GPU-Takt (Boost Clock) 1.683 MHz 1.000 MHz 1.178 MHz
Speichertakt 2.000 MHz 500 MHz 1.750 MHz
Speichertyp GDDR5 HBM GDDR5
Speichergröße 8 GB 4 GB 4 GB
Speicherinterface 256 Bit 4.096 Bit 224 + 32 Bit
Speicherbandbreite 256 GB/s 512,0 GB/Sek. 224 GB/s
DirectX-Version 12 12 12
Shadereinheiten 1.920 3.584 1.664
Textureinheiten 120 224 104
ROPs 64 64 64
Typische Boardpower 150 W 275 W 145 W
SLI/CrossFire SLI CrossFire SLI
Die fünf Hauptmerkmale der GeForce GTX 1080
Die fünf Hauptmerkmale der GeForce GTX 1080

NVIDIA selbst nannte auf der Präsentation der GeForce GTX 1080 nur die Rechenleistung von 6,5 TFLOPS für die GeForce GTX 1070 sowie das Vorhandensein von 8 GB GDDR5-Grafikspeicher. Aus der Rechenleistung lässt sich bei einem Ausbau mit 2.048 Shadereinheiten ein Takt von 1.587 MHz errechnen. Allerdings ist nicht ganz klar, mit welcher Ausbaustufe der GP104-GPU NVIDIA die GeForce GTX 1070 versorgen wird.

Update:

Inzwischen sind einige technische Daten zur GeForce GTX 1070 bekannt geworden. So soll die GP104-200-GPU über 1.920 Shadereinheiten verfügen. Hinzu kommen 120 Textureinheiten und 64 ROPs – letzteres vorausgesetzt die Karte verfügt über das besagte Speicherinterface mit einer Breite von 256 Bit. Über den Basis-Takt gibt es noch keine Angaben, allerdings soll der Boost-Takt bei 1.600 MHz liegen. Damit kommt die Karte auch auf die Rechenleistung von 6,5 TFLOPS. Die 8 GB GDDR5-Speicher sollen mit einem Takt von 2.000 MHz arbeiten und somit liegt die Speicherbandbreite bei 256 GB/s. Die typische Boardpower soll bei 150 W liegen.

Neben der Rechenleistung und dem Preis derzeit einzig bekanntes Detail sind die Preise. So wird NVIDIA 449 US-Dollar für die Founders Edition und 379 US-Dollar für die Custom-Versionen der GeForce GTX 1070 verlangen. Ab dem 10. Juni soll die Karte verfügbar sein und daher rechnen wir auch bis dahin mit weiteren Details zur Karte.


Die Software in Form der Spiele und Benchmarks haben wir umgestellt, die Hardware ist aber weitestgehend identisch geblieben. Um möglichst praxisnah zu testen, befindet sich das Testsystem in einem geschlossenen Gehäuse. Zudem befindet sich zwar das Windows 10 auf der SSD, die Spiele mussten wir aber auf eine Festplatte auslagern. Den Tests tut dies aber keinen Abbruch.

Das Testsystem
Komponenten
Prozessor: Intel Core i7-3960X 3,3 @ 3,9 GHz
Kühlung: Corsair H110i GT All-in-One-Wasserkühlung
Mainboard: ASUS P9X97 Deluxe
Arbeitsspeicher: G.Skill
SSD: OCZ Arc 100 240 GB
Netzteil: Seasonic Platinum Series 1.000 Watt
Betriebssystem: Windows 10 64 Bit
Gehäuse: Fractal Design Define R5

Unsere Testsysteme werden ausgestattet von Intel, ASUS, Fractal Design, Corsair, G.Skill, OCZ und Seasonic. Ein Dank an alle Hersteller, die uns mit Hardware für das Testsystem versorgt haben!

Hardwareluxx-Testsystem für die Grafikkarten aus dem September 2015
Hardwareluxx-Testsystem für die Grafikkarten aus dem September 2015

Folgende Treiber kamen für die Tests zum Einsatz:

Folgende Spiele und Benchmarks haben wir verwendet:

Die genauen Details zum Testverfahren sind im Artikel "So testet Hardwareluxx die Grafikkarten" zu finden.


Die Messungen beginnen wir wie immer mit der Lautstärke. Danach schauen wir uns dann aber auch die Leistungsaufnahme und GPU-Temperaturen an.

Lautstaerke

Idle

in dB(A)
Weniger ist besser

Den ersten Lichtblick setzte die GeForce GTX 1080 bei der Messung der Idle-Lautstärke. Mit einem Wert von 39,2 dB(A) ist die erste Pascal-Karte sogar leiser als beispielweise eine GeForce GTX 980 und wird eigentlich nur von den Custom-Modellen der GeForce GTX 980 Ti sowie der Radeon R9 Nano geschlagen. Allerdings werden wohl alle Custom-Karten einen Vorteil haben, die ihren Lüfter im Idle-Betrieb abschalten. Selbst bei den High-End-Karten hat der Trend hin zu Abschaltung inzwischen durchgesetzt und wird sowohl den Testern als auch von den potentiellen Käufern dankbar angenommen. Wir sind gespannt wann AMD oder NVIDIA bei den Referenzmodellen bzw. einer Founders Edition diesen Schritt wagen.

Lautstaerke

Last

in dB(A)
Weniger ist besser

Das zweite Plus sammelt die GeForce GTX 1080 bei der Last-Lautstärke und damit macht NVIDIA das Versprechen wahr, dass man beim Kühler noch einmal Verbesserungen vorgenommen hat. 42,6 dB(A) sind ein mehr als ausgezeichneter Wert, wenn man sich die Konkurrenz in unserem Diagramm einmal genauer anschaut. Wir sind gespannt welches Optimierungspotenzial die Boardpartner hier mit ihren eigenen Kühllösungen noch eröffnen können.

Leistungsaufnahme (Gesamtsystem)

Idle

in Watt
Weniger ist besser

Keine großen Sprünge macht die GeForce GTX 1080 hinsichtlich des Idle-Stromverbrauchs. Allerdings verbrauche selbst High-End-Karten kaum noch Strom im Idle-Betrieb, da sie die GPU auf 140 MHz und den Speicher auf 100 MHz heruntertakten und dementsprechend auch die Spannungen senken. Nur noch ein komplettes Abschalten der Karte selbst könnte hier noch ein paar Watt einsparen.

Leistungsaufnahme (Gesamtsystem)

Last

in Watt
Weniger ist besser

Unter Last sehen wir dann die Auswirkungen der von NVIDIA propagierten effizienten Architektur sowie der Fertigung im 16-nm-FinFET-Verfahren. Das Gesamtsystem kommt auf eine Leistungsaufnahme von 376,9 W und damit liegt die GeForce GTX 1080 zwischen der Radeon R9 Nano / GeForce GTX 780 und der GeForce GTX Titan / GeForce GTX 780 Ti – mit Ausnahme also ausschließlich Karten der vorangegangenen Generationen. Der Vergleich zur GeForce GTX 980 Ti zeigt sogar eine Einsparung um etwa 50 W, wobei zur Einschätzung natürlich noch die entsprechenden Leistungswerte fehlen. Dazu kommen wir aber auf den nächsten Seiten.

Leistungsaufnahme (Gesamtsystem)

Idle mit 2 Monitore

in Watt
Weniger ist besser

Im Multi-Monitor-Setup gibt sich die GeForce GTX 1080 keinerlei Blöße und der Verbrauch steigt nur unwesentlich an. Hier haben wir schon größere Ausreißer gesehen, die sogar den vollen 3D-Takt weiterlaufen ließen. Die GeForce GTX 1080 taktet hier aber nach einiger Zeit herunter.

Temperatur

Idle

in Grad Celsius
Weniger ist besser

Noch einmal interessant wird es bei den Temperaturmessungen, wobei die Idle-Temperatur mit 43 °C vergleichsweise langweilig ausfällt. Der langsamdrehende Radiallüfter bietet eine mehr als ausreichende Leistung, um die GPU bei dieser Temperatur zu halten.

Temperatur

Last

in Grad Celsius
Weniger ist besser

Unter Last erreicht die GeForce GTX 1080 nach einiger Zeit ihre Zieltemperatur von 84 °C bzw. leicht darunter. Damit ist die Karte aber keine Ausnahme in der Reihe der Referenzkarten. Abhilfe schafft hier nur eine All-in-One-Wasserkühlung, wie es AMD bei der Radeon R9 Fury X vormacht. So lange die GeForce GTX 1080 aber die versprochene Leistung abliefert, spricht wenig dagegen, dass diese an der Zieltemperatur arbeitet.


Futuremark 3DMark

Der 3DMark von Futuremark gehört zu den beliebtesten synthetischen Benchmarks und bietet damit eine breite Basis für den Vergleich unterschiedlicher Systeme oder einzelner Komponenten. Dabei bieten die unterschiedlichen Presets die Möglichkeit das System auf unterschiedliche Herausforderungen zu testen - bis hin zu UltraHD/4K-Auflösungen. Ursprünglich als reiner DirectX-11-Benchmark entwickelt bietet der 3DMark inzwischen auch die Möglichkeit sich eine Leistungs-Domäne von DirektX 12 genauer anzuschauen, die sogenannten Draw Calls.

Futuremark 3DMark

Fire Strike

Futuremark-Punkte
Mehr ist besser

Futuremark 3DMark

Fire Strike Extreme

Futuremark-Punkte
Mehr ist besser

Futuremark 3DMark

Fire Strike Ultra

Futuremark-Punkte
Mehr ist besser

Futuremark 3DMark

API-Overhead DX12

Futuremark-Punkte
Mehr ist besser


Luxmark 3.0

Der Luxmark 3.0 ist ein Render-Benchmarks, der auf die OpenCL-Schnittstelle zurückgreift und damit eine breite Hardware-Basis adressiert. Der Luxmark wurde als Programm zur Leistungsbestimmung für den LuxRender entwickelt. Die LuxRender-2.x-API wird verwendet um eine Szene zu berechnen. Die Ausgabe erfolgt in Samples pro Sekunde.

Luxmark 3.0

Sala

Punkte
Mehr ist besser


GPUPI 2.2

Mit Hilfe von GPUPI wird Pi auf Basis unterschiedlicher Schnittstellen berechnet. Möglich ist die Berechnung auf Prozessoren sowie Grafikkarten und Programme wie SuperPi und ähnliche dienen schon lange als Möglichkeit die Rechenleistung von Hardware zu bestimmen. GPUPI verwendet, wie der Name schon sagt, die GPU der Grafikkarte zu Berechnung. Wir verwenden dazu die OpenCL-API und lassen Pi auf 500 Millionen oder 1 Milliarde Stellen berechnen. GPUPI beschreibt besonders gut die 64 Bit Integer Performance der Hardware.

GPUPI 2.0

500M

Sekunden
Weniger ist besser

GPUPI 2.0

1000M

Sekunden
Weniger ist besser


ComputeBenchCL

ComputeBenchCL ist ein OpenCL- und RenderScript-Benchmark, der in der Lage ist die Compute-Performance von CPUs und GPUs darzustellen. Hinzu kommt, dass er auch auf Tablets und Smartphones verfügbar ist und somit auch zwischen den Systemen einen Vergleich ermöglicht. Der ComputeBenchCL verwendet unterschiedliche Testszenarien, um ein möglichst breites Spektrum an Anwendungen abzudecken. Diese reichen von der Gesichtserkennung, über die Simulation von Flüssigkeiten und der Physik allgemein bis hin zur Arbeit in der Video-Komposition.

CompuBenchCL

Face Detection

Mpixel/s
Mehr ist besser

CompuBenchCL

Ocean Surface Simulation

Bilder pro Sekunde
Mehr ist besser

CompuBenchCL

TV-L1 Optical Flow

Mpixel/s
Mehr ist besser

CompuBenchCL

Particle Simulation 64K

Minteractions pro Sekunde
Mehr ist besser

CompuBenchCL

Video Composition

Bilder pro Sekunde
Mehr ist besser


ComputeMark

Der ComputeMark ist ein DirectX 11 Compute-Shader-Benchmark. Er konzentriert sich also auf die Compute-Performance der GPU und versucht diese über unterschiedliche Testszenarien abzubilden. Dazu gehört auch die Simulation von Gasen/Feuer, das Verhalten hunderter Gegenstände in der Schwerkraft sowie mathematische Berechnungen. 

ComputeMark

Gesamtpunktzahl

Punkte
Mehr ist besser

ComputeMark

Fluid 2D

Punkte
Mehr ist besser

ComputeMark

Fluid 3D

Punkte
Mehr ist besser

ComputeMark

Mandel Skalar

Punkte
Mehr ist besser

ComputeMark

Mandel Vektor

Punkte
Mehr ist besser

ComputeMark

Ray Tracing

Punkte
Mehr ist besser


The Witcher 3: Wild Hunt

The Witcher 3: Wild Hunt ist ein Rollenspiel und basiert auf der Hintergrundgeschichte und Spielwelt der Buchvorlage von Andrzej Sapkowski. Als Geralt von Riva gilt es sich durch eine mittelalterliche Fantasiewelt zu schlagen und sich dabei zahlreichen Aufgaben zu stellen. Als Spieleengine kommt die von CD Project Red eigens entwickelte Red Engine in der Version 3 zum Einsatz. Für ein Open-World-Rollenspiel setzt sie neue Maßstäbe bei der grafischen Darstellung.

The Witcher 3

1.920 x 1.080 1xAA 1xAF

104.1 XX


92 XX
71.1 XX


51 XX
67.9 XX


57 XX
64.5 XX


54 XX
62.9 XX


55 XX
61.5 XX


54 XX
53.6 XX


49 XX
51.8 XX


41 XX
48.1 XX


41 XX
47.1 XX


39 XX
42.9 XX


37 XX
31.8 XX


27 XX
Bilder pro Sekunde
Mehr ist besser

The Witcher 3

1.920 x 1.080 MSAA

101.7 XX


95 XX
71.1 XX


57 XX
66.8 XX


57 XX
63.1 XX


54 XX
60.8 XX


57 XX
59.9 XX


52 XX
52.3 XX


48 XX
50.8 XX


41 XX
46.8 XX


41 XX
44.6 XX


39 XX
41.1 XX


45 XX
31.1 XX


28 XX
Bilder pro Sekunde
Mehr ist besser

The Witcher 3

2.560 x 1.440 1xAA 1xAF

79.4 XX


75 XX
60.2 XX


50 XX
53.7 XX


45 XX
50.9 XX


43 XX
47.5 XX


42 XX
46.4 XX


42 XX
40.1 XX


35 XX
39.6 XX


37 XX
37.2 XX


32 XX
33.7 XX


29 XX
32.1 XX


26 XX
23.9 XX


22 XX
Bilder pro Sekunde
Mehr ist besser

The Witcher 3

2.560 x 1.440 MSAA

76.9 XX


72 XX
58.7 XX


48 XX
52.5 XX


44 XX
49.9 XX


43 XX
46.3 XX


40 XX
45.1 XX


42 XX
39.3 XX


35 XX
38.3 XX


34 XX
36.3 XX


32 XX
33.3 XX


28 XX
31.4 XX


25 XX
23.3 XX


21 XX
Bilder pro Sekunde
Mehr ist besser

The Witcher 3

3.840 x 2.160 1xAA 1xAF

45.0 XX


42 XX
42.0 XX


28 XX
34.4 XX


30 XX
32.5 XX


29 XX
29.1 XX


27 XX
26.5 XX


24 XX
24.9 XX


23 XX
22.7 XX


20 XX
22.4 XX


20 XX
20.6 XX


18 XX
19.2 XX


26 XX
Bilder pro Sekunde
Mehr ist besser

The Witcher 3

3.840 x 2.160 MSAA

43.2 XX


40 XX
33.2 XX


30 XX
31.4 XX


28 XX
28.8 XX


9 XX
28.0 XX


26 XX
25.8 XX


24 XX
24.1 XX


21 XX
22.2 XX


20 XX
21.7 XX


20 XX
20.2 XX


18 XX
18.2 XX


16 XX
Bilder pro Sekunde
Mehr ist besser


Battlefield: Hardline

Battlefield: Hardline ist ein klassischer Egoshooter aus der Battlefield-Serie, unterschiedet sich aber durch das urbane Setting und die Verlagerung der Spielrolle von Militär zu Polizei. Auch wenn Battlefield: Hardline bei den Battlefield-Fans weniger gut angekommen ist, so bietet es dank der verwendeten Frostbite-Engine eine ausgezeichnete Optik und damit eine Herausforderung in unserem Grafikkarten-Parcours.

Battlefield Hardline

1.920 x 1.080 1xAA 1xAF

232.2 XX


210 XX
197.9 XX


183 XX
192.8 XX


179 XX
182.2 XX


165 XX
177.2 XX


161 XX
138.3 XX


125 XX
136.9 XX


124 XX
131.1 XX


120 XX
124.8 XX


114 XX
123.1 XX


114 XX
120.1 XX


109 XX
108.7 XX


100 XX
103.8 XX


99 XX
103.2 XX


95 XX
101.4 XX


92 XX
79.2 XX


71 XX
Bilder pro Sekunde
Mehr ist besser

Battlefield Hardline

1.920 x 1.080 4xMSAA 16xAF

138.7 XX


126 XX
127.5 XX


117 XX
125.6 XX


110 XX
107.6 XX


97 XX
88.0 XX


77 XX
84.3 XX


74 XX
80.6 XX


72 XX
80.5 XX


70 XX
68.6 XX


60 XX
68.2 XX


61 XX
66.5 XX


59 XX
63.4 XX


57 XX
61.9 XX


57 XX
47.7 XX


43 XX
Bilder pro Sekunde
Mehr ist besser

Battlefield Hardline

2.560 x 1.440 1xAA 1xAF

147.6 XX


139 XX
137.8 XX


128 XX
134.8 XX


122 XX
116.2 XX


109 XX
113.6 XX


107 XX
97.7 XX


90 XX
92.1 XX


85 XX
86.3 XX


80 XX
86.1 XX


79 XX
77.4 XX


71 XX
74.0 XX


66 XX
68.8 XX


63 XX
68.4 XX


63 XX
63.3 XX


58 XX
51.5 XX


47 XX
Bilder pro Sekunde
Mehr ist besser

Battlefield Hardline

2.560 x 1.440 4xMSAA 16xAF

89.5 XX


79 XX
61.1 XX


53 XX
61.0 XX


27 XX
57.9 XX


51 XX
55.0 XX


49 XX
50.8 XX


46 XX
45.6 XX


42 XX
42.4 XX


39 XX
42.3 XX


38 XX
41.9 XX


39 XX
38.9 XX


35 XX
29.9 XX


27 XX
Bilder pro Sekunde
Mehr ist besser

Battlefield Hardline

3.840 x 2.160 1xAA 1xAF

74.8 XX


66 XX
65.9 XX


26 XX
52.5 XX


48 XX
49.6 XX


56 XX
45.1 XX


41 XX
43.2 XX


40 XX
38.8 XX


35 XX
38.2 XX


35 XX
34.6 XX


31 XX
34.6 XX


32 XX
31.6 XX


29 XX
Bilder pro Sekunde
Mehr ist besser

Battlefield Hardline

3.840 x 2.160 4xMSAA 16xAF

46.3 XX


39 XX
43.9 XX


16 XX
32.0 XX


28 XX
30.7 XX


27 XX
28.8 XX


25 XX
24.7 XX


22 XX
23.6 XX


21 XX
20.9 XX


18 XX
20.5 XX


18 XX
20.3 XX


18 XX
19.7 XX


18 XX
Bilder pro Sekunde
Mehr ist besser


Grand Theft Auto 5

Grand Theft Auto V oder kurz GTA 5 gehört sicherlich zu den Highlights in diesem Jahr. GTA V spielt in der fiktiven Stadt Los Santos, die Los Angeles nachempfunden ist. Zum zweiten Mal in der Spielreihe ist die Spielwelt von Anfang an vollständig erkundbar. Aufgrund der äußerst wirklichkeitsnahen Darstellung der fiktiven Welt gilt auch GTA 5 als eine Herausforderung für moderne Grafikkarten und ist daher auch Bestandteil dieser Testreihe. GTA 5 verwendet die RAGE-Engine.

Grand Theft Auto 5

1.920 x 1.080 1xAA 1xAF

Bilder pro Sekunde
Mehr ist besser

Grand Theft Auto 5

1.920 x 1.080 4xMSAA 16xAF

Bilder pro Sekunde
Mehr ist besser

Grand Theft Auto 5

2.560 x 1.440 1xAA 1xAF

Bilder pro Sekunde
Mehr ist besser

Grand Theft Auto 5

2.560 x 1.440 4xMSAA 16xAF

Bilder pro Sekunde
Mehr ist besser

Grand Theft Auto 5

3.840 x 2.160 1xAA 1xAF

Bilder pro Sekunde
Mehr ist besser

Grand Theft Auto 5

3.840 x 2.160 4xMSAA 16xAF

Bilder pro Sekunde
Mehr ist besser


Far Cry 4

Far Cry 4 ist ein Open-World-Ego-Shooter, der in den Bergen Nepals spielt, dort aber eine fiktive Geschichte nacherzählt. Verwendet wird eine modifizierte Version der Dunia Engine 2, der die Havok Physik-Engine zur Seite gestellt wird. Far Cry 4 weiß in optischer Hinsicht nicht nur durch den Realismus zu überzeugen, sondern bietet auch einige Elemente der Spielwelt, die einen fließenden Übergang zwischen einer fiktiven und echten Spielwelt ermöglichen. Die Positionierung als Open-World-Titel fördert natürlich die technischen Voraussetzungen an die Hard- und Software.

FarCry 4

1.920 x 1.080 1xAA 1xAF