> > > > NVIDIA erläutert weitere Unterschiede zwischen Maxwell und Kepler

NVIDIA erläutert weitere Unterschiede zwischen Maxwell und Kepler

Veröffentlicht am: von

nvidia 2013NVIDIA hat für seine "Maxwell"-Architektur die wichtigsten Pfeiler aus "Kepler" genommen und in einigen Bereichen überarbeitet. Bisher hat man sich aber hinsichtlich der Details größtenteils zurückgehalten und nur wenige Bereiche der neuen Architektur angekratzt. In einem Blogpost werden einige der wichtigsten Änderungen nun noch einmal genannt sowie weitere Details verraten.

Doch zuvor noch einmal ein kleiner Rückblick auf das, was wir schon wissen: Die mit "Kepler" eingeführten SMX-Cluster mit 192 Shadereinheiten (CUDA-Kerne) werden neu angeordnet. Grund hierfür ist die Tatsache, dass eine Control Logic für 192 Shadereinheiten sehr komplex konstruiert werden muss. Mit "Maxwell" wird der Streaming-Multiprozessor, in der Folge auch SMM (Maxwell Streaming Multiprozessor) genannt, in vier Blöcke zu jeweils 32 Shadereinheiten aufgeteilt. Insgesamt stehen als pro SMM 128 Shaderheinheiten zur Verfügung. Die weniger komplexe Control Logic sorgt auch dafür, dass einzelne Aufgaben effizienter an die Kerne verteilt werden können. Dies sorgt auch dafür, dass ein einzelner Shader bis zu 35 Prozent schneller arbeitet als sein Pendant auf "Kepler"-Basis. Dabei ist die Chipfläche von 118 auf 148 mm2 um 25 Prozent angewachsen. Gleichzeitig steigt die Anzahl der Transistoren von 1,3 auf 1,87 Milliarden, was einem Plus von 49 Prozent entspricht. Hier wird am deutlichsten, was die Umbauten im Chipdesign für Auswirkungen haben. Im Vollausbau lassen sich 66 Prozent mehr Shadereinheiten unterbringen.

Kepler gegen Maxwell
Kepler gegen Maxwell

Instruction Scheduling

Um auch den einzelnen Shader effektiver zu machen, hat NVIDIA einige Veränderungen beim "Workload Balancing", der "Clock-Gating Granularity", dem "Instruction Scheduling" und den "Instructions Issued per Clock Cycle" vorgenommen. Letztgenannter Punkt ist zwar im Vergleich zu "Fermi" und "Kepler" identisch geblieben, allerdings hat NVIDIA die Latenzen reduziert um die Effektivität zu steigern. Das bessere "Workload Balancing" gelingt unter anderem durch eine andere Aufteilung durch die "Warp Scheduler". Zwar sind auch weiterhin vier "Warp Scheduler" pro SMM vorhanden (wie auch bei den SMX-Clustern in der "Kepler"-Architektur), allerdings teilen sich die vier "Warp Scheduler" nicht mehr auf alle Shadereinheiten auf, sondern sind fest bestimmten Shadern zugeordnet (angepasst an die jeweilige Weite des "Warp Scheduler"). Weiterhin sind die "Warp Scheduler" in der Lage, sowohl mathematische Operationen an die Shader weiterzuleiten als auch Speicher-Operationen an die "Load/Store-Units" zu liefern. Allerdings ist es dem "Warp Scheduler" nur möglich, bei einer Art Operation alle Shadereinheiten auszulasten.

Bessere Auslastung bei bestehendem Code

Oben genannte Anpassungen sind ausschließlich auf eine bessere Anpassung der Hardware zurückzuführen. Schlechter Code kann aber weiterhin dazu führen, dass die Architektur ihre Vorteile nicht ausspielen kann. Geht man allerdings davon aus, dass sich bestehender Code nicht ändert, hat NVIDIA dennoch weitere Verbesserungen an den Registern vorgenommen. Keinerlei Unterschiede gibt es bei "Maxwell" und "Kepler" in den 64k 32-Bit Registern, den 64 Warps sowie den maximalen Registern pro Thread von 255. Verdoppelt hat sich die Anzahl der aktiven Thread-Blöcke pro Streaming Multiprozessor auf insgesamt 32. Dies dürfte sich vor allem dann positiv auswirken, wenn ein kleiner Thread 64 oder weniger Blöcke belegt.

Dedicated Shared Memory

Sowohl "Maxwell" als auch "Kepler" verfügen über 64 kB Shared Memory. Allerdings teilt sich dieser bei "Kepler" zu 48/16 kB zwischen dem L1-Cache und einem Cluster-weiten Shared Memory auf. Bei "Maxwell" sind L1-Cache und Texture-Cache in einer Einheit vereint, wobei das Limit pro Thread-Block in der Belegung weiterhin bei 48 kB liegt.

Gegenüberstellung von "Kepler"- und "Maxwell"-Architektur
GPU GK107 GM107
Maximale Anzahl an Shader-Prozessoren 384 640
Basis-Takt 1.058 MHz 1.020 MHz
Boost-Takt - 1.085 MHz
GFLOPs 812,5 1305,6
Compute-Schnittstelle 3.0 5.0
Shared Memory / SM 16 kB / 48 kB 64 kB
Register File Size 256 kB 256 kB
Active Blocks / SM 16 32
Textureinheiten 32 40
Texelfüllrate 33,9 GTexel/Sek. 40,8 GTexel/Sek.
Speichertakt 1.250 MHz 1.350 MHz
Speicherbandbreite 80 GB/Sek. 86,4 GB/Sek.
ROPs 16 16
Größe L2-Cache 256 KB 2.048 KB
Anzahl der Transistoren 1,3 Milliarden 1,87 Milliarden
Chip-Größe 118 mm2 148 mm2
Fertigung 28 nm 28 nm
TDP 64 Watt 60 Watt

Um diesen Shared Memory weiterhin effizient nutzen zu können verfügt "Maxwell" über einige sogenannte "Atomic Operationen" für 32-Bit-Integer-Operationen und "Native Shared Memory 32 Bit and 64 Bit compare-and-swap (CAS)"-Operationen. Diese mussten bei "Kepler" und "Fermi" noch über ein kompliziertes "Lock/Update/Unlock"-Prinzip abgearbeitet werden und belegten daher deutlich mehr Platz im Speicher.

Dynamic Parallelism

Befehle und Daten, die an die GPU geliefert werden, können verschachtelt aufgebaut sein (beispielsweise wenn Berechnungen von den Ergebnissen anderer Berechnungen abhängig sind) und somit die verschiedenen Threads der GPU über eine bestimmte Laufzeit blockieren. NVIDIA versuchte dem über Optimierungen in der CUDA-Schnittstelle entgegen zu wirken.

Dynamic Parallelism
Dynamic Parallelism

Mit dem "Dynamic Parallelism" kann die GPU selbst diese Verschachtelungen auflösen. Dies sorgt allerdings auch für etwas mehr Programmieraufwand, denn der Programmierer muss nun beachten, dass die GPU sich nicht selbst den Speicher volllaufen lässt. Sollte es dazu kommen, dass die selbst angelegten Threads den freien Speicher der GPU überschreiten, werden die Daten über die PCI-Express-Schnittstelle ausgelagert, was den gesamten Prozess wiederum verlangsamt. Die GPU bestimmt dabei selbst, in wie weit sie die Verschachtelung zulässt. NVIDIA will und kann keine Raster vorgeben, da man damit auch die Leistung in ungünstigen Szenarien einschränkt.

Ende März wird in San Jose die GTC 2014 stattfinden. Wir hoffen dann noch etwas mehr über "Maxwell" zu erfahren bzw. weitere Erläuterungen zu bekommen.

Social Links

Ihre Bewertung

Ø Bewertungen: 0

Tags

Kommentare (17)

#8
customavatars/avatar64442_1.gif
Registriert seit: 22.05.2007
Asgard und Berlin
Der Dahar-Meister!
Beiträge: 2078
Maxwell kann aber auch kein DirectX 11,1 schweigenden DirectX 11,2 sondern nur DirectX 11 oder?
#9
customavatars/avatar122409_1.gif
Registriert seit: 31.10.2009

Oberbootsmann
Beiträge: 1020
Doch per Software emuliert.

Gesendet mit der LG-D802
#10
customavatars/avatar77654_1.gif
Registriert seit: 19.11.2007

Moderator
Beiträge: 1783
ich werde mal den vollausbau abwarten. vorher dürfte meine 780ti locker reichen.

aber ja, 30% mehrleistung klingt nicht schlecht. nur blöd dass diese unter anderem mit 25% grösserem chip erreicht werden...
ist also doch nicht sooo dolle.
#11
customavatars/avatar44491_1.gif
Registriert seit: 08.08.2006
SN
Moderator
Beiträge: 33039
warum?
Irgendwo muss die Effizienz doch her kommen...
Und die erreicht man scheinbar damit, dass man den Chip abermals breiter baut... Gepaart mit viel viel Cache.

Wobei ich dem ganzen noch nicht sooo 100% traue. Die 750TI packt die 650TI scheinbar spielend. Wird aber von der 650TI Boost geschlagen...
Letztere ist auf dem Papier aber nur poplige 5-10% schneller (Takt) -> kommt aber mit 192Bit SI auf deutlich höhere Speicherbandbreiten. Was im Endeffekt teils 40%+ mehr Leistung als die 650TI bedeutet.

Die 650TI zu schlagen, die scheinbar ganz klar massiv an der Speicherbandbreite krankt ist also nicht unbedingt sooo unerwartet. Zumal in vielen Tests die 650TI mit 1GB VRAM genommen wird. -> wärend die 650TI Boost, sowie auch die 750er Modelle mit 2GB daherkommen. -> könnte ebenso im ein oder anderen Titel ein Plus bedeuten.
Denn es macht den Eindruck, als kann hier Maxwell auch (bzw. vor allem) durch deutlich besseres Cachemanagement stark punkten. CB schreibt sogar explizit, das man mit den riesigen Caches auch unnötige Speicherzugriffe unterbinden will und kann.


Ob man das ganze 1:1 auf den Maxwell TopDog hochrechen kann? -> Stand heute würde ich das zumindest ein Stück weit bezweifeln.
GK110 in Form der 780TI oder Titan BE hat schon deutlich mehr Cache als die kleine GK104/106 GPU. Und hängt auch nicht so massiv an der Bandbreite... Im Grunde sogar recht wenig im Schnitt über die Games gesehen. Auch mit starkem OC reißt die Skalierung fast gar nicht ab... Und das, obwohl beim VRAM so viel nicht zu holen ist. Vielleicht 15%, wenn es gut kommt. Die GPUs selbst packen aber teils 40%+... Heist also auch, dort allein ist nicht soo massiv viel zu holen, wie bei den kleineren GPUs. Es müssen also mehr ALUs drauf. Was den Chip "fett" macht. Da stehen jetzt schon 560mm² auf der Uhr. Mal eben 25% mehr würde da in 700mm²+ enden. -> mit 28nm? Never...
#12
Registriert seit: 22.02.2013

Hauptgefreiter
Beiträge: 204
Zitat fdsonne;21946558
warum?
Irgendwo muss die Effizienz doch her kommen...
Und die erreicht man scheinbar damit, dass man den Chip abermals breiter baut... Gepaart mit viel viel Cache.

Wobei ich dem ganzen noch nicht sooo 100% traue. Die 750TI packt die 650TI scheinbar spielend. Wird aber von der 650TI Boost geschlagen...
Letztere ist auf dem Papier aber nur poplige 5-10% schneller (Takt) -> kommt aber mit 192Bit SI auf deutlich höhere Speicherbandbreiten. Was im Endeffekt teils 40%+ mehr Leistung als die 650TI bedeutet.

Die 650TI zu schlagen, die scheinbar ganz klar massiv an der Speicherbandbreite krankt ist also nicht unbedingt sooo unerwartet. Zumal in vielen Tests die 650TI mit 1GB VRAM genommen wird. -> wärend die 650TI Boost, sowie auch die 750er Modelle mit 2GB daherkommen. -> könnte ebenso im ein oder anderen Titel ein Plus bedeuten.
Denn es macht den Eindruck, als kann hier Maxwell auch (bzw. vor allem) durch deutlich besseres Cachemanagement stark punkten. CB schreibt sogar explizit, das man mit den riesigen Caches auch unnötige Speicherzugriffe unterbinden will und kann.


Ob man das ganze 1:1 auf den Maxwell TopDog hochrechen kann? -> Stand heute würde ich das zumindest ein Stück weit bezweifeln.
GK110 in Form der 780TI oder Titan BE hat schon deutlich mehr Cache als die kleine GK104/106 GPU. Und hängt auch nicht so massiv an der Bandbreite... Im Grunde sogar recht wenig im Schnitt über die Games gesehen. Auch mit starkem OC reißt die Skalierung fast gar nicht ab... Und das, obwohl beim VRAM so viel nicht zu holen ist. Vielleicht 15%, wenn es gut kommt. Die GPUs selbst packen aber teils 40%+... Heist also auch, dort allein ist nicht soo massiv viel zu holen, wie bei den kleineren GPUs. Es müssen also mehr ALUs drauf. Was den Chip "fett" macht. Da stehen jetzt schon 560mm² auf der Uhr. Mal eben 25% mehr würde da in 700mm²+ enden. -> mit 28nm? Never...


Die größeren Maxwell Chips kommen auf 20nm. Das lässt wieder mehr Transistoren bei gleicher Fläche zu.
#13
customavatars/avatar84710_1.gif
Registriert seit: 10.02.2008

Admiral
Beiträge: 15048
Zitat Richthofen;21946696
Die größeren Maxwell Chips kommen auf 20nm. Das lässt wieder mehr Transistoren bei gleicher Fläche zu.


Irgendwas muss man 2015 ja auch im Portfolio haben... :asthanos: :shot:
#14
customavatars/avatar77654_1.gif
Registriert seit: 19.11.2007

Moderator
Beiträge: 1783
Zitat fdsonne;21946558
warum?
Irgendwo muss die Effizienz doch her kommen...
Und die erreicht man scheinbar damit, dass man den Chip abermals breiter baut... Gepaart mit viel viel Cache.
...


hab mich auf den post von hovac bezogen...
wenn er schreibt, dass 30% mehrleistung ein brutaler fortschritt sei, ist es meiner meinung nach nicht verwunderlich wenn ja auch mehr chip da ist.

wie wenn ich meinem auto anstatt einem 2l ein 2.5l motor einbaue und dann sage dass es eine riesen technikleistung sei. dabei hab ich schlicht nur mehr hardware...
#15
customavatars/avatar44491_1.gif
Registriert seit: 08.08.2006
SN
Moderator
Beiträge: 33039
Zitat huberei;21947365
hab mich auf den post von hovac bezogen...
wenn er schreibt, dass 30% mehrleistung ein brutaler fortschritt sei, ist es meiner meinung nach nicht verwunderlich wenn ja auch mehr chip da ist.

wie wenn ich meinem auto anstatt einem 2l ein 2.5l motor einbaue und dann sage dass es eine riesen technikleistung sei. dabei hab ich schlicht nur mehr hardware...


Je nachdem, gegen was man vergleicht. Im Artikel wird gegen GK107 verglichen... Vergleicht man stattdessen gegen GK106, steht GM107 gar nicht mal so schlecht da.
Denn er ist kleiner, benötigt nur ein 128Bit SI und ist trotzdem nicht nennenswert langsamer. Und das bei deutlich geringerem Verbrauch ;) (750TI vs. 650TI Boost)
30% bei quasi gleicher Fertigung sind definitiv nicht wenig...
#16
customavatars/avatar63564_1.gif
Registriert seit: 09.05.2007

Fregattenkapitän
Beiträge: 2983
Zitat Lord Wotan;21945876
Maxwell kann aber auch kein DirectX 11,1 schweigenden DirectX 11,2 sondern nur DirectX 11 oder?

Zitat ONE_FOR_ALL;21945930
Doch per Software emuliert.

Pff. :lol:
#17
customavatars/avatar77654_1.gif
Registriert seit: 19.11.2007

Moderator
Beiträge: 1783
@fdsonne
klar der energie verbrauch ist toll. aber denke man sollte den 107er schob mit dem 107er vergleichen...
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

Von ASUS bis ZOTAC: Vier Modelle der GeForce GTX 1050 Ti im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/NVIDIA-GTX1050TI-ROUNDUP/NVIDIA_GTX1050TI_4ER_ROUND_UP-TEASER

Seit Ende Oktober gibt es die aktuelle Pascal-Generation von NVIDIA auch für unter 200 Euro. Tatsächlich bekommt man hier nicht nur viel Leistung fürs Geld, sondern obendrein einen sehr effizienten 3D-Beschleuniger, wie unser Launch-Test zur NVIDIA GeForce GTX 1050 Ti pünktlich zum Marktstart... [mehr]

AMD Radeon RX Vega 56 und Vega 64 im Undervolting-Test

Logo von IMAGES/STORIES/2017/AMD_RADEON_RX_VEGA_64_56_TEST

Unser Test der Radeon RX Vega 64 und Vega 56 hat gezeigt: AMD liefert eine Leistung auf dem Niveau der GeForce GTX 1080 und GeForce GTX 1070, erkauft wird dies aber mit einer deutlich zu hohen Leistungsaufnahme. Derzeit hat AMD bei den Vega-Karten noch viele Baustellen, die vor allem den Treiber... [mehr]

Zwei Modelle der NVIDIA GeForce GTX 1050 Ti im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/EVGA-GTX-1050TI-SC/EVGA_ZOTAC_GTX1050TI_AUFMACHER

Am vergangenen Dienstag rundete NVIDIA sein Pascal-Aufgebot nach unten hin ab und kündigte mit der GeForce GTX 1050 Ti und GeForce GTX 1050 die bislang kleinsten Ableger unter den Pascal-Grafikkarten an. Ab heute werden die neuen Einsteiger-Karten zu Preisen ab 125 bzw. 155 Euro im Handel... [mehr]

MSI GeForce GTX 1060 Gaming X im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/MSI-GTX-1060-GAMING-X/MSI_GEFROCE_GTX_1060_GAMING_X-TEASER

Ob von ASUS, EVGA, Inno3D oder Gigabyte – von nahezu allen großen Grafikkarten-Herstellern konnten wir bereits ein oder mehrere Modelle auf Basis der GeForce GTX 1060 testen. Gefehlt in unserer Liste hat allerdings noch MSI. Das holen wir nun mit einem Test zur MSI GeForce GTX 1060 Gaming X... [mehr]

AMD Radeon RX Vega 64 und RX Vega 56 im Test

Logo von IMAGES/STORIES/2017/AMD_RADEON_RX_VEGA_64_56_TEST

Nun endlich ist es soweit: Was vor gut einem Jahr mit einer ersten Ankündigung begann und ab Ende 2016 konkret wurde, findet nun sein finales Ende in den ersten Tests der Radeon RX Vega 64 und RX Vega 56. AMD ist als einziger Konkurrent zu NVIDIA geradezu zum Erfolg verdonnert. Die Ansprüche an... [mehr]

Ab Werk die schnellste: ZOTAC GeForce GTX 1080 Ti AMP! Extreme Edition im Test

Logo von IMAGES/STORIES/LOGOS-2017/ZOTAC-GTX1080TI-EXTREME-LOGO

Einige Modelle der GeForce GTX 1080 Ti konnten wir uns ja bereits anschauen und damit lässt sich auch ein erster Eindruck zusammenfassen: Die GeForce GTX 1080 Ti ist in der Founders Edition eine gute Karte, die Custom-Modelle beschleunigen sie noch etwas und bieten zudem eine bessere und leisere... [mehr]