> > > > Remedy Northlight-Engine: RTX-Effekte kosten viel Renderzeit

Remedy Northlight-Engine: RTX-Effekte kosten viel Renderzeit

Veröffentlicht am: von

ray-tracingBisher kennen wir nur viele Videos, eine Tech-Demo (Star Wars: Reflections) und viele Ankündigungen zu Spielen mit RTX- bzw. DXR-Unterstützung. Im Falle von Battlefield V konnten wir uns auf der GamesCom die RTX-Alpha bereits anschauen. Darüber hinaus halten sich die Erfahrungen mit den Ray-Tracing-Effekten aber in Grenzen.

So fehlt es bisher auch an Erkenntnissen, welche Leistung die Aktivierung von RTX kosten wird. Dies wird sicherlich zunächst einmal stark davon abhängig sein, wie viele Effekte umgesetzt wurden. Sprechen wir von Reflexionen, Refraktionen, Schatten Ambient Occlusion und/oder Global Illumination? Die Komplexität der Effekte wird hier also eine wichtige Rolle spielen. Eine weitere Komponente wird die Auflösung sein. Mit Auflösung ist aber nicht nur die Darstellungsauflösung gemeint (zum Beispiel 1.920 x 1.080 oder 3.840 x 2.160 Pixel), sondern auch die Tiefe des Ray Tracings für die einzelnen Effekte. Ein Ray Tracing kann von einem Sample pro Pixel bis zu mehreren hundert Samples pro Pixel reichen und somit ist auch schnell erkennbar, dass die Komplexität hier rasant ansteigt.

Auf der GPU Technology Conference in München haben die Entwickler von Remedy anhand der eigenen Northlight-Engine gezeigt, welchen Einfluss das Ray Tracing haben kann. Präsentiert wurde die bekannte Ray-Tracing-Demo auf einer Geforce RTX 2080 Ti.

Die Kollegen von Golem haben dem Vortrag von Juha Sjoholm, Senior Devtech Engineer bei NVIDIA, in München gelauscht und daraus folgende Informationen gewonnen.

Die bekannte Tech-Demo wurde in 1.920 x 1.080 Pixel auf einer GeForce RTX 2080 Ti ausgeführt und verwendete Schatten, Reflexionen und eine sogenannte Indirect Diffuse Illumination. Anstatt tricksen zu müssen sind die Beleuchtungseffekte laut Aussage von Golem tatsächlich deutlich realistischer und detaillierter. Der Aufwand dazu soll aber enorm sein.

Für zwei Samples bzw. Strahlen pro Pixel für die Schatteneffekte benötigte die GeForce RTX 2080 Ti inklusive Entrauschen 2,3 ms pro Frame und die Reflektionen kommen auf 4,4 ms. Kommt noch eine Global Illumination wieder mit Denoising hinzu, dauert das Rendering eines Frames noch einmal 2,5 ms länger. Insgesamt sprechen wir also von einer Rechenzeit von 9,2 ms für die erwähnten Berechnungen. Gehen wir also von 33 ms pro Frame für 30 FPS aus, brechen diese auf 23 FPS ein. Allerdings wäre hier die mögliche asynchrone Berechnung nicht mit inbegriffen. Shader und RT Cores können aber mit gewissen Abhängigkeiten zueinander in gewisser Weise unabhängig voneinander arbeiten.

Dies bedeutet aber nicht, dass die Leistung immer um diesen Faktor verringert wird. Einerseits ist die Dauer der einzelnen Schritte bei gleicher Komplexität stabil, ausgehend von mehr FPS für die restlichen Berechnungen, fallen die 9,2 ms aber weniger stark ins Gewicht bzw. werden mehr oder weniger ausgeglichen. Zum Anderen hat sich Remedy nicht zum möglichen Optimierungspotenzial geäußert. Wir sind daher gespannt, wie sich die Leistung auf den neuen Karten mit dem RTX-Patch für Shadow of the Tomb Raider sowie in Battlefield V auswirken wird.

Social Links

Kommentare (11)

#2
customavatars/avatar3377_1.gif
Registriert seit: 15.11.2002
www.twitter.com/aschilling
[printed]-Redakteur
Tweety
Beiträge: 30943
Zitat fdsonne;26576870
Woher stammt denn die Zahlenspielerei?


Die Zahlen stammen aus dem Vortrag des NVIDIA-Mitarbeiters auf der GTC18 in München.

Theoretisch können die RT Cores gleichzeitig neben den Shadern arbeiten ja, in der Praxis wird man aber immer zeitliche Abhängigkeiten sehen, in denen die Shader auf die RT Cores und umgekehrt warten. Das Ergebnis der Berechnungen der RT Cores muss ja auch wieder in die Shader Pipeline einfließen, da kann man nicht einfach asynchron zueinander weiterrechnen.

Wie hoch der "Overhead" durch das Ray Tracing nun im Mittel sein wird, ist die spannende Frage. Das alles gut auszubalancieren ist also der entscheidende Punkte und Kern der Optimierung durch die Entwickler.
#3
customavatars/avatar44491_1.gif
Registriert seit: 08.08.2006
SN
Moderator
Beiträge: 34159
Und NV hat gesagt, dass die 9ms auf die Berechnungszeit ohne RT drauf kommen?
Es ist ja Golem verlinkt - da steht auch nur irgendwas von einer Annahme auf 30 FPS mit den 33ms. Deswegen die Frage -> weil irgendwie erschließt sich mir daraus nicht wie die Zusammensetzung der Zeiten zueinander aufgehen soll. Dass da 9ms irgendwo in Summe für das RT Zeugs drauf geht - OK, kann sein und ist nice to know. Aber die interessante Frage ist eher, wie hoch ist der relative Anteil der Mehrarbeit im Vergleich zu non RT Stuff.

Und dafür hast du ja auch so Themen wie bspw. die pre rendered frames. Die GPU wird schon anfangen Teile der nächsten Frames anzufassen. Ich kann mir kaum Vorstellen, dass das schlicht und ausschließlich sequenziell passieren kann/wird. Weil dann bringt es überhaupt nichts die RT/Tensor Cores vom Rest zu entkoppeln, da eh nur links oder rechts genutzt werden kann. Auch heist das ja in Summe nicht, dass das Frame fix und fertig sein muss, bevor der RT Part ansetzt. -> es würde ja reichen an der entsprechenden Stelle im Prozess einfach die RT/Tensor Cores einzuklinken während dann im Hintergrund die Register gespeichert werden und die ALUs einfach schon das nächste Frame anfassen bis der RT Part soweit ist, dass mit dem anderen Frame fortgesetzt oder gar fertiggestellt werden kann. Und so kann das dann durchrotieren.

Der ganze Prozess vom ersten Punkt bis zum fertigen Frame im Framebuffer besteht ja aus ganz paar verschiedenen Prozessstufen. Die RT/Tensor Cores sind da wohl einfach nur spezielle Units die zur angemessenen Zeit eben entsprechend analog der FP oder INT Einheiten angefasst werden. Die Codeausführung so aufzubereiten, dass möglichst wenig Leerlauf entsteht ist Aufgabe der Scheduler.
#4
customavatars/avatar3377_1.gif
Registriert seit: 15.11.2002
www.twitter.com/aschilling
[printed]-Redakteur
Tweety
Beiträge: 30943
Genau, die 9,2 ms sind einfach die aktive Renderzeit für Ray-Tracing-Effekte. In wie weit es Übeschneidungen mit den Shadern gibt, sagte man nicht. Worst Case wären also + 9,2 ms, im Best Case sind es deutlich weniger. Ich habe dazu noch zwei Folien von NVIDIA mit in der News eingebaut, die das vielleicht etwas verdeutlicht.
#5
Registriert seit: 23.09.2009

Korvettenkapitän
Beiträge: 2416
Zitat fdsonne;26576870
Woher stammt denn die Zahlenspielerei?
Normalerweise sollte das ganze RT Zeugs während der Frameberechnung nebenbei stattfinden (können), einfach weil die RT Cores und Tensor Cores auch gleichsam neben den ALUs funktionieren und nicht nur entweder/oder.
Es sollte also so sein, dass nach Abschluss des Frames einfach dann die RT Berechnung drauf kommt -> aber gleichsam die GPU schon das nächste Frame berechnet. Da im Beispiel, so scheint es mir, die RT-Rechendauer geringer ist als die Raster-Rechendauer, so dürfte die GPU am Ende ALU-limitiert sein ohne dass es wirklich langsamer wird. Nachteil dieser Thematik wäre maximal der größere Delay zwischen Input und Frameausgabe, weil ja die RT-Berechnungen obendrauf für weitere Verzögerung sorgen.


Was aber voraussetzt, dass die RT-Cores die komplette RT Berechnungen erledigen.
Es gibt da ein recht interessantes Paper (klick) in dem es um die theoretische Beschleunigung von RT bei einer Hawaii GPU geht. Wenn man sich das ganze durchliest, gibt es ziemlich viele parallelen zu Turing. So werden z.B. spezielle RT-Cores vorgeschlagen mit geringer Genauigkeit, die nur eine grobe hit/miss Abschätzung machen und das eigentliche RT wird auf den Shadern berechnet.

Auch interessant, diese theoretischen RT-Cores würden die ALU-Fläche nur um ca. 4-8% aufblähen.
#6
customavatars/avatar44491_1.gif
Registriert seit: 08.08.2006
SN
Moderator
Beiträge: 34159
Ah OK, genau da wollte ich wissen :bigok:
Der Text laß sich nämlich so, dass da die 9ms immer drauf kommen... Auch bei Golem lässt sich das so da raus interpretieren.

Na mal gucken, da kommen früher oder später mehr Details an die Öffentlichkeit.

Das ganze RT Zeugs wird mMn erst dann für den Endkunden richtig interessant, wenn die Entwickler das auch entsprechend richtig umzusetzen wissen. Ne Kombi aus DLSS/DLAA respektive dem, was da dahinter steht für RT um Leistung zu sparen bspw. wäre ne recht interessante Sache. Wozu Schatten mit hoher Auflösung raytracen lassen, wenn man bspw. den Spaß auch in niedrigerer Auflösung (und damit viel weniger notwendigen Rays) machen kann, den Denoiser drüber jagen kann und dann ähnlich DLSS/DLAA einfach via KI hoch skaliert? Das ist dann zwar wieder quasi Fake - aber optisch deutlich näher am echt geraytracten Ergebnis als gebackene Schatten oder sonstwelcher Schmuh, der zwar optisch hübsch ist, wenn es statisch sein darf - aber in Bewegung oder bei dynamisch wechselnden Bedingungen nicht funktionieren kann.

Die Lichtspielchen da in der Demo sind schon ziemlich gut. Selbst die TR Demo auf dem Marktplatz bei der Präsentation von NV beeindruckt ggü. einer statischen Umsetzung schon im Detail. Ob es einem das am Ende dann wert ist, ist halt ne andere Sache. Gerade Battlefield ist/war mMn einfach das falsche Spiel für solche Effekthascherei. Weil die Pros eh auf Low schalten...

[COLOR="red"]- - - Updated - - -[/COLOR]

Zitat why_me;26577023
Was aber voraussetzt, dass die RT-Cores die komplette RT Berechnungen erledigen.


So wie ich die bisherigen Aussagen verstanden habe, geht es eher darum, den rechenintensiven Part zu übernehmen.
Die RT Cores sollen wohl, wenn mich nicht alles täuscht, bspw. die Massen von Berechnungen bei der Strahlenverfolgung übernehmen. Und geben dann das Ergebnis zurück an die "Shader".
Es ist ja auch "nur" eine Art Hybrid Lösung. Theoretisch wäre das aber eigentlich noch recht weit weg von "komplett".

Der Infogehalt bei NV, wenn man nicht gerade die Whitepaper studiert ist aber leider quasi recht gering - keine Ahnung ob es schon Turing Whitepaper gibt wo es mehr Infos über die RT Cores gibt?
#7
Registriert seit: 09.08.2006

Flottillenadmiral
Beiträge: 4827
Ich frage mich auch in wie weit da die TDP eine Rolle spielt. Im Moment hängen alle Turing-Karten beim Rasterizing im TDP-Limit. Wenn nun noch Tensor- und RT-Kerne zum Verbrauch dazu kommen, reduziert dies dann nicht auch die Shaderleistung?
#8
customavatars/avatar287074_1.gif
Registriert seit: 29.08.2018

Bootsmann
Beiträge: 692
Zitat
Wenn nun noch Tensor- und RT-Kerne zum Verbrauch dazu kommen, reduziert dies dann nicht auch die Shaderleistung?

Müßte eigentlich so sein, wenn es nicht so ist, würde die Karten ja ihr Powerlimit überschreiten.
#9
customavatars/avatar238501_1.gif
Registriert seit: 01.01.2016

Oberbootsmann
Beiträge: 929
Zitat Don;26577011
Genau, die 9,2 ms sind einfach die aktive Renderzeit für Ray-Tracing-Effekte. In wie weit es Übeschneidungen mit den Shadern gibt, sagte man nicht. Worst Case wären also + 9,2 ms, im Best Case sind es deutlich weniger. Ich habe dazu noch zwei Folien von NVIDIA mit in der News eingebaut, die das vielleicht etwas verdeutlicht.


Diese 9,2ms sind wenn alle RT Effekte maxed sind?

Worst case 9,2ms, dann hat man also noch 7,5ms Zeit um 60fps zu zaubern.
Wenn ein Spiel also in 4k bummelig bei 130-140fps laufen kann, dann kann es auch mit all maxed RT in [email protected] laufen?
Also bei nicht total maxed RT effekten kann man die 9,2ms stark reduzieren und so "easy" [email protected] erreichen.

Das klingt ehrlich gesagt deutlich besser als das was die Aluhutfraktion im Forum dauernd verbreitet.
Es ist ja fast so als ob die Leute von Enlisted das schon vor nem Monat vorgemacht haben und sich das nun bestätigt.
#10
Registriert seit: 01.08.2017
ganz im Westen
Leutnant zur See
Beiträge: 1172
Zitat Cippoli;26577512
Ich frage mich auch in wie weit da die TDP eine Rolle spielt. Im Moment hängen alle Turing-Karten beim Rasterizing im TDP-Limit. Wenn nun noch Tensor- und RT-Kerne zum Verbrauch dazu kommen, reduziert dies dann nicht auch die Shaderleistung?

Nur, wenn die RTs auch aktiviert sind. Und dann stellt sich wieder die Frage, wo der Flaschenhals liegt. BF mit Rtx soll doch ~60fps @FullHD liefern? Ich kann mir nicht vorstellen, dass die Shader bei dieser Auflösung/FPS am Limit sind, sondern gehe da mal von den RT Cores aus. Desshalb hat die Reduzierung der Shaderleistung für die RT Cores bezüglich des TDP-Limit also vllt gar nicht so viel Auswirkung.
Und sollte RTX off sein, kann die Karte die vollen TDP in die shader stecken.
#11
customavatars/avatar77654_1.gif
Registriert seit: 19.11.2007

Moderator
Beiträge: 1859
Zitat Rattenmann;26577576
Diese 9,2ms sind wenn alle RT Effekte maxed sind?

Worst case 9,2ms, dann hat man also noch 7,5ms Zeit um 60fps zu zaubern.
Wenn ein Spiel also in 4k bummelig bei 130-140fps laufen kann, dann kann es auch mit all maxed RT in [email protected] laufen?
Also bei nicht total maxed RT effekten kann man die 9,2ms stark reduzieren und so "easy" [email protected] erreichen.

Das klingt ehrlich gesagt deutlich besser als das was die Aluhutfraktion im Forum dauernd verbreitet.
Es ist ja fast so als ob die Leute von Enlisted das schon vor nem Monat vorgemacht haben und sich das nun bestätigt.


das ganze ist bei dieser berechnung nicht maxed out:

"Für zwei Samples bzw. Strahlen pro Pixel für die Schatteneffekte benötigte die GeForce RTX 2080 Ti inklusive Entrauschen 2,3 ms pro Frame und die Reflektionen kommen auf 4,4 ms. Kommt noch eine Global Illumination wieder mit Denoising hinzu, dauert das Rendering eines Frames noch einmal 2,5 ms länger. Insgesamt sprechen wir also von einer Rechenzeit von 9,2 ms für die erwähnten Berechnungen."

mit 2 strahlen dürfte man eher am unteren ende der eigentlich mögliche anzahl sein.

und wie schon oft erwähnt: wenn dein geliebtes Enlisted das alles schon könnte ohne bedeutende fps-einbrüche, wäre NV ja schön dämlich gewesen, die deutlich schlechtere BF5-Demo zu zeigen.
Schlussendlich werden diese beiden beispiele wohl eher das jeweilige extrem bedient haben. BF5 zu viele effekte und Enlisted eher nur wenige.
das würde sich dann auch wieder mit angaben der entwickler und dieses artikels decken, dass es stark von den verwendeten anzahl effekte abhängt obs nur in 1080p oder sogar in 4k läuft.


aber es dürfte klar sein, dass da wohl noch viel rausgeholt werden wird, wenn mehr erfahrung vorhanden ist.
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

  • Sapphire Radeon RX Vega 64 Nitro+ im Test

    Logo von IMAGES/STORIES/2017/SAPPHIRE-VEGA

    Heute ist es endlich soweit: Wir können uns das zweite Custom-Design der Radeon RX Vega anschauen. Dabei handelt es sich um die Sapphire Radeon RX Vega 64 Nitro+, die besonders durch die Kühlung auf sich aufmerksam machen will. Drei Slots, drei Axiallüfter und sogar eine spezielle... [mehr]

  • NVIDIA Titan V: Volta-Architektur im Gaming-Test

    Logo von IMAGES/STORIES/2017/NVIDIA-TITANV

    In der letzten Woche hatte NVIDA noch eine Überraschung für uns parat: Die brandneue NVIDIA Titan V wurde vorgestellt. Damit gibt es das erste Consumer-Modell mit der neuen Volta-Architektur, das auch für Spieler interessant sein kann, in erster Linie aber auch professionelle Nutzer ansprechen... [mehr]

  • Die GeForce RTX 2080 Ti und RTX 2080 Founders Edition im Test

    Logo von IMAGES/STORIES/2017/GEFORCERTX2080

    Heute nun ist es endlich soweit und wir präsentieren die vollständigen Leistungsdaten und Messwerte zu den beiden ersten Karten der GeForce-RTX-20-Serie von NVIDIA. Nach der Vorstellung der Pascal-Architektur im Mai 2016 sind die neuen Karten für NVIDIA in vielerlei Hinsicht ein... [mehr]

  • Kleiner Turing-Ausbau: Gigabyte GeForce RTX 2070 WindForce 8G im Test

    Logo von IMAGES/STORIES/2017/GIGABYTE-RTX2070-WINDFORCE-LOGO

    Gestern war es soweit und mit der GeForce RTX 2070 startet die vorerst "kleinste" GeForce-RTX-Karte der neuen Serie von NVIDIA. Mit der Gigabyte GeForce RTX 2070 Windforce 8G haben wir ein Partnermodell im Test, denn die Founders Edition ist bislang noch nicht verfügbar. Erwartet wird die GeForce... [mehr]

  • PowerColor Radeon RX Vega 56 Red Devil im Test

    Heute wollen wir unsere Artikelübersicht zu den Custom-Modellen der Radeon RX Vega abrunden, denn mit der PowerColor Radeon RX Vega 56 Red Devil steht uns das Modell eines weiteren AMD-Exklusivpartners zur Verfügung. Das erste Mal haben wir nun auch die Gelegenheit uns eine solche Variante auf... [mehr]

  • Die GeForce RTX 2080 Ti leidet offenbar an erhöhter Ausfallrate (6. Update)

    Logo von IMAGES/STORIES/2017/GEFORCERTX2080TI

    Reddit und diverse Foren laufen heiß, denn seit einigen Tagen mehren sich die Berichte, nach denen es bei der GeForce RTX 2080 Ti zu einer erhöhten Ausfallrate kommt. Bestätigt ist dies bislang nicht, auch weil belastbare Zahlen fehlen und diese sicherlich nur durch NVIDIA selbst oder die... [mehr]