Prototyp für 13.200 US-Dollar: Chinesen statten die GeForce RTX 5090 mit 128 GB VRAM aus

Thread Starter
Mitglied seit
06.03.2017
Beiträge
113.634
Die GeForce RTX 5090 (Test) ist NVIDIAs aktuelle Flaggschiff-Grafikkarte für Spieler und/oder Creator und wird mit einem 32 GB großen GDDR7-Grafikspeicher ausgestattet. Doch im Vergleich dazu ist diese Speichermenge gering, wenn man sich den chinesischen Prototypen der GeForce RTX 5090 anschaut, der mit satten 128 GB VRAM modifiziert wurde. Im Einzelhandel wird es diese Karte natürlich nicht geben, doch könnten einzelne Karten mit den modifizierten 128 GB VRAM tropfenweise zu einem Preis von mal eben 13.200 US-Dollar herausgegeben werden.
... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Was würde wohl Nvidia für eine UVP ausrufen mit so viel Vram, mindestens 20.000€, bei einem Straßenpreis von 30.000€ ...😏
 
Hat die geringere Speicherbandbreite einen starken Einfluss auf die Performance im Verhältnis zum größeren Speicher?
 
Hat die geringere Speicherbandbreite einen starken Einfluss auf die Performance im Verhältnis zum größeren Speicher?
Du meinst ob die gleichbleibende Bandbreite von 512Bit die Performance verschlechtert, wenn der Speicher von 32 auf 128GB anwächst?

Das eine hat mit dem anderem nicht wirklich was zu tun. Das eine ist eine Menge/Volumen, das andere eine Geschwindigkeit.
Da die Geschwindigkeit unverändert bleibt, dauert es natürlich auch 4mal solange den kompletten, also 128GB statt 32GB Speicher zu schreiben/lesen.
Andersrum, wenn du 87GB an Daten brauchst, aber nur 32GB VRAM hast, passt das halt nicht rein, egal wie schnell der Speicher angebunden ist.

Je nachdem wie KI-Anwendung auf diese Daten zugreifen, wäre ein noch schnelleres Interface bestimmt auch nochmal hilfreich. Aber aktuell geht es hauptsächlich ums Volumen. Weil wenn das Volumen nicht ausreicht, müssen ständig Daten zwischen RAM und VRAM hin und hergeschaufelt werden und das ist extrem langsam. Oder im worst-case läufts einfach überhaupt nicht.
 
Hat die geringere Speicherbandbreite einen starken Einfluss auf die Performance im Verhältnis zum größeren Speicher?
Jeder Speicherchip wird statt mit 32Bit nur im 16-Bit-Mode angesprochen.
Es bleibt insgesamt zwar bei 512 Bit, aber ich kann mir schon vorstellen, dass die Performance je nach Zugriffsmuster bis zu 50% geringer ist.
Ich kann da aber auch völlig daneben liegen...
 
Immer wieder bewundernswert was der Chinese doch alles hinbekommt was ich mich nur frage wie sie das mit dem BIOS gelöst haben

Normal kann nur NV das Bios Digital signieren damit es auch gebootet werden kann daher wundert es mich wie sie es zum laufen bekommen haben
 
Jeder Speicherchip wird statt mit 32Bit nur im 16-Bit-Mode angesprochen.
Es bleibt insgesamt zwar bei 512 Bit, aber ich kann mir schon vorstellen, dass die Performance je nach Zugriffsmuster bis zu 50% geringer ist.
Ich kann da aber auch völlig daneben liegen...

Dafür hast Du doppelt so viele Chips... es bleibt bei 512 Bit, daher kein Performanceunterschied.

Da es bisher noch nicht mal ein Mod-BIOS mit offenem Power Limit gibt, kann ich mir das alles nicht so recht vorstellen.
 
Ich schon, lässt sich gut Geld mit verdienen.
Mit einem offenem PT hingegen eher weniger.
 
Dafür hast Du doppelt so viele Chips... es bleibt bei 512 Bit, daher kein Performanceunterschied.
Ich denke das ist zu kurz gesprungen, dass es insgesamt 512 Bit bleiben ist offensichtlich, aber so einfach ist es nicht.
Eine GPU greift wie auch eine CPU nicht immer auf der kompletten Breite auf den Speicher zu.
In z.B. so einem Fall macht es denke ich einen Unterschied, wenn pro Chip nur 16 Bit zu Verfügung stehen.

"https://forums.developer.nvidia.com/t/global-memory-access-patterns-too-slow/286508

"My application has to read chunks of consecutive data from various places inside an array.
When the chunks are of 128B I see excellent performance.
When the chunks are 64B the performance degrades considerably. I do not expect this as it is clearly stated that 32/64/128 byte interactions with the RAM are supported.
I have tried all of these in different combinations to no avail:

each thread reads 4/8/16 bytes (consecutive threads read the 64B chunk) load using default/LDG/No Cache modifiers

For example:
for a 16B vector size each thread reads 16bytes. 4 consecutive threads read the 64B chunk. Other groups of 4 threads read other chunks.

What is happening here?"
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh