Erste Benchmarks: Microsofts neuer High-Performance NVMe Driver im Überblick

Thread Starter
Mitglied seit
06.03.2017
Beiträge
116.449
Mit Windows 11 25H2 und Server 2025 schickt Microsoft den ehrwürdigen NVMe-Treiber in den Ruhestand. Eine komplette Neuentwicklung auf IoRing-Basis verspricht IOPS-Rekorde und massive Effizienzgewinne. Doch unser Test zeigt: Wo Licht ist, da ist auch Schatten. Während die Random-Read-Performance explodiert, kämpfen klassische Benchmarks wie AS SSD mit massiven Einbußen. Wir haben vier SSDs durch den Test-Parcours geschickt und klären, warum der neue Treiber aktuell Fluch und Segen zugleich ist.
... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Wo ist der Vergleich zu Linux? Das wäre mal interessant.
 
Danke für diesen Test, den ich jetzt erst mal nur überflogen habe...!
Aber selbst da bestätigt sich das, was ich bisher nur gefühlt habe.

Ich habe 5 verschiedene Windows-PCs mit Windows 11 und aktuellen NVME-Laufwerken in Benutzung, bei allen habe ich versucht, den neuen Treiber zu aktivieren, bei 3 PCs hat das problemlos funktioniert, bei 2 PCs aus unerfindlichen Gründen nicht. Das wäre m. E. auch einen Artikel wert, denn mir ist nicht ganz klar, warum das mal klappt, mal nicht.

Jedenfalls merke ich im Normalbetrieb keinen großen Unterschied, wobei ich das auch nicht wirklich gemessen habe. Spürbar aber ist es beim Systemstart, bei dem parallel eine Menge Software sowohl im Hintergrund als auch im Vordergrund gestartet wird.
 
Jedenfalls merke ich im Normalbetrieb keinen großen Unterschied, wobei ich das auch nicht wirklich gemessen habe. Spürbar aber ist es beim Systemstart, bei dem parallel eine Menge Software sowohl im Hintergrund als auch im Vordergrund gestartet wird.
Mehr zum Vorteil, oder eher Nachteil?? Wenn man sich die Zugriffszeiten genauer anschaut bei den ganzen Benchmarks, dann sind dort doch ganz schöne einbussen... Inwiefern sich das jetzt auswirkt auf das System, wäre schon interessant...

Danke für den Test, sehr aufschlussreich und ja, Linux wäre auch interessant...
 
Dies ist auch nachvollziehbar im Blick auf DirectStorage und weitere moderne Anwendungsfälle.
..wenn denn Storage mit diesen Treiber dann noch bypassIO kompatibel wären. Aktuell sind sie das jedenfalls nicht, von daher hat sich DS gegessen.

..werden wir uns noch einmal die finalen Ergebnisse ansehen – gerne in Verbindung mit DirectStorage.
..siehe zuvor.


@Firebl : Hattet ihr bei den Test mit diesen Treiber auch das Phänomen mit den nicht zuordnungsfähigen 1MB+ (je nach Kapazität der SSD auch höher) unformatierbaren Zuordnungsbereichen (in der Datenträgerverwaltung, PartedMagic usw. sichtbar)? Werden die gelöscht, war es zumindest bei mir so, dass die komplette SSD plötzlich leer und ohne Partition war. Dazu kommt, man kann diesen Bereich nirgendwo anhängen. Ich habe die Problematik mal hier und hier (DS) bebildert beschrieben. Auch kommen einige Backuptools wie z.b. Acronis True Image mit diesen Treiber absolut nicht klar.

Was die Treiberperformance betrifft. Ja, die ist teils besser aber -je nach Caching (hard/soft) oder ohne Caching- auch schlechter. Positiv sind halt nur die geringeren CPU Lasten im non_caching Modus, hier waren die bei mir mit 2048 Anfragen per Thread im Verhältnis 70/30 (read/write) mit den nvme.sys Treiber rund 35% geringer als mit den bisherigen disk.sys Treiber. Aber halt nur non_caching, mit caching kaum merkliche Unterschiede. Kannst du hier und hier mal nachlesen.

ps: Ich denke mal, so schnell wird MS den nicht für die "üblichen" Windows Editionen freigeben. Dafür hat der noch zu viele Macken und bleibt erst einmal den Servereditionen (vieleicht auch mal vorab später Enterprise Edition) vorbehalten. Für die der ja auch freigegeben ist. ;)
 
Zuletzt bearbeitet:
Die Optimierung auf zufällige Zugriffe etc. ist typisch für Server.
Schon früher war die Firmware von Server-HDDs auf zufällige Zugriffe optimiert.
Für den Desktop ist so eine Optimierung dagegen nicht optimal.
Daher sollte man den neuen Treiber nicht bei Windows 11 aktivieren, sondern nur bei Server 2025 mit entsprechendem Workload (Datenbanken, Mailserver, etc.).
 
Da habe ich mir aber anderes erhofft.

Für die Alltagsperformance sind im Wesentlichen nur zwei Faktoren relevant: Random 4K und Latency.

Für Heimanwender also nichts als eine massive Verschlechterung?
 
Warum keine Samsung 990 Pro im Test?
Bei Samsung oder manchen anderen muss alles zeitnah wieder zurück zum Hersteller, da sind solche Specials nicht möglich. Hinzu kommt, dass ich zur PCIe-Gen4-Zeit noch keine SSDs gemacht habe - die FireCuda 530 ist privat (aber unbenutzt).
 
Habe mal den Selbsttest gemacht also die Q1T1 Schreibwerte kann ich nicht im Ansatz verstehen kann es sein das hier vlt ein Treiber oder Firmware Problem gibt im Luxx Test?

Habe selber den Win NVME Treiber + 2TB PCB01 SK Hynix

CrystalDiskMark_20260304011623.png
CrystalDiskMark_20260304011721.png


Lexmar NM1090 Pro

CrystalDiskMark_20260304012639.png
CrystalDiskMark_20260304012647.png
 
Zuletzt bearbeitet:
Habe mal den Selbsttest gemacht
Es wäre hilfreich wenn Du dazu schreiben würdest, welcher Benchmark mit welchem Treiber gemacht wurde. Dies kann man einfach in die unterste Zeile schreiben, dazu ist die da, dass man dort einen Text schreiben kann und dieser dann im Screenshot zu sehen ist.
 
Seit Windows 11 Update auf Build 26220.7934.ge_release_svc_betaflt_prod1.260223-2038 scheint der Override nicht mehr zu greifen.
Die NVMEs stehen im Gerätemanager wieder mit altem Treiber unter dem Punkt Laufwerke. Die Registry jedoch zeigt nach wie vor die entsprechend notwendigen Einträge unter Overrides.

Mit vorheriger Windows 11 Version funktionierte der Override.

Kann das jemand bestätigen?
 
Lexmar NM1090 Pro
Die Ergebnisse mit der Lexmar NM1090 Pro kann ich absolut bestätigen. Auf AMD X3D Systemen mit PCIe Gen5 SSDs ist der neuere Treiber fast uneingeschränkt in allen Disziplinen überlegen. Praktisch keinerlei Leistungseinbrüche, und zum Teil mehr als verdoppelter Durchsatz bei gleichzeitig massiv gesunkener CPU-Last. Mit Gen5 SSDs war bereits die CPU der Flaschenhals.

Am Ende hängen gerade die sequentiellen Zugriffe auch unmittelbar davon ab wie schnell (Latenz!) die CPU dem NVMe-Gerät lesenden und schreibenden Zugriff auf den RAM geben kann - und in der Disziplin ist die im Test verwendete Intel-Server-CPU weit abgeschlagen. Das kann zwar eine SSD mit Onboard-RAM gut maskieren (die Lexmar NM1090 Pro hat keinen!), aber ein guter Cache auf der CPU bringt hier im Gesamtsystem mehr.

Und dann darf man auch nicht vergessen dass sich jetzt die Zugriffsmuster auf die NVMe-SSD verändert haben, insbesondere bekommt der Controller jetzt potentiell wesentlich mehr einzelne Updates für seine Queues (pro CPU-Kern wird eine verwendet, und jetzt wird auch kein aggressives Batching mehr gemacht!), und sollte dabei aber trotzdem unterbrechungsfrei mit der Abarbeitung eben dieser fortfahren. Ältere NVMe-Controller leisten das nicht unbedingt.

In der Gegenrichtung sollte die NVMe auch nicht pro Kommando einen eigenen Interrupt auf der CPU auslösen, sondern nur wenn der Zustand der IO-Completion-Queue explizit zwischen "leer" und "nicht-leer" wechselt, oder sogar per Heuristik noch weiter verzögert. Auch das funktioniert zum Teil nicht richtig, und manche ältere NVMe-Controller spamen die CPU proportional zur Anzahl der selbst empfangenen Kommandos zu.
 
Zuletzt bearbeitet:
@Firebl Habt ihr die Optane 900p oder 905p noch?
 
Viele Probleme treten auf, wenn die SSDs keine Power-loss-Protection unterstützen. Dann werden die Schreibzugriffe erst bestätigt, wenn diese tatsächlich vollständig geschrieben sind und das zieht die Performance massiv in den Keller.

Mit PLP erfolgt die Bestätigung sobald die SSD sicherstellen kann, dass die Daten auch bei einem Power-Loss geschrieben werden können (i.d.r sofort).

Enterprise SSDs haben das Feature. Consumer SSDs können das Feature haben oder eben nicht.
 
mich würde ja interessieren, wie sich der der Treiber mit Brot und Butter NVMES verhält. Habe selber 2x 1 TB WD SN770 und 1x kioxia exceria plus g3 2tb im System mit einem 13700k.
Evtl. teste ich das heute selbst mal.
 
Mehr zum Vorteil, oder eher Nachteil??

Bei einem meiner PCs wird aufgrund der verschiedenen Dreckssoftware für u. a. Maus, Tastatur und Mainboard beim Start ganz ganz viel parallel gestartet, ich hatte das bereits woanders wortreich beklagt. Dort wird dann z. B. auch noch die Software für die VR-Brille von Pimax als Vordergrundprozess gestartet, weil die von mir eine Anmeldung haben will (die sie nicht bekommt, WEIL ICH NICHT NOCH EIN SCHEISS KONTO IRGENDWO HABEN WILL!!!1!1!!11!!1!1!!).

Jedenfalls ist der Zeitraum von der Anmeldung in Windows bis zum Aufploppen dieses Fenster recht lang und ein ganz guter Indikator.
Und das passiert jetzt spürbar schneller!

Passt ja auch ins Schema, weil zu diesem Zeitpunkt vergleichsweise viele Dinge gleichzeitig passieren und daher auch entsprechende Zugriffe auf die SSD erfolgen.

(Mittlerweile habe ich den PC deutlich entschlackt)

Seit Windows 11 Update auf Build 26220.7934.ge_release_svc_betaflt_prod1.260223-2038 scheint der Override nicht mehr zu greifen.

Bei zwei meiner PCs ließ sich der Overide nicht aktivieren. Könnte zu dem beschriebenen Muster passen, denn ich glaube mich zu erinnern, dass ich auf diesen Maschinen zuvor jeweils größere Updates durchgeführt hatte.
 
Ich frage mich, ob im Alltag und bei den allermeisten Nutzern der Unterschied zwischen Gen3 und Gen5 überhaupt ankommt, gleiches gilt für besagten neuen "Wundertreiber". Allein beim Start meines PCs habe ich (monentan) deutlich mehr Verzögerungen dadurch, dass ich viele Geräte am externen USB-Bus betreibe als dass eine höhere NWMe-Generation und / oder ein "Wundertreiber" eine Beschleunigung vornähme.
Klar, es gibt viele Szenerien, in denen bestimmte Zugriffe und / oder Übertragungsgeschwindigkeiten in der Theorie etwas bringen, jedoch werden viele User (auch) hier nicht ständig Daten hin- und herschieben?

Ich mag mich da irren und vielleicht bringt der neue Treiber für die Startphase (das wäre eine Problematik bei mir persönlich) hier Linderung (wie von @ParrotHH ange"teasert")?

Mit freundlichen Grüßen
 
Habe mal den Selbsttest gemacht also die Q1T1 Schreibwerte kann ich nicht im Ansatz verstehen kann es sein das hier vlt ein Treiber oder Firmware Problem gibt im Luxx Test?
...
Du hättest vieleicht eher treiberseitige "vorher" (mit disk.sys) vs. "nachher" (mit nvme.sys) CDM Screens des Storage posten sollen. So kann man damit nichts anfangen.
Außerdem ist CDM auch nicht anders wie halt jedes andere Benchtool: Starte es 10x zwischendurch und du bekommst 10x (je nach gerade aktueller Hintergrundlast) verschiedene Ergebnisse.
Zudem verwendet HWLuxx in ihren Test vollkommen andere Hardware/CPU und Softwarekonfiguration als bei dir, ergo werden dort auch andere Werte ausgelesen. Das ist vollkommen normal und KEIN Fehler.
Zuverlässige Werte liefern da nur MS Tools wie z.b. DiskSpd, da diese quasi "abgekapselt" von jeglichen anderen Lasten das Storage prüfen. Nachteil halt: Man bekommt keine bunten Screens mit schönen langen Balken und Highscores angezeigt, sondern realistische Werte anhand zuvor angegebener, individuell einstellbarer Parameter. Das wirkt dann auf viele User halt eher "unattraktiv" bzw. altbacken. Vorteil: Dessen Werte könnte man noch eventuell systemübergreifend mit persönlich generierten Werten identischer Eingabeparameter vergleichen. Aber halt auch nicht garantiert (wegen der CPU).


ps: Die Treiber kann man auch nur, wenn überhaupt, in W11 25H2 einpflegen. Bei 24H2 existiert der entsprechende Registrypfad/schlüssel nicht (ab Policies), ich empfehle auch nicht diesen manuel anzulegen.

pps: Noch einmal für alle die immer noch denken, MS wolle/hätte hier einen Storage "Turbo"-Treiber geproggt (das hätten andere Anbieter sicherlich dann schon schneller hin bekommen, z.b. Solidigm):

a.) dieser Treiber ist nur only für die Servereditionen (2025) von MS offiziell frei gegeben (Enterprise war mal angedacht, wurde aber dann wieder zurück gezogen)! Da er auch nur hier so funktioniert wie er funktionieren soll.
b.) ist das primäre Ziel dieses Treiber die CPU Lasten bei bestimmten, besonders im Serversegment entstehenden I/O Operationen zu senken, was er dann auch wunderbar tut (in meinen Tests teils über 50%, kann man experiementell mit MS Diskspd und dazu passenden Parametern die auch Caching berücksichtigen sollten, nachprüfen). Wenn da wer bei CDM mal marginal bessere Ergebnisse auf seiner Daddelkiste angezeigt bekommt, toll! Ist aber nur Beiwerk und macht den Treiber dennoch nicht W11 Heimanwender bugfree kompatibel bzw. kann dann auch gegenteilige Effekte generieren.
c.) man generiert im Homeuser Segment schlicht keinerlei Szenarien die mit einen Server Workflow (sehr viele CPU lastige I/O Anfragen [at] randomize per Thread) auch nur ansatzweise vergleichbar wären (und wenn nur mal simuliert), von daher ist dieser Treiber eher sinnfrei für diese Systeme und wie ja auch der HWLuxx Test zeigt, sequentell eher kontraproduktiv - da dies im Serversegment eine untergeordnete Rolle spielt.

_
 
Zuletzt bearbeitet:
Am Ende hängen gerade die sequentiellen Zugriffe auch unmittelbar davon ab wie schnell (Latenz!) die CPU dem NVMe-Gerät lesenden und schreibenden Zugriff auf den RAM geben kann - und in der Disziplin ist die im Test verwendete Intel-Server-CPU weit abgeschlagen. Das kann zwar eine SSD mit Onboard-RAM gut maskieren (die Lexmar NM1090 Pro hat keinen!), aber ein guter Cache auf der CPU bringt hier im Gesamtsystem mehr.
Moment, die SSDs mit DRAM Cache brauchen keinen HMB, der bei denen ohne DRAM Cache eine Krücke ist um das Fehlen des Cache für die Metadaten des Controllers etwas abzumildern. Die verwendete Xeon W9-3495X hat 105MB Cache, daran dürfte es nicht liegen, zumal bei den Tests die nur über 1GB Adressraum gehen, denn die Metadaten für 1GB Adressraum können die DRAM less Controller im internen SRAM vorhalten.

insbesondere bekommt der Controller jetzt potentiell wesentlich mehr einzelne Updates für seine Queues (pro CPU-Kern wird eine verwendet, und jetzt wird auch kein aggressives Batching mehr gemacht!)
Dann würde ich eher die Synchronisierung der Threads als Ursache ansehen, denn es muss ja sichergestellt werden, dass nicht zwei Threads die gleiche Adresse überschreiben wollen, denn dann wäre es reiner Zufall wer zuerst zum Zug kommt und damit was dort hinterher steht. Dies dürfte bei der verwendeten CPUs länger dauern als bei einer Desktop CPU mit viel weniger Kernen.

In der Gegenrichtung sollte die NVMe auch nicht pro Kommando einen eigenen Interrupt auf der CPU auslösen, sondern nur wenn der Zustand der IO-Completion-Queue explizit zwischen "leer" und "nicht-leer" wechselt,
Doch, die SSDs müssen natürlich die CPU über das Ende der Ausführung eines Befehls informieren, denn wäre es wie Du es Dir wünscht, könnte es dazu kommen, dass eine Daten schon vor einer Ewigkeit gelesen hat, aber dies nicht meldet bis die ganze Queue leer ist und dann wäre die Performance total mies, weil letzteres vielleicht erst nach Minuten der Fall ist und die CPU so lange nicht erfahren würde, dass die ganzen Aufträge von vorher schon abgearbeitet wurden.

manche ältere NVMe-Controller spamen die CPU proportional zur Anzahl der selbst empfangenen Kommandos zu.
Jede Wette das dies auch die neusten machen, denn es wäre schlimm wenn nicht, da die CPU dann nicht wüsste, dass ein Befehl abgearbeitet wurde und das Programm welche Daten angefordert hat, dann immer noch warten würde, wenn diese schon lange übertragen wurden. Es werden übrigens normalerweise keine Hardware Interrupts verwendet, sondern Message Signaled Interrupts.

Viele Probleme treten auf, wenn die SSDs keine Power-loss-Protection unterstützen. Dann werden die Schreibzugriffe erst bestätigt, wenn diese tatsächlich vollständig geschrieben sind und das zieht die Performance massiv in den Keller.
Ja, aber nur wenn man den Schreibcache auf der SSD deaktiviert, was dann aber z.B. bei AS-SSD zu ein bis maximal niedrigen zweistellen MB/s bei 4k Schreibend erzeugt. Enterprise SSDs mit PLP ignorieren dies, bzw. Fake eben die Bestätigung das die Daten aufs Medium geschrieben wurden, da sie dies ja auch bei einem unerwarteten Spannungsabfall noch machen können.

Enterprise SSDs haben das Feature. Consumer SSDs können das Feature haben oder eben nicht.
Die einzigen Consumer SSDs die wirklich eine PLP hatten, waren einige Intel wie die 730 und 750, die eigentlich Enterprise SSDs waren und die Optane, die direkt ins 3D XPoint geschrieben haben, Userdaten wie auch die Mappingtabelle und daher keinen DRAM Cache brauchen und trotzdem so schnell sind als hätten sie einen. Ansonsten gab es ein paar z.B. von Crucial die eine kleine PLP Lösung hatten, aber deren Kondensatoren waren so klein, dass sie nur die Verwaltungsdaten abgesichert haben, nicht die Userdaten.

Mit der Performance des neuen NVMe Treibers hat das Thema PLP aber nichts zu tun.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh