Verlagerung auf lokalen PC: AMD ermöglicht 128B-LLMs unter Windows

Thread Starter
Mitglied seit
06.03.2017
Beiträge
113.299
Auf der CES 2025 stellte AMD mit dem Ryzen AI Max+ 395 den weltweit ersten Windows-AI-PC-Prozessor vor, der in der Lage ist, Llama 70B lokal auszuführen. Diese Funktion wird durch die Integration von llama.cpp und LM Studio ermöglicht und stellte einen wichtigen Schritt für die Bereitstellung großer Sprachmodelle auf lokalen Windows-Systemen dar. Nun kündigte AMD eine Erweiterung der variablen Grafikspeichernutzung an, die es ermöglicht, Modelle mit bis zu 128 Milliarden Parametern in Vulkan llama.cpp auf Windows auszuführen. Diese Verbesserung wird mit den kommenden Adrenalin Edition 25.8.1 WHQL-Treibern eingeführt und erlaubt es, speicherintensive KI-Workloads vollständig auszunutzen, insbesondere auf Maschinen wie dem Ryzen AI Max+ 395 mit 128 GB, der über 96 GB variablen Grafikspeicher verfügt.
... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Auf der CES 2025 stellte AMD mit dem Ryzen AI Max+ 395 den weltweit ersten Windows-AI-PC-Prozessor vor, der in der Lage ist, Llama 70B lokal auszuführen
Was ist das für Marketing Bullshitbingo ich hab Mixtral 70B und Deepseek 70B auf einem I5 am laufen 🤮
Wie bei mir limitiert auch bei AMD die Speicheranbindung das LLM, die CPU bzw. die GPU ist relativ egal sogesehen.

Bei mir die 96 GB/s (1,8 Token/s ) bei AMD eben die 256GB/s (4,8 Token/s)

Die Kunden zu diesem Produkt von AMD werden massiv auf die Schnauze fallen wenn sie meinen mit 256GB/s die Leistung einer GK mit 400GB/s und mehr zu erreichen.
 
Zuletzt bearbeitet:
Was ist das für Marketing Bullshitbingo ich hab Mixtral 70B und Deepseek 70B auf einem I5 am laufen 🤮
Wie bei mir limitiert auch bei AMD die Speicheranbindung das LLM, die CPU bzw. die GPU ist relativ egal sogesehen.

Bei mir die 96 GB/s (1,8 Token/s ) bei AMD eben die 256GB/s (4,8 Token/s)

Die Kunden zu diesem Produkt von AMD werden massiv auf die Schnauze fallen wenn sie meinen mit 256GB/s die Leistung einer GK mit 400GB/s und mehr zu erreichen.
Dein AMD geflame kannst Du Dir sparen, es wird nichts an der schlechten Situation von INTEL etwas ändern.:poop::poop::poop:
 

Anhänge

  • Screenshot 2025-07-30 at 14-33-29 geflame - Google Suche.png
    Screenshot 2025-07-30 at 14-33-29 geflame - Google Suche.png
    30,2 KB · Aufrufe: 32
Aber sein Einwand ist doch berechtigt. Wie produktiv kann man ein LLM mit z.B. 92GB ausführen? In der Cloud hast du deine Antworten nach 2-3 Sekunden. Lokal dann 30 Sekunden+? Wenn es lokal laufen muss okay, aber dauerhaft wäre das schon sehr nervtötend.

Mich würde daher auch ein Test interessieren, wie effektiv diese PCs wirklich für größere LLM sind. Nach meinem Gefühl würde ich wohl eher eine 5090 mit 32VRAM nehmen und dann effektiver mit einem kleineren Modell hantieren. Alternativ dazu dann Cloud. Alles Andere dürfte dann schnell zu teuer werden, wenn es in den Profi Bereich geht.
 
Jetzt habe ich mich extra registiert, um hier mal ein Kommentar loszuzwerden und dem ersten Kommentar in gewisser Weise etwas Recht zu geben:

Die Angaben in dem Artikel sind Stand jetzt irreführend und eher Marketing zuzuordnen mit halben Wahrheitsgehalt !!!

LMStudio nutzt in keiner Weise den Ryzen AI Max aus!
LMStudio kann nur LLAMA Runtimes und diese können schlicht "nur" die CPU + GPU ansprechen.
Damit liegt die Performance bis zum ersten Antworttoken bei etwa 12-18sec bei einem mittleren Model mit ca. 16GB Größe.
(Wie sieht das wohl mit einem 128B Modell aus???)

Das interessante am Ryzen AI ist aber eigentlich die NPU !!! Davon wird nie etwas erwähnt.
Ich habe seit ca. 3 Wochen einen AMD mit dem Ryzen AI Max+ 395 mit NPU und versuche seitdem sämtliche Tools aus, um die NPU ansprechen zu können.
Das stellte sich als schwieriger heraus, wie anfangs gedacht.

Zuerst mal muss man sich da mit den zugrundeliegenden Frameworks wie ONNX, GGUF etc. auseinander setzen.
Aktuell kann Ryzen AI mit NPU nur durch das ONNX Format (Microsoft) angesprochen werden. Das einzige Tool was ich gefunden habe ist der Lemonade Server, welcher Modelle lokal bereitstellen kann.
Aber auch hier muss man beachten, dass man Modelle mit "Hybrid" verwendet (im ONNX Format). Nur diese benutzen auch die NPU.

Wenn die NPU verwendet wird, erreiche ich in etwa eine Perfomance wie eine RTX4090.. (bei großen Prompts mit >6000 Tokens ca. 2-3 sec bis zum ersten Antworttoken).

Kurzum, um die AI Max richtig ausnutzen zu können braucht es noch eine Weile. Steckt Softwareseitig alles in den Kinderschuhen (vor allem alles Buggy).
Oder man macht sich die Mühe und investiert in das KnowHow wie man Modelle in ONNX konvertiert.

Wenn es denn mal richtig funktioniert entfaltet diese CPU echt krasse Performance in diesem Bereich.

Wen es interessiert:
Ich bin Software Engineer mit mehr als 20 Jahren Erfahrung und prüfe gerade für Unternehmen, wie man recht kostengünstig lokale AI in eigener Infrastruktur bereitstellen kann.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh