Sinnvoll lassen sich nur LLMs betreiben die vollständig in das GPU Ram passen und noch genug Luft für Kontext etc berücksichtigen.
Egal welchen technologischen Ansatz man wählt, der Knackpunkt ist immer die Speicherbandbreite.
Hier mal eine Auflistung von mir bekannten Optionen:
Spoiler: es gibt aber derezit *nichts* um das mit kleinem Budget abzubilden.
Klassischer Ansatz:
PC mit GPU mit möglichst viel Ram
Nachteile: oberhalb 24GB schon richtig teuer und nicht wirklich stromsparend, oder man hat eine PV Anlage.
Erweiterter Klassischer Ansatz;
Man kann auch mehrere Karten zusammen schalten. Erfordert dann neben den GPUs auch ein Mainboard mit genug vollwertigen PCIe Slots zzgl. potentem Netzteil.
Nachteile: noch teurer, und noch weniger Stromsparend + erhöhter Aufwand für config.
Nächster Ansatz - System mit Unified Speicher
Systeme wo das Ram und die CPU den Ram gemeinsam benutzen *und* dabei eine hohe Speicherbandbreite aufweisen.
Die Apple M3 / M4 / M5 Systeme haben in dieser Hinsicht gute Werte. Kommt zwar nicht an reine GPU Performance ran, aber im wirklich brauchbaren Bereich,
und das auch noch sehr stromsparend.
Nachteile: OS frisst ca. 12gb Ram, und Systeme mit 64 - 128GB legen bei ca 4 - 7k Euro.
Dann gibt es noch so China Kracher mit AMD Ryzen AI Max+ 395 CPU, die haben auch unified Memory:
Lt. technischer Daten sehen die gar nicht so schlecht aus, aber die Speicheradressierung ist limitiert, die tatsächliche Performance eher so lala,
und dafür einfach zu teuer gew0rden.
Exoten Lösung:
Intel hat vor einiger Zeit eine CPU mit 64GB Ram in der CPU rausgebracht.
Intel Xeon Max (Sapphire Rapids mit HBM)
https://www.intel.de/content/www/de/de/products/details/processors/xeon/max-series.html
Bandbreite: Bis zu 1,1 TB/s direkt auf der CPU (im HBM-only oder Cache-Mode), völlig ohne traditionelle RAM-Riegel.
Schwer zu kriegen, und wenn dann $$$
Als Alternative zu den Apple unified Systemen gibt es noch diese Alternativen von Intel + AMD :
Intel Xeon 6 (Granite Rapids-AP) mit MRDIMM
CPU: Intel Xeon 6980P (oder andere Modelle der Xeon 6900P-Serie / Granite Rapids-AP).
Mainboard: Server-Plattformen mit Sockel LGA7529 (z. B. Intel Reference Platforms wie Avenue City-AP oder entsprechende Server-Mainboards von Supermicro/ASUS).
RAM: MRDIMM DDR5-8800 (Multiplexed Rank DIMM).
Bei 12 Kanälen und 8800 MT/s erreicht ein Single-Socket-System eine theoretische Bandbreite von ca. 844 GB/s. In einem Dual-Socket-System (2P) skaliert dies auf über 1,6 TB/s aggregierte Speicherbandbreite.
AMD EPYC 9005-Serie (Turin, z. B. EPYC 9655 / 9175F).
Mainboard: Sockel SP5 (bzw. die aktualisierten Revisionen für Turin).
RAM: 12-Kanal DDR5-6400 RDIMM (Registered DIMM).
Mit 12 Kanälen bei 6400 MT/s erreicht AMD ein theoretisches Maximum von ca. 614 GB/s pro CPU-Sockel.
Absolut im brauch brauchbaren bereich, aber übelst teuer.
Und sonst gibt es noch so fertige Systeme wie DGX Spark, die haben fix 128GB Ram und liegen auch bei ca 3.500 Euro.
Egal wie man es dreht oder wendet, wenn man größere Modelle verwenden möchte und dafür viel schnellen Ram benötigt,
sind alle Lösungen so teuer, das man sich das als HomeLab User sehr gut überlegt.