Neuer AI-Server

asm@s24 · 08.05.2026

pwnbert schrieb:
Der Host Crashed nicht?

Nein.

pwnbert schrieb:
Auch wennst die VM wieder abdrehst?

Das ist in einem LXC. Mit pösem device passthrough. :fresse:

Und ich muß mich korrigieren: Ollama crasht nicht sofort, es lädt schon z.B. Mistral, aber egal, was ich dann prompte, dann haut's es O sofort raus. 💥

Server logs for details ... ok, hab ich jetzt noch nicht gesucht.

pwnbert · 15.05.2026

Ich bin ja am überlegen, ob eine Arc B70 Pro lustig wäre... mh...

pwnbert · Samstag um 12:46

So Kinder, weiter im Text.

Begonnen hab ich mit Text2Img und Img2Img, dann Img2Vid. Das braucht alles viel Rechenleistung, der VRAM Verbrauch ist in Relation überschaubar (schon auch hoch). Ist alles mehr Spielerei und weit weg von "real", zumindest das, was man Open-Source so auf seiner HW laufen lassen kann. BigTech, DarkTech und DeepStateTech können da wsl. mehr, na wie auch immer.

Auf jeden Fall mach ich jetzt seit ner Zeit mit Text LLMs rum (Audio In/Output hab ich noch nicht erreicht) und stelle überrascht fest, dass die Verhältnisse hier anders sind.
Offenbar ist die Rechenleistung selbst gegenüber dem VRAM Bedarf eher untergeordnet, soll heissen, am Laptop mit Intel Ultra und 32gb RAM (die iGPU kann sehr viel als VRAM verwenden) laufen LLMs jetzt nicht sooo viel langsamer als auf der 5090. Schon langsamer, aber nicht um den Faktor, den die Rohwerte der Rechenleistung erwarten lassen würden.

Insofern bin ich mir nicht sicher, wie schlau es ist mit einer leistbaren GPU zu arbeiten (selbst mit ner 96gb RTX).

Spannend sind doch z.B. diese Qwen 122b a10b Modelle und sowas, die sollen schon richtig gut sein. Als wohl brauchbares Q5_k_xl hat das 91gb, Platz für Kontext braucht man ja auch noch (was man erstmal immer übersieht, als Anfänger bzw. außenstehender). Als Q4_k_xl sinds 77gb, falls der Platz für Kontext sonst fehlt (es soll wohl immer noch der bessere weg sein ein Model mit mehr Parametern stärker zu quantisieren als eines mit weniger zu nehmen, auch solls besser sein das Model stärker zu Quantisieren als den KV Cache stärker zu Quantisieren).

Nunja, so auf jeden Fall die Frage, wie man das am besten anstellt. Die Speicherbandbreite ist in dem Fall wohl nicht sooo der Dealbreaker, wobei ich da noch mehr probieren muss.

Möglicherweise ist es schlauer die AI in so ein Standalone Mobile-Chipset auszulagern (Spark, Intel Mobile Ultra, AMD AI max) und nicht im eierlegenden Wollmilchserver zu integrieren.
Kostet halt momentan 3-4k sowas mit 128gb, meh.

edit:

Haldi schrieb:
Wie sieht das jetzt mit Videos aus? benötigen die auch extrem viel RAM? Oder wird eh alles 720p gerendert und hochskaliert?

Braucht von allem Viel. Bei WAN arbeitest du mit High-Noise und Low-Noise Modellen, dass das alles in den VRAM passt und dort liegen bleibt ist eher unwahrscheinlich, eine richtig schnelle SSD wäre gut (Gen 5 Raid 0 aus 2 oder so).
Du bist halt immer am Rum laden, weil Text Encoder (LLM), VAE und die Modelle (Base, Highspeed Lora usw.) alle recht groß sind..
LTX ist ganz interessant, da geht schon mehr, inklusive Ton.

Ist aber alles nicht ganz einfach und gerade auf ner AM4 Plattform mit ner Gen 4 SSD ist das lame. Leider werden real nicht die Geschwindigkeiten der Benchmarks erreicht, warum auch immer das so ist. Ein 16gb Model ist leider nicht in 2 Sekunden geladen. Es geht halt doch relativ viel Zeit drauf beim Rumspielen, obwohl die HW nicht schlecht ist.

Ich denke, dass img2vid ähnlich arbeitet wie ne Kette aus img2img, immer mit dem vorherigen img als Start und so eine Folge an Bildern generiert wird. Zumindest ist der Leistungsbedarf ähnlich.

asm@s24 · Montag um 06:31

pwnbert schrieb:
So Kinder, weiter im Text.

Auf welchem/n OS läuft das alles bei Dir?

pwnbert · Montag um 11:12

Windooze, atm... auf der Workstation daheim mit 10, am Laptop mit 11.
Wobei das wohl nicht die richtige Wahl ist, aus unterschiedlichen gründen, unter Windooze ist die Dependency Hell gefühlt nochmal schlimmer, wobei ich versuche alles als portable zu installieren.

Ich hab leider so viele Baustellen zur Zeit, dass ich hier etwas fest hänge, ich muss mich etwas um den Server/NAS kümmern, damit alles etwas weniger Endgerät-lastig wird, dann isses einfacher.

asm@s24 · Montag um 11:52

pwnbert schrieb:
Ich hab leider so viele Baustellen zur Zeit

Dieses "zur Zeit" hört bei mir vermutlich nie mehr auf ... :grrr:

Jo, Windows hab ich schon befürchtet. Hab es versucht unter PVE mit Ryzen iGPU durchreichen an LXC und Ollama mit Vulkan. Sieht auch technisch ok aus, crasht dann aber beim ersten prompt. Und da liegt's brach seit ein paar Wochen.

Mache vl. heut mal wieder einen Test, gab ja etliche Kernelupdates, wer weiß ...

pwnbert · Dienstag um 13:09

asm@s24 schrieb:
Hab es versucht unter PVE mit Ryzen iGPU durchreichen an LXC und Ollama mit Vulkan

So, junger Padawan, ich spiele mich grad auf Windooze 11 mit ollama, libre webui und docker rum samt der gratis Google KI Suche als Hilfe.
Es ist wohl so, dass ollama in Docker nicht auf die iGPU zugreifen kann bzw. der Passthrough Kram nicht wirklich sauber unterstützt wird, gibt zwar paar inoffizielle images und so (also zumindest für den Intel Kram hier), die Empfehlung ist aber, ollama lokal laufen zu lassen.

Nun, obs ne Option ist ollama einfach direkt auf Proxmox zu installieren?

Code:

curl -fsSL https://ollama.com | sh

asm@s24 · Dienstag um 13:44

pwnbert schrieb:
Nun, obs ne Option ist ollama einfach direkt auf Proxmox zu installieren?

Hehe, warum eigentlich net. Bei Gelegenheit probier ichs. :bigok:

Meine aktuelle Baustelle ist grad k3s. 😓

buzzzer · Gestern um 10:31

Ist das hier "unser" LLM Thread? Falls nicht sorry fürs reingrätschen.
Ich habe eine 7900XTX gekauft um damit lokal herumzuspielen. 32GB DDR5 RAM und ein Netzteil hab ich noch da.

Gibt es bezogen auf lokale KI einen Vorteil bei Intel 1851 oder AM5. Evtl. wegen der Speicher Anbindung oder so?

Ich würde dann einfach wieder Proxmox installieren und dort ollama laufen lassen wollen. Oder gibt es schon ein KI Linux oder sowas?

pwnbert · Gestern um 11:57

buzzzer schrieb:
Ist das hier "unser" LLM Thread? Falls nicht sorry fürs reingrätschen.

Jein, ich würde sagen, unser "wie bekomm ich das LLM am Server zum laufen", gibt ja ein Unterforum für AI Zeugs, finde aber, dass die Art der Implementierung im Homelab hier her gehört.

buzzzer schrieb:
Ich habe eine 7900XTX gekauft um damit lokal herumzuspielen. 32GB DDR5 RAM und ein Netzteil hab ich noch da.

Aufpassen, neben dem Modell muss noch noch der KV Cache (quasi der Arbeitsspeicher, der benötigt wird, damit das Modell laufen und "denken" kann anhand der Grunddaten, die das Modell selber hat)in dem VRAM, typischer Anfängerfehler. Heisst also, deine Modelle sollten etwa 50-75% Größe des VRAM haben bei dir, also 12-18gb, ich würde mit Gemma/Gwen/Mistral beginnen im Bereich grob 25-30b, quantisiert auf eine entsprechende Größe (ist ein eigenes Thema). Ich tät mitm UD_Q_4_K_XL von Unsloth beginnen ( https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF ), imho ist das erstmal ganz okay (ohne das jetzt genauer auszuführen).

buzzzer schrieb:
Gibt es bezogen auf lokale KI einen Vorteil bei Intel 1851 oder AM5. Evtl. wegen der Speicher Anbindung oder so?

Jein, bei Intel ist ggf. die iGPU ganz interessant.
Allgemein ist die Sache so, gerade beim rumspielen, dass man eigentlich schnellen SSD Speicher will, zum Laden der Modelle (wenn du häufiger Modelle wechselst). Was jetzt "schnell" ist, ist ne andere Sache (ob nun Gen4, Gen5, Gen5 Raid 0...).
Ich würde das ProArt B850 Creator wollen (weil da ein sinnvoller DualGPU Betrieb möglich ist und man 2x Gen5 M.2 hat). Ist halt vom Preis her happig.
Realistisch tuts jede Kackplattform, irgend ein aberanztes AM4/1200/1700 System tuts genau so am Ende.

buzzzer schrieb:
Ich würde dann einfach wieder Proxmox installieren und dort ollama laufen lassen wollen. Oder gibt es schon ein KI Linux oder sowas?

Ist alles Pain in the Ass, am Ende gehts in dem Thread aber genau darum.

tl,dr:
Such irgend eine halbwegs flotte SSD (die auch nicht zu klein ist, die Modelle sammeln sich schnell auf der Festplatte) und irgend ein Host-System, kann gern irgend ein Bestand sein.
Wenn du was kaufen musst, überleg dir, was du kaufst, damit eine "Nachnutzung" auch noch sinnvoll möglich ist.
245k + Intel B-Board wäre z.B. sowas, fürn Alltags-PC ist das eine super Basis.
AMD geht auch, würd aber nur was mit iGPU nehmen... ist halt die Frage, wie ernst dir das alles ist (B850 Pro Art Creator + 9900X/9950X hat over all ein nettes P/L und bietet ne vielseitige Zukunft, ist aber schon eher hochpreisig im Vergleich).

Mir fehlt @Desktop die iGPU etwas beim 5900X, wsl. wäre es in dem Fall smoother die iGPU als primäre GPU zu verwenden, so dass der ganze Render vom Betriebssystem und diverses Hardware-Offloading darauf läuft (was du remote ja nicht so hast, das Thema).

Trotzdem würd ich nix ohne iGPU kaufen.
Thema iGPU, Intel kann wohl SR-IOV auf der iGPU (konnte ich nie testen).

Bei Intel ist das billigste Dual-GPU Board das (NanoKVM/JetKVM oder so für Fernzugriff wenn nötig):

GIGABYTE Z890 Aero G ab € 279,00 (2026) | Preisvergleich Geizhals Österreich

✔ Preisvergleich für GIGABYTE Z890 Aero G ✔ Bewertungen ✔ Produktinfo ⇒ Formfaktor: ATX • Sockel: Intel 1851 (LGA1851) • Chipsatz: Intel Z890 • CPU-Kompatibilität: Core Ultra 20… ✔ Mainboards ✔ Testberichte ✔ Günstig kaufen

geizhals.at

Oder mit IPMI:

https://geizhals.at/?cat=mainboards&xf=2833_Intel%201851~2873_ab%202~4589_IPMI-Switch&pagesize=30&sort=p&promode=true

245k reicht imho eigentlich, der hat schon die "beste" iGPU, 270k hat halt mehr Cores, mehr €..

Musst du wissen was es kosten darf, ein B350 Mainbaord mit einem Ryzen 1600 reicht am Ende auch zum probieren.

pwnbert · Gestern um 13:45

Nachtrag:

Die Sache ist eher Softwarekrieg als Hardware, Hardware ist vergleichsweise "einfach",
Du brauchst nur ein Mainboard mit nem Schlitz um die GPU rein zu stecken. :fresse:

CPU brauchst eigentlich nur, damit das Ganze auch irgendwie läuft. Würde aber was mit iGPU nehmen, damit du die GPU im Zweifel dem Host "wegnehmen" kannst.
RAM weiss ich nicht, da ich zum Glück im (DDR4) RAM Überfluss lebe (ist leider auchder einzige Überfluss, lol). Hab 64gb unter Windooze auch schon voll bekommen (kurzzeitig überlegt weitere 64 ausm Backup Server reinzumachen statt den RGB Dummies lol). Imho müstse da aber auch mit RAM < VRAM laufen (sprich mit 8 oder 16gb). Inwiefern das Modell direkt von der SSD in den VRAM geladen werden kann, weiss ich nicht, kA obs da mit zu wenig RAM starke Tempoverluste gibt. Fakt ist, dass RAM als VRAM Erweiterung (fast) nichts bringt, weil ein Swapping extram langsam ist (ähnlich wie RAM zu Dreh-Festplatte Swapping früher als es keine SSDs gab).

Steck dir irgendwas zusammen, was da ist, wenn was da ist.
Wenn du neu kaufen musst überleg gut, dass das Zeug entweder "abgeschrieben" ist oder sonst irgendwie sinnvoll verwertbar (z.B. als Gaming PC oder Office PC).

Pro-Tip:
Du wirst dir viel online KI Hilfe holen, auch wenn dus bisher nicht getan hast.
Pass auf, zumindest die Google gratis KI (in der Suche) arbeitet viel mit veralteten Daten, empfiehlt dir irgendwelche GITs die outdated sind oder sagt dir Speicherpfade, Dateinamen etc. aus 2024/2025 Versionen, beim Hinweis dann "och ups".
Claude hab ich noch nie getestet (kA ob da auch gratis was geht), sollt ich mal machen, soll aber ziemlich das Beste sein.

Also wenn du die KI fragst, frag dann immer nach, ob das jetzt aktuell immer noch so ist, oder ob sich was geändert hat.

Allgemein braucht man ganz gute Nerven dafür imho.

buzzzer · Gestern um 21:30

Vielen Dank für die sehr ausführliche Antwort.

Ich habe in den letzten Wochen schon ein wenig herumprobiert. LXC mit OpenWebUI auf meinem Proxmox Server und via Ollama die 5080 von meinem GamingPC genutzt. Das hat mich aber genervt, dass ich den immer laufen haben musste. Da habe ich gelernt was context / KVCache bedeutet. Am Start ballert man halt direkt ein 14GB Model in die 16GB VRAM und wundert sich dass alles ultra lange dauert

Dabei habe ich auch Gemini (habe das kleinste Abo) und ein wenig Claude genutzt. Das ist auch nicht immer das Gelbe vom Ei. Gemini muss man aber irgendwie immer aufpassen. Der erzählt echt viel Unsinn. Das Thema ist da auch egal. Aber vielleicht frage ich auch falsch.

Modelle und Quantisierung würde ich auch nach Q4_K oder MXFP4 schauen. Nervt halt das es dann soviel Varianten von einem Modell gibt. Alleine da das richtige zu finden ist die Kunst. Darum schonmal danke für den Tipp des Unsloth gemma models.

Bei der Hardware würde ich jetzt erstmal nicht auf Dual GPU oder IPMI schauen. Wenn Dual GPU dann würde ich wohl direkt 2xAI Pro r9700 kaufen.
Es soll schon DDR5 sein, da ich den halt noch habe. iGPU sollte rein klar. Aber ob nen 245K oder ein 8500G weiss ich auch nicht.
Möglich ist, dass ich beim herumspielen merke, dass ich da keinen Bock drauf habe. Dann soll die Graka natürlich weg. Die andere Kiste brauche ich nicht, aber nunja es wird einem schon was einfallen.

Suche

Neuer AI-Server

asm@s24

Profi

pwnbert

Legende

pwnbert

Legende

asm@s24

Profi

pwnbert

Legende

asm@s24

Profi

pwnbert

Legende

asm@s24

Profi

buzzzer

Enthusiast

pwnbert

Legende

GIGABYTE Z890 Aero G ab € 279,00 (2026) | Preisvergleich Geizhals Österreich

pwnbert

Legende

buzzzer

Enthusiast