Neuer AI-Server

asm@s24 · 08.05.2026

pwnbert schrieb:
Der Host Crashed nicht?

Nein.

pwnbert schrieb:
Auch wennst die VM wieder abdrehst?

Das ist in einem LXC. Mit pösem device passthrough. :fresse:

Und ich muß mich korrigieren: Ollama crasht nicht sofort, es lädt schon z.B. Mistral, aber egal, was ich dann prompte, dann haut's es O sofort raus. 💥

Server logs for details ... ok, hab ich jetzt noch nicht gesucht.

pwnbert · 15.05.2026

Ich bin ja am überlegen, ob eine Arc B70 Pro lustig wäre... mh...

pwnbert · 30.05.2026

So Kinder, weiter im Text.

Begonnen hab ich mit Text2Img und Img2Img, dann Img2Vid. Das braucht alles viel Rechenleistung, der VRAM Verbrauch ist in Relation überschaubar (schon auch hoch). Ist alles mehr Spielerei und weit weg von "real", zumindest das, was man Open-Source so auf seiner HW laufen lassen kann. BigTech, DarkTech und DeepStateTech können da wsl. mehr, na wie auch immer.

Auf jeden Fall mach ich jetzt seit ner Zeit mit Text LLMs rum (Audio In/Output hab ich noch nicht erreicht) und stelle überrascht fest, dass die Verhältnisse hier anders sind.
Offenbar ist die Rechenleistung selbst gegenüber dem VRAM Bedarf eher untergeordnet, soll heissen, am Laptop mit Intel Ultra und 32gb RAM (die iGPU kann sehr viel als VRAM verwenden) laufen LLMs jetzt nicht sooo viel langsamer als auf der 5090. Schon langsamer, aber nicht um den Faktor, den die Rohwerte der Rechenleistung erwarten lassen würden.

Insofern bin ich mir nicht sicher, wie schlau es ist mit einer leistbaren GPU zu arbeiten (selbst mit ner 96gb RTX).

Spannend sind doch z.B. diese Qwen 122b a10b Modelle und sowas, die sollen schon richtig gut sein. Als wohl brauchbares Q5_k_xl hat das 91gb, Platz für Kontext braucht man ja auch noch (was man erstmal immer übersieht, als Anfänger bzw. außenstehender). Als Q4_k_xl sinds 77gb, falls der Platz für Kontext sonst fehlt (es soll wohl immer noch der bessere weg sein ein Model mit mehr Parametern stärker zu quantisieren als eines mit weniger zu nehmen, auch solls besser sein das Model stärker zu Quantisieren als den KV Cache stärker zu Quantisieren).

Nunja, so auf jeden Fall die Frage, wie man das am besten anstellt. Die Speicherbandbreite ist in dem Fall wohl nicht sooo der Dealbreaker, wobei ich da noch mehr probieren muss.

Möglicherweise ist es schlauer die AI in so ein Standalone Mobile-Chipset auszulagern (Spark, Intel Mobile Ultra, AMD AI max) und nicht im eierlegenden Wollmilchserver zu integrieren.
Kostet halt momentan 3-4k sowas mit 128gb, meh.

edit:

Haldi schrieb:
Wie sieht das jetzt mit Videos aus? benötigen die auch extrem viel RAM? Oder wird eh alles 720p gerendert und hochskaliert?

Braucht von allem Viel. Bei WAN arbeitest du mit High-Noise und Low-Noise Modellen, dass das alles in den VRAM passt und dort liegen bleibt ist eher unwahrscheinlich, eine richtig schnelle SSD wäre gut (Gen 5 Raid 0 aus 2 oder so).
Du bist halt immer am Rum laden, weil Text Encoder (LLM), VAE und die Modelle (Base, Highspeed Lora usw.) alle recht groß sind..
LTX ist ganz interessant, da geht schon mehr, inklusive Ton.

Ist aber alles nicht ganz einfach und gerade auf ner AM4 Plattform mit ner Gen 4 SSD ist das lame. Leider werden real nicht die Geschwindigkeiten der Benchmarks erreicht, warum auch immer das so ist. Ein 16gb Model ist leider nicht in 2 Sekunden geladen. Es geht halt doch relativ viel Zeit drauf beim Rumspielen, obwohl die HW nicht schlecht ist.

Ich denke, dass img2vid ähnlich arbeitet wie ne Kette aus img2img, immer mit dem vorherigen img als Start und so eine Folge an Bildern generiert wird. Zumindest ist der Leistungsbedarf ähnlich.

asm@s24 · 01.06.2026

pwnbert schrieb:
So Kinder, weiter im Text.

Auf welchem/n OS läuft das alles bei Dir?

pwnbert · 01.06.2026

Windooze, atm... auf der Workstation daheim mit 10, am Laptop mit 11.
Wobei das wohl nicht die richtige Wahl ist, aus unterschiedlichen gründen, unter Windooze ist die Dependency Hell gefühlt nochmal schlimmer, wobei ich versuche alles als portable zu installieren.

Ich hab leider so viele Baustellen zur Zeit, dass ich hier etwas fest hänge, ich muss mich etwas um den Server/NAS kümmern, damit alles etwas weniger Endgerät-lastig wird, dann isses einfacher.

asm@s24 · 01.06.2026

pwnbert schrieb:
Ich hab leider so viele Baustellen zur Zeit

Dieses "zur Zeit" hört bei mir vermutlich nie mehr auf ... :grrr:

Jo, Windows hab ich schon befürchtet. Hab es versucht unter PVE mit Ryzen iGPU durchreichen an LXC und Ollama mit Vulkan. Sieht auch technisch ok aus, crasht dann aber beim ersten prompt. Und da liegt's brach seit ein paar Wochen.

Mache vl. heut mal wieder einen Test, gab ja etliche Kernelupdates, wer weiß ...

pwnbert · 02.06.2026

asm@s24 schrieb:
Hab es versucht unter PVE mit Ryzen iGPU durchreichen an LXC und Ollama mit Vulkan

So, junger Padawan, ich spiele mich grad auf Windooze 11 mit ollama, libre webui und docker rum samt der gratis Google KI Suche als Hilfe.
Es ist wohl so, dass ollama in Docker nicht auf die iGPU zugreifen kann bzw. der Passthrough Kram nicht wirklich sauber unterstützt wird, gibt zwar paar inoffizielle images und so (also zumindest für den Intel Kram hier), die Empfehlung ist aber, ollama lokal laufen zu lassen.

Nun, obs ne Option ist ollama einfach direkt auf Proxmox zu installieren?

Code:

curl -fsSL https://ollama.com | sh

asm@s24 · 02.06.2026

pwnbert schrieb:
Nun, obs ne Option ist ollama einfach direkt auf Proxmox zu installieren?

Hehe, warum eigentlich net. Bei Gelegenheit probier ichs. :bigok:

Meine aktuelle Baustelle ist grad k3s. 😓

buzzzer · 03.06.2026

Ist das hier "unser" LLM Thread? Falls nicht sorry fürs reingrätschen.
Ich habe eine 7900XTX gekauft um damit lokal herumzuspielen. 32GB DDR5 RAM und ein Netzteil hab ich noch da.

Gibt es bezogen auf lokale KI einen Vorteil bei Intel 1851 oder AM5. Evtl. wegen der Speicher Anbindung oder so?

Ich würde dann einfach wieder Proxmox installieren und dort ollama laufen lassen wollen. Oder gibt es schon ein KI Linux oder sowas?

pwnbert · 03.06.2026

buzzzer schrieb:
Ist das hier "unser" LLM Thread? Falls nicht sorry fürs reingrätschen.

Jein, ich würde sagen, unser "wie bekomm ich das LLM am Server zum laufen", gibt ja ein Unterforum für AI Zeugs, finde aber, dass die Art der Implementierung im Homelab hier her gehört.

buzzzer schrieb:
Ich habe eine 7900XTX gekauft um damit lokal herumzuspielen. 32GB DDR5 RAM und ein Netzteil hab ich noch da.

Aufpassen, neben dem Modell muss noch noch der KV Cache (quasi der Arbeitsspeicher, der benötigt wird, damit das Modell laufen und "denken" kann anhand der Grunddaten, die das Modell selber hat)in dem VRAM, typischer Anfängerfehler. Heisst also, deine Modelle sollten etwa 50-75% Größe des VRAM haben bei dir, also 12-18gb, ich würde mit Gemma/Gwen/Mistral beginnen im Bereich grob 25-30b, quantisiert auf eine entsprechende Größe (ist ein eigenes Thema). Ich tät mitm UD_Q_4_K_XL von Unsloth beginnen ( https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF ), imho ist das erstmal ganz okay (ohne das jetzt genauer auszuführen).

buzzzer schrieb:
Gibt es bezogen auf lokale KI einen Vorteil bei Intel 1851 oder AM5. Evtl. wegen der Speicher Anbindung oder so?

Jein, bei Intel ist ggf. die iGPU ganz interessant.
Allgemein ist die Sache so, gerade beim rumspielen, dass man eigentlich schnellen SSD Speicher will, zum Laden der Modelle (wenn du häufiger Modelle wechselst). Was jetzt "schnell" ist, ist ne andere Sache (ob nun Gen4, Gen5, Gen5 Raid 0...).
Ich würde das ProArt B850 Creator wollen (weil da ein sinnvoller DualGPU Betrieb möglich ist und man 2x Gen5 M.2 hat). Ist halt vom Preis her happig.
Realistisch tuts jede Kackplattform, irgend ein aberanztes AM4/1200/1700 System tuts genau so am Ende.

buzzzer schrieb:
Ich würde dann einfach wieder Proxmox installieren und dort ollama laufen lassen wollen. Oder gibt es schon ein KI Linux oder sowas?

Ist alles Pain in the Ass, am Ende gehts in dem Thread aber genau darum.

tl,dr:
Such irgend eine halbwegs flotte SSD (die auch nicht zu klein ist, die Modelle sammeln sich schnell auf der Festplatte) und irgend ein Host-System, kann gern irgend ein Bestand sein.
Wenn du was kaufen musst, überleg dir, was du kaufst, damit eine "Nachnutzung" auch noch sinnvoll möglich ist.
245k + Intel B-Board wäre z.B. sowas, fürn Alltags-PC ist das eine super Basis.
AMD geht auch, würd aber nur was mit iGPU nehmen... ist halt die Frage, wie ernst dir das alles ist (B850 Pro Art Creator + 9900X/9950X hat over all ein nettes P/L und bietet ne vielseitige Zukunft, ist aber schon eher hochpreisig im Vergleich).

Mir fehlt @Desktop die iGPU etwas beim 5900X, wsl. wäre es in dem Fall smoother die iGPU als primäre GPU zu verwenden, so dass der ganze Render vom Betriebssystem und diverses Hardware-Offloading darauf läuft (was du remote ja nicht so hast, das Thema).

Trotzdem würd ich nix ohne iGPU kaufen.
Thema iGPU, Intel kann wohl SR-IOV auf der iGPU (konnte ich nie testen).

Bei Intel ist das billigste Dual-GPU Board das (NanoKVM/JetKVM oder so für Fernzugriff wenn nötig):

GIGABYTE Z890 Aero G ab € 279,00 (2026) | Preisvergleich Geizhals Österreich

✔ Preisvergleich für GIGABYTE Z890 Aero G ✔ Bewertungen ✔ Produktinfo ⇒ Formfaktor: ATX • Sockel: Intel 1851 (LGA1851) • Chipsatz: Intel Z890 • CPU-Kompatibilität: Core Ultra 20… ✔ Mainboards ✔ Testberichte ✔ Günstig kaufen

geizhals.at

Oder mit IPMI:

https://geizhals.at/?cat=mainboards&xf=2833_Intel%201851~2873_ab%202~4589_IPMI-Switch&pagesize=30&sort=p&promode=true

245k reicht imho eigentlich, der hat schon die "beste" iGPU, 270k hat halt mehr Cores, mehr €..

Musst du wissen was es kosten darf, ein B350 Mainbaord mit einem Ryzen 1600 reicht am Ende auch zum probieren.

pwnbert · 03.06.2026

Nachtrag:

Die Sache ist eher Softwarekrieg als Hardware, Hardware ist vergleichsweise "einfach",
Du brauchst nur ein Mainboard mit nem Schlitz um die GPU rein zu stecken. :fresse:

CPU brauchst eigentlich nur, damit das Ganze auch irgendwie läuft. Würde aber was mit iGPU nehmen, damit du die GPU im Zweifel dem Host "wegnehmen" kannst.
RAM weiss ich nicht, da ich zum Glück im (DDR4) RAM Überfluss lebe (ist leider auchder einzige Überfluss, lol). Hab 64gb unter Windooze auch schon voll bekommen (kurzzeitig überlegt weitere 64 ausm Backup Server reinzumachen statt den RGB Dummies lol). Imho müstse da aber auch mit RAM < VRAM laufen (sprich mit 8 oder 16gb). Inwiefern das Modell direkt von der SSD in den VRAM geladen werden kann, weiss ich nicht, kA obs da mit zu wenig RAM starke Tempoverluste gibt. Fakt ist, dass RAM als VRAM Erweiterung (fast) nichts bringt, weil ein Swapping extram langsam ist (ähnlich wie RAM zu Dreh-Festplatte Swapping früher als es keine SSDs gab).

Steck dir irgendwas zusammen, was da ist, wenn was da ist.
Wenn du neu kaufen musst überleg gut, dass das Zeug entweder "abgeschrieben" ist oder sonst irgendwie sinnvoll verwertbar (z.B. als Gaming PC oder Office PC).

Pro-Tip:
Du wirst dir viel online KI Hilfe holen, auch wenn dus bisher nicht getan hast.
Pass auf, zumindest die Google gratis KI (in der Suche) arbeitet viel mit veralteten Daten, empfiehlt dir irgendwelche GITs die outdated sind oder sagt dir Speicherpfade, Dateinamen etc. aus 2024/2025 Versionen, beim Hinweis dann "och ups".
Claude hab ich noch nie getestet (kA ob da auch gratis was geht), sollt ich mal machen, soll aber ziemlich das Beste sein.

Also wenn du die KI fragst, frag dann immer nach, ob das jetzt aktuell immer noch so ist, oder ob sich was geändert hat.

Allgemein braucht man ganz gute Nerven dafür imho.

buzzzer · 03.06.2026

Vielen Dank für die sehr ausführliche Antwort.

Ich habe in den letzten Wochen schon ein wenig herumprobiert. LXC mit OpenWebUI auf meinem Proxmox Server und via Ollama die 5080 von meinem GamingPC genutzt. Das hat mich aber genervt, dass ich den immer laufen haben musste. Da habe ich gelernt was context / KVCache bedeutet. Am Start ballert man halt direkt ein 14GB Model in die 16GB VRAM und wundert sich dass alles ultra lange dauert

Dabei habe ich auch Gemini (habe das kleinste Abo) und ein wenig Claude genutzt. Das ist auch nicht immer das Gelbe vom Ei. Gemini muss man aber irgendwie immer aufpassen. Der erzählt echt viel Unsinn. Das Thema ist da auch egal. Aber vielleicht frage ich auch falsch.

Modelle und Quantisierung würde ich auch nach Q4_K oder MXFP4 schauen. Nervt halt das es dann soviel Varianten von einem Modell gibt. Alleine da das richtige zu finden ist die Kunst. Darum schonmal danke für den Tipp des Unsloth gemma models.

Bei der Hardware würde ich jetzt erstmal nicht auf Dual GPU oder IPMI schauen. Wenn Dual GPU dann würde ich wohl direkt 2xAI Pro r9700 kaufen.
Es soll schon DDR5 sein, da ich den halt noch habe. iGPU sollte rein klar. Aber ob nen 245K oder ein 8500G weiss ich auch nicht.
Möglich ist, dass ich beim herumspielen merke, dass ich da keinen Bock drauf habe. Dann soll die Graka natürlich weg. Die andere Kiste brauche ich nicht, aber nunja es wird einem schon was einfallen.

edit: Ich hab jetzt nochmal bisschen geguckt, nach gebrauchten Workstations und neuen AM4, AM% und Intel 1851. Kann mich schlecht entscheiden.

Haldi · 04.06.2026

asm@s24 schrieb:
Meine aktuelle Baustelle ist grad k3s. 😓

Mein Beileid.

asm@s24 · 04.06.2026

Na ja, kommt schon. :cool:

Jetzt brauch ich ja nur noch Longhorn, Traefik, MetalLB, Tailscale, vl. ArgoCD, und dann kann's ja losgehen mit AI-on-K8s ... :hust:

Bigdog71 · 04.06.2026

@asm@s24

Ich empfehle dir Cilium, da brauchst du kein Metallb und Traefik mehr acht bei mir Netzwerk, Load Balancer und Gateway API als Ingress Ersatz).

Und am Ende willst du sowas?

K8s auf einem Proxmox Server, ein Master und 2 Worker Nodes. Ein Worker hat ne Tesla P4 mit 8Gb VRAM durchgereicht.
Time Slicing über den Nvidia GPU Operator.

Hauptsächlich für Whisper und Piper (Home Assistant Voice), aber auch Jellyfin und eben Ollama. Da läuft gerade das kleine qwen3.5:4b was meine OpenClaw VM als Chat Agent bedient, der dann meinen anderen PC anschalten kann der ne Nvidia P40 und Gemma4 26b hat. Also nur bei Bedarf die große Grafikkarte.

Ich bräuchte einfach ein Epyc, Xeon oder Threadripper mit genug PCIe lanes :fresse:

pwnbert · 04.06.2026

buzzzer schrieb:
Bei der Hardware würde ich jetzt erstmal nicht auf Dual GPU oder IPMI schauen. Wenn Dual GPU dann würde ich wohl direkt 2xAI Pro r9700 kaufen.

1 GPU macht halt nur 32 und das ist schnell zu wenig, merk ich mit 5090 hier, dass man irgendwie gern mehr hätte, zumindest, wenn mans halbwegs ernst meint.
Drum überleg ich Richtung b70 oder irgendwas mit unified Memory, aber ka noch, soo wichtig is grad nicht. 1x b70 ist halta uch mager trotz allem.

Die Möglichkeit würd ich ernsthaft in Betracht ziehen, wenn man schon neu kauft und auch Geld ausgibt. Sind ca 100€ Aufpreis beim MB, das geht imho eigentlich.
Ich häng hier auf DDR4/AM4, gäbe nur ultra teure X570 Bretter, ich werd wohl bei ner Single GPU Lösung bleiben (müssen) oder überhaupt was anderes machen, mal sehn, mal sehn.

Wenn du schon Geld ausgibst überleg dir gut, ob du die Option nicht mitnimmst.

buzzzer schrieb:
Es soll schon DDR5 sein, da ich den halt noch habe. iGPU sollte rein klar. Aber ob nen 245K oder ein 8500G weiss ich auch nicht.

Wenn 8600G, wegen PCIe Lanes, die können aber wieder kein PCIe 5, das ist scheiße, eher nen "normalen", hat ja auch ne iGPU.

Für mich sieht der 245k am Dual-GPU Z890 Brett sinnvoll aus.
Oder halt 270k Plus weil die 150€ auch schon egal sind? Viel Spaß beim Eskalieren lol.

I Pro r9700 ist besser als Intel B70 Pro?

asm@s24 · 05.06.2026

Bigdog71 schrieb:
Ich empfehle dir Cilium

Und dann mit / auf Talos? Wird ja auch viel genannt.

Bigdog71 schrieb:
Und am Ende willst du sowas?

Was heißt wollen, das kommt doch dann automatisch so. :hust:

Und ein Ende wird es eh nie geben ... :hmm:

Die kommenden AMD-Maschinen Gorgon Halo kosten wohl >4k. Da drauf kann man doch im Ernst kein Windows laufen lassen. :grrr:

Also wohin geht das. Klassischer HyperVisor oder Bare Metal K8S.

Na ja, ich muß erst mal noch etwas die Grundlagen erarbeiten, im klassischen Sinn erfahren. Führt kein Weg dran vorbei.

Bigdog71 schrieb:
Also nur bei Bedarf die große Grafikkarte.

So was in der Art stell ich mir auch noch vor.

Bigdog71 schrieb:
Ich bräuchte einfach ein Epyc, Xeon oder Threadripper mit genug PCIe lanes

Ich hab noch den X13SEM mit 5416S und 256GB aber ohne GPU. Als ESXi begonnen, jetzt ist es halt PVE. Aber eigentlich ist mir der zu groß, läuft eher wenig. Kein Plan derzeit, ob ich den noch sinnvoll nutzen kann. :confused:

Bigdog71 · 05.06.2026

Die Frage ist was man erreichen will.

Talos habe ich mal versucht, ist wirklich Klasse, aber mit GPU war es mir etwas zu aufwendig (wegen der Einbindung der Treiber).

Mein Server läuft 24/7, dafür habe ich keine Cloud Abos und histe halt alles lokal.

Kubernetes selbst ist auch etwas zickig wenn man es komplett runterfährt, einzelne Nodes sind kein Problem.

Ich habe mir viel Gedanken gemacht, aber immer erst den Server hochfahren bis was geht hätte genervt. Aktuell bin ich Recht zufrieden, per Befehl an Clawy (mein OpenClaw Agent, der mit dem kleinen Modell läuft), wird der andere PC mit der größeren GPU hochgefahren, Ollama im Docker Container startet, damit kann ich dann leben.

Wenn du dem X13SEM einfach eine Grafikkarte spendierst, dann kannst du ja einfach mal testen. Vielleicht erstmal ne separate VM oder dann später mit Kubernetes (wobei das hauptsächlich sinnvoll ist, wenn du die Grafikkarte mehreren Services zur Verfügung stellen willst).

pwnbert · 06.06.2026

Also... eigentlich sollte LXC Docker auf Proxmox gehen von wegen Hardwarezugriff.
Hab mir mal ein Mint installiert am MC12 (bare metal) mit nem 5650G, das MC12 kann 16gb VRAM damit machen.
Hab dann jan ai installiert (mal einfach) und das default 4b Modell geladen.

Hat erstmal (natürlich) keine iGPU verwendet (weil alt und bla).
Etwas

Schritt 2: Berechtigungen unter Linux setzen
Damit Ihr Benutzeraccount überhaupt direkten Zugriff auf die Hardwarebeschleunigung der Grafikeinheit hat, müssen Sie in den Gruppen render und video sein. Öffnen Sie ein Terminal und geben Sie ein: [1, 2]

bash
sudo usermod -aG video,render $USER

später gings dann, nachdem ich in jan unter llama.cpp "vulkan-linux-x64" ausgewählt hab.

Ist eigentlich okay, die popeligen 12 token/s.
Mit E2B macht die 5090 auch nur 200, dieses Jan 4B hab ich grad nicht hier.
Ziel der Übung war zu sehen, obs auf der Hardware überhaupt läuft und obs überhaupt auf der iGPU läuft.

Werd demnächst mal schauen das unter Proxmox hinzubekommen, LXC + Docker wäre die Überlegung, bin für zweckdienliche Hinweise dankbar.

buzzzer · 07.06.2026

pwnbert schrieb:
1 GPU macht halt nur 32 und das ist schnell zu wenig, merk ich mit 5090 hier, dass man irgendwie gern mehr hätte, zumindest, wenn mans halbwegs ernst meint.
Drum überleg ich Richtung b70 oder irgendwas mit unified Memory, aber ka noch, soo wichtig is grad nicht. 1x b70 ist halta uch mager trotz allem.

Hm, das macht mir Angst. Ich habe jetzt viel gelesen, dass 24GB ein Sweetspot sein soll. Daher hab ich ja die 7900XTX gekauft um damit zu starten.

pwnbert schrieb:
Für mich sieht der 245k am Dual-GPU Z890 Brett sinnvoll aus.
Oder halt 270k Plus weil die 150€ auch schon egal sind? Viel Spaß beim Eskalieren lol.

Ich wolte auf das Z890 Aero G und einen 250k gehen (ABER siehe unten).

pwnbert schrieb:
I Pro r9700 ist besser als Intel B70 Pro?

Was ich so gelesen habe, ist es einfacher die zum Laufen zu bekommen, gerade bei Dual Setups.

ABER:
Ich frage mich gerade wie sinnvoll es ist, auf einen Server mit mehreren GPUs zu gehen. Egal ob nun 2 B70 oder 2 Radeon 9700. Mit 3k ist man dabei.
Ein DGX Spark kostet aktuell 3,6k.
unseriöser Vergleich

Was ist der Sweetspot für Modelgröße und Token/s?

pwnbert · 07.06.2026

buzzzer schrieb:
Ich habe jetzt viel gelesen, dass 24GB ein Sweetspot sein soll.

Sweetspot wofür? Mehr ist immer gut.
Ja, für den Preis, weil die Preise gaga sind, Arc B60 mit 24gb ist mit 700€ ganz fair, XTX ebenso im Rahmen, wobei die B70 mit ihren 32gb ... naja.. je nach dem.

buzzzer schrieb:
Was ich so gelesen habe, ist es einfacher die zum Laufen zu bekommen, gerade bei Dual Setups.

Wie alt ist die AMD? Bei AMD wär ich bissl skeptisch, Intel hat imho gute Treiber, kann SR-IOV und so, aber hab (noch) keine.

buzzzer schrieb:
Was ist der Sweetspot für Modelgröße und Token/s?

Imho ist beim LLM Token/s nicht so das Thema.

spyfly · 07.06.2026

buzzzer schrieb:
Was ist der Sweetspot für Modelgröße und Token/s?

Das hängt von deinem konkreten Anwendungsfall ab.

Wenn man die Modelle für Agentic AI Workflows nutzen soll wo die AI halbwegs selbständig an der Lösung von Problemen arbeitet, setzt man auf Modelle wie z. B. Minimax M2.5 oder Kimi K2.6.

Selbst für ersteres Modell ist ne einzelne DGX Spark schon knapp, mit paar Tweaks bekommt man das aber ggf. sogar zum laufen.

Das beantwortet jetzt sicherlich auch die Frage wieso die Mac Studio M3 Ultra in der 128, 256 und 512GB Konfiguration ausverkauft sind :fresse2:

pwnbert · 07.06.2026

Ja ist halt die Sache, an den Unified Memory Dingern kommt man wohl kaum vorbei. Das Qwen mit ~120b sinnvoll quantisiert soll z.B. toll sein und in die 128er Unified Gurken passen, so dass noch etwas KV Cache bleibt. Soll deutlich mächtiger sein als die +/-30b Modelle.

The ⁠NVIDIA GeForce RTX 5090 offers ~419 TFLOPS of peak FP16 compute, or 419,000 FP16 TOPS. In contrast, the ⁠AMD Ryzen 5 PRO 5650G's integrated Radeon Vega graphics peak at around 1.7 TFLOPS (1,700 FP16 TOPS) for mixed-precision math.This makes the RTX 5090 roughly 246 times more powerful in raw half-precision floating-point compute than the 5650G's integrated graphics

Jetzt isses aber so, dass meine 5090 hier irgendwie nicht 250x so schnell wie der 5650G ist (10-12 token/s, eher 20x so schnell (200-250 token/s mitm gleichen jan 3.5 4b q4km model), vielleicht ändert sich das bei größeren Modellen und so, wer weiss das schon?
Der Laptop mit dem Intel Ultra (und 32gb RAM) ist auch nicht soo langsam.

Imho ist beim LLM VRAM > Rechenleistung (im gewissen Rahmen).

24gb "Sweetspot", naja, noch verwendbar quantisierte ~30b Modelle kommen auf 16-22gb, bissl Platz für KV bleibt dann noch, insofern würd ich sagen "noch brauchbar".

Beitrag automatisch zusammengeführt: 07.06.2026

buzzzer schrieb:
Hm, das macht mir Angst. Ich habe jetzt viel gelesen, dass 24GB ein Sweetspot sein soll. Daher hab ich ja die 7900XTX gekauft um damit zu starten.

Mach dir nix draus, starte mal mit der XTX, jetzt ist sie da (was hast gezahlt?), die Stolpersteine sind wo anders (Software).

Wenn du schon Geld hinlegst, leg die paar € mehr hin fürs Dual-GPU Mainboard, wer weiss, wofürs gut ist. Am Ende isses auch nur 50€ teurer als andere "brauchbar ausgestattete" Z890, mit denen man nen Gaming-PC bauen würde. Es spricht imho auch nix gegen 2 unterschiedliche GPUs, auf einer Text2Speech laufen lassen z.B. oder Text2Img oder wasweissichwas, auf der anderen LLM, ob das nötig ist ist ne andere Frage, aber ich tät die Möglichkeit mitkaufen.

buzzzer · 08.06.2026

spyfly schrieb:
... setzt man auf Modelle wie z. B. Minimax M2.5 oder Kimi K2.6.

Gut die sind mir dann auch erstmal zu groß. Son MaxiMax

werde ich wohl erstmal nicht brauchen.

pwnbert schrieb:
Mach dir nix draus, starte mal mit der XTX, jetzt ist sie da (was hast gezahlt?), die Stolpersteine sind wo anders (Software).

Wenn du schon Geld hinlegst, leg die paar € mehr hin fürs Dual-GPU Mainboard, wer weiss, wofürs gut ist. Am Ende isses auch nur 50€ teurer als andere "brauchbar ausgestattete" Z890, mit denen man nen Gaming-PC bauen würde. Es spricht imho auch nix gegen 2 unterschiedliche GPUs, auf einer Text2Speech laufen lassen z.B. oder Text2Img oder wasweissichwas, auf der anderen LLM, ob das nötig ist ist ne andere Frage, aber ich tät die Möglichkeit mitkaufen.

Hab die XTX für 630€ über Kleinanzeigen bekommen.
Werde jetzt mal den 250K und das Aero G bestellen und lege damit los.

pwnbert · 08.06.2026

Ist jetzt aber auch kein geiler Deal, eine nagelneue Arc B60 Pro bekommst ab ca. 700€. Egal, das Ding ist da, also mach was damit.

Grad geschaut, Minimax M2.5 ist als Q4KM immer noch 140gb groß, also braucht man da eigentlich ein System mit 256gb Unified. :fresse:

Läuft noch nicht mal auf den ganzen 128gb Gurken, die man ja noch irgendwie bekommt.

Hab gestern noch etwas rumgeeirt mit ollama und open-webui in LXC/Docker, bin dann am Ende am Model Upload gescheitert, bin dann pennen gegangen (viel zu spät).

Wobei ich etwas ins zweifeln komme, ob ollama das passende Backend ist.

pwnbert · 09.06.2026

Okay, ollama dürfte eher scheiße sein, ich glaub, man will ein anderes Backend. Muss mir das noch genauer ansehen.

Habs auf jeden Fall nicht geschafft in nem LXC mit Docker und dort dann ollama und open-webui die iGPU vom 5650G zum laufen zu bekommen (gut, die ist auch alt... aber mit jan.ai am Blech rennts ja auch).
Docker/ollama dürfte das nur mit NV können, steht zumindest irgendwo im Portainer drin, diese Info.

Werd dann morgen noch ollama im LXC installieren, zwecks Versuch und so.

Werd mich dann aber trotzdem nach nem anderen Backend umsehen.

asm@s24 · 09.06.2026

pwnbert schrieb:
Werd dann morgen noch ollama im LXC installieren, zwecks Versuch und so.

Da bin ich mal gespannt. Versuch ich seit Wochen mit einer 780M iGPU (Ryzen 7 255). Das sieht rein formal auch ok aus mit Vulkan:

Aber beim ersten Prompt, egal was, crasht es immer:

Ich schätze, irgendwas mit der ressource allocation geht schief. Mit "CPU" läuft es.
Weiß auch net, wo "Size 10 GB" herkommt. Ob ich irgendwo auf dem LXC oder im ollama.service das vorher einstellen muß, damit es auch funktioniert.

Code:

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"
Environment="OLLAMA_VULKAN=1"
Environment="GGML_VK_VISIBLE_DEVICES=0"

[Install]
WantedBy=default.target

pwnbert · 09.06.2026

asm@s24 schrieb:
Da bin ich mal gespannt. Versuch ich seit Wochen mit einer 780M iGPU (Ryzen 7 255). Das sieht rein formal auch ok aus mit Vulkan:

Diese gut, 100% GPU hab ich mit ollama im Docker noch nicht geschafft (bare metal am MC12 jedoch schon, wobei das jan.ai war, was imho nicht ollama sondern direkt llama.cpp verwendet, allerdings per Vulkan, nicht mit ROCm).

asm@s24 schrieb:
Ich schätze, irgendwas mit der ressource allocation geht schief. Mit "CPU" läuft es.

Mit CPU wars im Docker so langsam, dass es nicht zu glauben war (hab dem ganzen LXC aber auch nur 2 Cores gegeben und evtl. zu wenig RAM, bare metal wars mehr).
Bare Metal mit CPU isses halbwegs gelaufen (evtl. wirklich RAM, wenn ich drüber nachdenke), dafür, dass es nur auf CPU war eigentlich überraschend "okay".

Ein Punkt wäre, dass dynamischer VRAM wohl schief gehen kann, speziell mit ollama, kein Plan inwiefern das dynamisch ist oder fix, beim 5650G stelle ich ihn noch fix ein im Bios (max. 16gb).

asm@s24 schrieb:
Weiß auch net, wo "Size 10 GB" herkommt. Ob ich irgendwo auf dem LXC oder im ollama.service das vorher einstellen muß, damit es auch funktioniert.

Imho ist das die Größe vom Modell + KV Cache +/- ungefähr. Wenn das ein Mistral 7b ist, hat das als Q8 ca. 8gb, mit ein bissl Overhead und Aufrundung bist auf deinen 10gb.
Meiner Erfahrung nach passt das so, wenn ich entsprechende Modelle lade (mit den 16gb eher kleineres, also gemma 4 e4b, gemma4 12b, granite 8b...) ist der Wert immer im "richtigen" Bereich wie schon beschrieben.

Nicht überreizen, ollama soll wohl auslagern, wenns "zu viel" wird, wird angelbich zu großzügig berechnet (viel Platz für KV Cache), deshalb sollte man keine zu großen Modelle laden (also eher Richtung 50-60%). Was dran ist, weiss ich nicht. Geholfen hats nicht, lol.

asm@s24 · 09.06.2026

Yess, so geil. :bigok:

Wie immer in der IT. 💻💥 Wochenlang hängt man fest, dann kommt einfach so die Erleuchtung.💡Bin noch mal die LXC-Settings durch und da ist mir aufgefallen, daß ich bei dev0 für mode nur default drin hatte (=0660) und das war wohl zu wenig:

Das folgende interpretier ich jetzt so, die Radeon hat 2 GB Memory:

Jetzt müßt ich vielleicht im BIOS nachsehen, ob ich da 'ne Einstellung zu find und die zufällig grad auf zwei steht und ob ich da mehr geben kann, oder.

MrWahoo · 09.06.2026

Vielleicht für den ein oder anderen interessant: Canonical hat für für Ubuntu 26.04 einiges getan und bietet ollama als snap inklusive ROCm und den gängigen Schnittstellen an. Für DAUs wie mich an Einfachheit nicht zu überbieten und theoretisch auch für jedes Linux so nutzbar. Ich weiß, dass bei dem Wort "Snap" schon einige Schnappatmung bekommen, aber für andere mag das ja trotzdem ein gangbarer Weg sein - eben aufgrund der Einfachheit.
Jedenfalls habe ich mich für einfache Experimente eher an den Weg gehalten, den ich vor ein paar Monaten auf ServeTheHome gefunden habe, wo ich statt VM oder Container dann einen solchen Dienst nativ auf Proxmox laufen lasse, damit alle ungenutzten Ressourcen im Zweifelsfall genutzt werden können. Wir sprechen in diesem Unterforum ja auch hoffentlich von keinen Produktivumgebungen, sondern eben HomeServern. Da finde ich das tatsächlich gar nicht so dumm. Alternativ könnte man sich natürlich auch mal die Container-Variante mit dem Snap-Template anschauen.
Als nächstes wollte ich jedenfalls mal die 128 GB RAM aus meinem PC in die Bastelkiste mit 8845HS stecken und schauen, was da so rüber kommt.

Neuer AI-Server

Profi

Legende

Legende

Profi

Legende

Profi

Legende

Profi

Enthusiast

Legende

Legende

Enthusiast

Enthusiast

Profi

Profi

Legende

Profi

Profi

Legende

Enthusiast

Legende

Enthusiast

Legende

Enthusiast

Legende

Legende

Profi

Legende

Profi

Motivator