Neuer AI-Server

pwnbert · Dienstag um 16:28

asm@s24 schrieb:
Jetzt müßt ich vielleicht im BIOS nachsehen, ob ich da 'ne Einstellung zu find und die zufällig grad auf zwei steht und ob ich da mehr geben kann, oder.

Beim MC12 isses irgendwo Advanced ➔ AMD CBS ➔ NBIO Common Options ➔ GFX Configuration, irgendwo musst außerdem beim UMA Framebuffer oder so von Auto wegschalten auf irgendwas mit fixed, musst bissl suchen, is bissl teif vergraben.
Sag dann, wie viel bei 8000er geht, ob er 32gb kann oder so.

MrWahoo schrieb:
Vielleicht für den ein oder anderen interessant: Canonical hat für für Ubuntu 26.04 einiges getan und bietet ollama als snap inklusive ROCm und den gängigen Schnittstellen an. Für DAUs wie mich an Einfachheit nicht zu überbieten und theoretisch auch für jedes Linux so nutzbar. Ich weiß, dass bei dem Wort "Snap" schon einige Schnappatmung bekommen, aber für andere mag das ja trotzdem ein gangbarer Weg sein - eben aufgrund der Einfachheit.

https://www.jan.ai/

Stressfrei mit llama.cpp als Backend fix integriert. Kann halt (noch) keine Voice-Ausgabe direkt und so, musst schauen, obs dir reicht, ist aber ganz nice, hat gute tools onboard (webfetch, websearch) und ist ganz nice zu bedienen. Dafür brauchts kein Canonical.

Sobald du halt weg vom Blech bist, isses schwieriger, vor allem, wenn du es remote verknüpfen magst und so.

pwnbert · Mittwoch um 20:50

Neues von der 32gb GPU Front...

buzzzer schrieb:
Bei der Hardware würde ich jetzt erstmal nicht auf Dual GPU oder IPMI schauen. Wenn Dual GPU dann würde ich wohl direkt 2xAI Pro r9700 kaufen.

Die Arc B70 pro wird irgendwie immer teurer, weit isses zur Radeon 9700 nicht.
Leider gibts keine leistbare 48gb Variante der Radeon, nur um ca. 2k eine der alten Generation, das will man wsl. nicht.

Meine aktuelle Recherchelage sagt, dass angeblich die Radeon sparsamer ist im idle (auch wenn sie mehr TDP hat).
Und angeblich ist das Problem, dass ein "LLM idle", also idle mit geladenem Modell im VRAM, die Intel sehr viel Strom brauchen soll, weil sie nicht mehr in einen Sleep geht, die AMD geht angeblich in nen Sleep und braucht viel weniger Strom.

Insofern ist das wohl gegen die Intel und für die AMD.
Es ist wohl auch ROCm gar nicht so übel und evtl. einfacher als Intel, da bin ich mir aber noch nicht sicher.

asm@s24 · Mittwoch um 23:11

pwnbert schrieb:
... musst bissl suchen, is bissl teif vergraben.

Ging recht schnell zu finden. Jetzt mal 6G eingestellt.

pwnbert schrieb:
Sag dann, wie viel bei 8000er geht, ob er 32gb kann oder so.

Ich hab 780M iGPU (Ryzen 7 255). 16G ist da Max.

pwnbert schrieb:
... die AMD geht angeblich in nen Sleep und braucht viel weniger Strom.

Das kann ich bestätigen. Wenn Ollama:gemma3 z.B. arbeitet, braucht die 780M 50W, wenn auf einen Prompt gewartet wird, noch 17W-20W.

pwnbert · Donnerstag um 00:13

Naja, iGPU und dicke GPU ist doch nochmal was anderes... aber ja... ist immerhin RDNA3, nice, wenns geht.
Was willst mit 6G? Da hast ja selbst beim 4B Q4kM Modell keinen Platz für Kontext?

Storytime: Bei meinem 2. Anlauf habe ich nun ein LXC (priv.) erstellt mit llama.cpp drin, hab mich von Claude (free) durch führen lassen (sollte so gehn, bin mir aber noch nicht 100% sicher, Test folgt noch).
Open-WebUI kommt per Docker in ein eigenes LXC (unpriv.), da lass ich mich jetzt vom lokalen "gemma-4-31B-it-Claude-Opus-Distill-v2.q5_k_m.gguf" als Q5kM durchführen, bisher klappt das ganz gut. ( https://huggingface.co/TeichAI/gemma-4-31B-it-Claude-Opus-Distill-v2-GGUF ), geht bisher besser als Google-Free.
btw: Dockge gefällt mir am ersten Blick besser als Portainer

buzzzer · Donnerstag um 07:20

Heute soll das Case kommen, dann kann ich die Kiste zusammenzimmern. Werde direkt Proxmox draufhauen.
Wenn man OpenWebUI mit Ollama oder Ollama mit den CommunityScripts installiert (*keineSteinewerfen*), wird eine vorhandene Grafikkarte erkannt und die benötigten repos installiert.

Bigdog71 · Donnerstag um 07:22

asm@s24 schrieb:
Das kann ich bestätigen. Wenn Ollama:gemma3 z.B. arbeitet, braucht die 780M 50W, wenn auf einen Prompt gewartet wird, noch 17W-20W.

Hm immer noch nicht so gut wie Nvidia. Da gibt es jemanden der hat nvdia-pstated entwickelt, ein Prozess der die Karten in P8 packt, selbst mit voll geladenen VRam.

Meine P4 im 24/7 Server verbraucht 7 - 8W obwohl ca. 1,5GB VRam mit Whisper und Piper belagert sind.

Die große P40 im AI Server geht auf 10W runter obwohl 22GB Gemma4 26b geladen ist. Antwortzeiten aus dem Idle sehr schnell, da einfach direkt von P8 in P0 umgeschaltet wird.

Würde mal gerne wissen wie es mit einer AMD Radeon AI Pro aussieht (Idle mit geladenem Model).

Supaman · Donnerstag um 08:18

pwnbert schrieb:
btw: Dockge gefällt mir am ersten Blick besser als Portainer

Schau dir mal Dockhand an, das hat nicht nur ein besseres GUI, sondern auch nette Features, u.a. Update Check, Remote Anbindung mit eigenem Connector und zetrale Stacks Verwaltung.

Dockhand - Modern Docker Management

A powerful, intuitive Docker platform for everyone. Real-time container management, Compose stacks, Git deployments, and SSO - all free.

dockhand.pro

GitHub - Finsys/dockhand: Dockhand - Docker management you will like.

Dockhand - Docker management you will like. Contribute to Finsys/dockhand development by creating an account on GitHub.

github.com

Bez. LLM Modelle auf Consumer Hardware: testet mal die neuen Google QAT Modelle. Für 16GB vRam hat das Gemma 4 26b a4b sehe gute Werte geliefert.

Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency

We’re releasing Gemma 4 quantization-aware training checkpoints, reducing memory requirements and improving on-device performance.

blog.google

pwnbert · Donnerstag um 10:50

Supaman schrieb:
Schau dir mal Dockhand an, das hat nicht nur ein besseres GUI, sondern auch nette Features, u.a. Update Check, Remote Anbindung mit eigenem Connector und zetrale Stacks Verwaltung.

Spannend. Muss ich mir mal ansehen.

Supaman schrieb:
ür 16GB vRam hat das Gemma 4 26b a4b sehe gute Werte geliefert.

In dem Link existiert Gemma 4 26b a4b aber nur als "normaler" Q4 Quant:

Diese fantastische Einsparung von >50% beim "Mobile Modell" gibts hier nur bei den ganz kleinen.
Ich hab jetzt grad etwas gewühlt, ich finde kein E4B "mobile" mit ~2,5gb, ich finde nur einen Q4 Quant der ca. 3,8gb hat.
Hast du einen Link?

Fürs 26b gibts da nix "magisches"... die üblichen Unsloth Quants sind in einer ähnlichen Größe, je nach Ausführung.
Es ist aber so, dass 14,4gb "nicht" in 16gb VRAM passen, zumindest ist da kein Platz mehr für Kontext - und Kontext braucht viel, viel mehr Platz, als ich je gedacht hätte.
mEn sollte ein Modell für 16gb VRAM die 10gb nicht überschreiten, um brauchbar zu laufen...?

Ich verwende jetzt eigentlich meist Q5 Quants (ausser bei ganz kleinen Modellen Q6), im idealfall die Optimierten (XL etc., je nach dem), ist wohl meiner Recherche nach der beste Sweetspot. Q4KM ist wohl nicht schlecht absolut gesehen, beginnt aber zu Q5 schon deutlich abzunehmen (ob das nun nur in den Tests stattfindet oder real?), Q5 hingegen ist von Q6 und Q8 meist nur sehr wenig entfernt - theoretisch.

NVFP4 wäre wohl noch interessant, der Geschwindigkeit wegen, dürfte aber Nvidia only sein, insofern leider weniger interessant für den Server.
Hab eh schon kurz überlegt die 5090 in den Server zu stecken und durch eine 9070XT zu ersetzen, dann kann ich aber nimmer lokal mit img/vid rumspielen, mein Plan wär die LLM am Server zu haben und img/vid lokal. Momentan ist ne AMD AI Pro 9700 32gb für ~1450€ wohl das realistischte, dürfte wohl doch besser als die Intel sein (welche von den 950 usd uvp leider weit weg ist).

Gestern dann noch Open-WebUI zum laufen gebracht inkl. text to speach (kokoro im Docker auf CPU laufend), speach to text läuft weitgehend (whisper medium auf cpu), nur eine Funktion bugt noch (Sprachnachricht aufnehmen und senden im Browser), ist wohl ein http/https Problem, meh.

Gemma 4 12b (als Quant, Q5 oder Q6 denk ich, weiss nimmer) läuft da nun, ca. 5 token/s, was jestzt nicht ultimativ schnell ist (braucht dann 5 min für eine mittlere 1500 Token Antwort).
=> Dafür, dass der 5650G am MC12 samt RAM einfach rumgelegen ist, bin ich damit aber mehr als zufrieden, ist für mich ein toller proof of concept.

Meine Hoffnung wäre, dass die alte iGPU des Cezanne für TTS und STT schnell genug ist, dann könnte ich auf der GPU das LLM laufen lassen und auf der iGPU TTS/STT. Die Kombi würde mich sehr befriedigen.

asm@s24 · Donnerstag um 12:57

pwnbert schrieb:
iGPU und dicke GPU ist doch nochmal was anderes...

Die dicke GPU braucht auch ein dickes Stromkabel. Nicht unbedingt das, was ich fürs Home Lab anstrebe.

pwnbert schrieb:
Was willst mit 6G? Da hast ja selbst beim 4B Q4kM Modell keinen Platz für Kontext?

Ist ja vorerst alles nur Tech-Demo. Sehen, was überhaupt funktioniert. Eben iGPU im LXC z.B. Ein nächster Schritt wäre dann das Ganze im K8S.
"Auto" kann ich auch noch einstellen beim VRAM, mal sehen, was das bedeutet.

Mir fehlt noch ein use case. Hat hier jemand Ideen/Vorschläge dafür?

Das WIIFM seh ich einfach nicht, außer eben die sportliche Betätigung mit dem AI-Zügs.
Und: gemma4 liefert nur kryptischen Schrott. Das versteht noch nicht mal meine Prompts. 🤷‍♂️ Also da ist wohl irgendwas im Argen. 🙈

pwnbert · Donnerstag um 13:23

Auto soll wohl ein bissl ein Problem sein können, weil das LLM Backend evtl. zu wenig freien VRAM sieht und einfach CPU/RAM offloading macht (bzw. kein offloading in die GPU, je nach dem, wie rum man das jetzt sieht).

asm@s24 schrieb:
Und: gemma4 liefert nur kryptischen Schrott.

So richtig wilde Zeichenkombis? Lass mich raten, du verwendest ollama in Docker?
Mach llama.cpp in ein priviligiertes LXC, das sollte dann laufen.

asm@s24 schrieb:
WIIFM ... die sportliche Betätigung mit dem AI-Zügs

Naja, das is ja schon mal was, warum zockt man Games?

Für mich ist die Idee ganz reizvoll sein eigenes LLM zu haben, welches nicht unbedingt auf seiner Workstation-GPU läuft und "stört" weil man daneben nicht zocken kann, CAD mal stockt und so... und man das Zeug im Idealfall auch von anderen Geräten aus nutzen kann (naja, ob das so wichtig ist?).
Kannst halt auch LLMs nutzen die gewisse Guardrails nicht mehr haben, ob das nun sinnvoll oder wichtig ist, ist ne andere Frage.

Ist halt die Frage ob man mit einer "leistbaren" 32gb Karte langfristig happy ist... klar, die Gemma 4 26b/31b sind schon nice, die äquivalenten Qwen wohl auch (obwohl ich mit Qwen nicht warm werde)... bissl Kontext muss ja auch noch rein passen.
Wie groß der Kram in Zukunft wird...

Halt mal 1500 so aus Neugier hinlegen is halt auch ne Nummer.
Wobei, ich sehe gerade, es gibt jetzt die erste Arc B65.. langsamer als die B70 aber auch 32gb... dafür ein wenig günstiger... evtl. eine interessante Sache?
Bin mir halt immer noch nicht sicher, ob man die ARC wirklich daheim haben will.

Bigdog71 schrieb:
Würde mal gerne wissen wie es mit einer AMD Radeon AI Pro aussieht (Idle mit geladenem Model).

Jetzt habe ich genug Daten für eine fundierte Antwort. Lass mich das zusammenfassen.Hier ist die Zusammenfassung:

---

**AMD Radeon AI PRO R9700 – der klare Gewinner für Idle-Effizienz**

Nutzer berichten, dass die R9700 im Low-Power-Profil nur 1–4 W zieht, im High-Profil ca. 17 W – und mit geladenem LLM im VRAM und wartend auf ein Prompt wurden sogar nur ~8 W gemessen. Für deinen Use-Case (Modell permanent geladen, selten abgefragt) ist das mit Abstand die sparsamste Option.

**Aber: kritisches Treiber-Problem**

Der aktuelle AMD Adrenalin-Treiber räumt den VRAM nach ~15 Sekunden Idle aggressiv in den System-RAM aus, was bei einem System mit 32 GB RAM sofort zum Absturz führt. Das betrifft sowohl den Vulkan- als auch den ROCm-Backend. Der Workaround unter Linux lautet `amdgpu.runpm=0`, unter Windows ist noch kein stabiler Fix bekannt.

---

**Intel Arc Pro B70 – solide Mittelklasse**

Deutschsprachige Medien maßen 26 W Idle für eine einzelne Arc Pro B70, rund 180,7 W unter Inference-Last. Das ist akzeptabel. Zusätzlich: Intel Arc GPUs benötigen für optimale Idle-Werte ASPM L1 im BIOS – ohne diese Einstellung ist der Idle-Verbrauch deutlich erhöht. Mit ASPM L1 sind bei ähnlichen Arc-Karten ~8 W möglich.

---

**Nvidia RTX 5090 – der schlechteste Kandidat für Idle**

TechPowerUp maß rund 30 W Idle und bezeichnete das als eines der schlechtesten je gesehenen Ergebnisse – Nvidia Blackwell ist beim Idle-Verbrauch nicht viel besser als Intel Arc. Schlimmer noch: Die RTX 5090 gönnt sich selbst bei minimaler Aktivität dauerhaft 85 W – und ihr Idle-Verbrauch während aktiver Inference-Phasen lag nicht unter diesem Wert. In Server-/Proxmox-Setups wurden sogar 70–100 W Idle gemessen.

---

**Fazit für deinen Home-Server**

Die **AMD R9700** ist für diesen Use-Case die richtige Wahl – sofern du Linux nutzt und den `runpm=0`-Workaround einsetzt. Unter Windows ist das Treiberproblem derzeit noch ein reales Risiko. Der **Arc Pro B70** ist eine solide und interessante Alternative (gute LLM-Unterstützung, ECC-RAM, Open-Source-Treiber unter Linux), aber der Idle-Verbrauch ist ohne ASPM-Konfiguration höher. Die **RTX 5090** ist für einen stets-an Home-Server mit seltenem Prompt-Aufkommen schlicht überdimensioniert und zu stromhungrig.

Für einen Home-Server, auf dem ein Large Language Model (LLM) dauerhaft im Grafikspeicher (VRAM) vorgehalten wird, ist das Verhalten der GPU im sogenannten „VRAM-Idle“ (Grafikprozessor hat 0 % Last, aber der Speicher ist belegt und kann nicht in den tiefsten Energiesparmodus wechseln) der entscheidende Faktor für die Stromrechnung. [1]
Im direkten Vergleich gewinnt die AMD Radeon AI Pro 9700 dieses Szenario deutlich, während die Nvidia RTX 5090 die performanteste, aber auch hungrigste Wahl ist. [1, 2]

Direktvergleich des Stromverbrauchs
Die folgende Übersicht zeigt die typischen Verbrauchswerte der einzelnen Karten im reinen Leerlauf (ohne geladenes Modell) sowie im VRAM-belegten Zustand (wartend auf Prompt).

GPU [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13]	VRAM-Kapazität	Reiner Idle-Verbrauch (Desktop)	Idle-Verbrauch mit vollem VRAM (LLM geladen)
AMD Radeon AI Pro 9700	32 GB GDDR6	~4 – 17 Watt (je nach Taktprofil)	~17 – 25 Watt
Intel Arc Pro B70	32 GB GDDR6	~26 Watt (erfordert BIOS/OS-Tweaks)	~35 – 45 Watt
Nvidia RTX 5090	32 GB GDDR7	~30 – 34 Watt	~50 – 65 Watt

Die GPUs im Detailanalysen für Home-Server

1. AMD Radeon AI Pro 9700: Der Effizienz-Sieger 🏆

VRAM-Idle Verhalten: AMDs RDNA-Architektur verhält sich extrem sparsam, wenn Daten im VRAM liegen, solange keine Rechenkerne beansprucht werden. Messungen aus der Community zeigen, dass selbst bei maximalem Speichertakt im Hintergrund der Idle-Verbrauch selten die 20-Watt-Marke reißt. [1, 2]
Treiber/Software: Dank starker Fortschritte bei AMD ROCm läuft lokale Inferenz (z.B. via LM Studio oder vLLM unter Linux) mittlerweile hervorragend und stabil. [1, 2]
Server-Eignung: Optimal für den 24/7-Betrieb, da sie im Jahresverlauf massiv Stromkosten gegenüber Nvidia einspart. [1, 2]

2. Intel Arc Pro B70: Die Budget-Alternative mit Hürden

VRAM-Idle Verhalten: Die "Battlemage"-Architektur verbraucht im absoluten Leerlauf etwa 26 Watt. Sobald der Speicher belegt ist und die Memory-Controller aktiv bleiben, pendelt sich der Verbrauch bei gut 35 bis 45 Watt ein. [1, 2, 3]
Wichtiger Hinweis: Intel-Karten neigen ab Werk zu hohem Idle-Verbrauch. Es müssen zwingend die BIOS-Einstellungen (ASP-Management) und die Intel PCIe-Energiesparpläne im OS auf "Maximum Power Savings" konfiguriert werden. [1, 2, 3, 4]
Server-Eignung: Bietet mit 32 GB viel VRAM fürs Geld, der Software-Stack (IPEX / OneAPI) ist im Vergleich zu Nvidia jedoch spürbar mühsamer einzurichten. [1, 2, 3]

3. Nvidia RTX 5090: Das Performance-Monster (mit permanentem Durst)

VRAM-Idle Verhalten: Nvidias Blackwell-Topmodell krankt im Server-Bereich an einem bekannten Phänomen: Liegt ein LLM im Speicher, taktet die Karte den extrem schnellen GDDR7-Speicher nicht mehr vollständig herunter. Der Verbrauch im wartenden Zustand schnellt sofort auf 50 bis über 60 Watt hoch, selbst wenn die GPU-Auslastung bei 0 % liegt. [1, 2, 3, 4]
Server-Eignung: Sie liefert die mit Abstand beste Inferenz-Geschwindigkeit (Tokens pro Sekunde) und die beste Software-Kompatibilität (CUDA). Für einen Home-Server, der primär idlet, ist sie aufgrund der permanenten 60-Watt-Grundlast jedoch ökologisch und ökonomisch kaum sinnvoll. [1, 2, 3, 4]

Fazit & Empfehlung
Für dein Vorhaben (Home-Server, Modell geladen, meistens wartend) ist die AMD Radeon AI Pro 9700 die beste Wahl. Sie bietet die perfekte Balance aus satten 32 GB VRAM (wichtig für größere Modelle wie Llama 3 70B in Quantisierungen) und dem mit Abstand geringsten Standby-Verbrauch im belegten Zustand. [1, 2, 3]
Die RTX 5090 verbrennt im reinen "Warte-Modus" pro Jahr über 500 kWh Strom allein im Idle-Zustand, was sie für ein reines Home-Szenario disqualifiziert. [1, 2]
Möchtest du das System genauer planen? Sag mir gerne:

Welche Modellgröße (z. B. 8B, 32B, 70B) du primär laufen lassen möchtest.
Welches Betriebssystem (Ubuntu/Linux oder Windows Pro/Server) du nutzen wirst.
Wie wichtig dir die Antwortgeschwindigkeit (Tokens/Sekunde) bei der Inferenz ist.

... gestern hat google bei der B70 noch ~80W bei vollem VRAM im Idle gesagt, also wer weiss schon, was da dran ist.
Belastbare Infos habe ich keine, aber ich hab mir gedacht, ich teile mal den AI-Slop, den ich gesammelt habe.

Supaman · Donnerstag um 20:46

pwnbert schrieb:
Fürs 26b gibts da nix "magisches"... die üblichen Unsloth Quants sind in einer ähnlichen Größe, je nach Ausführung.
Es ist aber so, dass 14,4gb "nicht" in 16gb VRAM passen, zumindest ist da kein Platz mehr für Kontext - und Kontext braucht viel, viel mehr Platz, als ich je gedacht hätte.
mEn sollte ein Modell für 16gb VRAM die 10gb nicht überschreiten, um brauchbar zu laufen...?

Nach meinen Tests sind ca 12Gb Modellgröße die magische Grenze, um bei 16GB vRAM noch genug Platz für Kontext etc zu haben.
Wenn man das berücksichtigt, kann alles im vRam laufen = guter Speed, da gib tes aber nur 12b / 14b Modelle, das ist oft etwas "dünn".
Wenn Modell größer = GPU Offloading = läuft noch, aber schneckt halt.

Aber - faszinierender Weise lief das Gemma 4 26B A4B Modell trotz einer Modellgröße von ca 15,5 GB = mit GPU Offloading
noch mit einem Token Speed von ca. 33t/sec - aber eben auch nur das A4B.
Die anderen Modelle und alles was mit GPU Offloading arbeitet lag bei 5-7 Token.

google/gemma-4-26b-a4b-qat

Gemma 4 26B A4B optimized with Quantization-Aware Training (QAT)

lmstudio.ai

pwnbert · Donnerstag um 20:59

Ich finde das 26b a4b auch sehr brauchbar...
Gerade gesehen, in den settings von llama.cpp bei jan.ai gibts als kv-cache Q_5 und Q_5_1 (Q5 mit Offste) Quants zum einstellen, läuft aber (noch) nicht.

Also hier @5090 ist gemmma 4 26b a4b super, gemma 4 31b schneckt etwas (evlt. gibts irgendwelche magic settings) mit ~35 token/s (braucht 30gb lt. gpuz)... 26ba4b macht 130token/s (braucht 22gb lt gpuz).. aber hab da auch nur ~9k kontext geladen in dem Chat.

Ich glaub Dense Models sind allgemein schwieriger...

Supaman · Freitag um 13:40

pwnbert schrieb:
Ich glaub Dense Models sind allgemein schwieriger...

Korrekt ermittelt - GPu Offloading mit dense Modellen = schneck schneck. Das 26b A4B Modell ist ein MOE Modell, alle anderen Gemma 4 QAT sind sind dense Modelle. Leider gibt es Modelle > 26b nicht als MOE Modelle.

Ich lasse die Tests immer von meinem Hermes Agenten machen - ich lade nur das Modell runter, und der macht dann einen Benchmark mit immer dem gleichen Script das er sich gebaut hat, und schreibt die Werte dann ins Wiki.

pwnbert · Freitag um 13:54

Naja, ich denke nicht, dass ich im Offloading-Bereich war.
Also die Frage ist jetzt, was wir als "Offloading" bezeichnen, laut Settings ist ein "Offloading" ja eigenltich das korrekte Verschieben von der CPU zur GPU.

Jein, IBM Granite 4.1 mit 30b ist ein MoE, und je nach dem, was man damit machen will, gar nicht sooo übel (auch wenns nicht so beliebt ist).
Gwen 3.5/3.6 35b ist ein a3b MoE.

Die dickeren neueren sind doch auch alle MoE, also Qwen 122b usw.?

asm@s24 · Freitag um 14:30

pwnbert schrieb:
So richtig wilde Zeichenkombis? Lass mich raten, du verwendest ollama in Docker?

Nicht in Docker, im priv. LXC.

pwnbert schrieb:
Mach llama.cpp in ein priviligiertes LXC, das sollte dann laufen.

Jetzt hab ich erst mal Ollama von .24 auf .30 gebracht und nun geht es wohl (eine weitere Env. mußte in ollama.service).
Die 6GB werden scheinbar noch nicht mal ausgenutzt (ok, im idle oder mit simplen Fragen). Und die anderen Model-Runner kann ioch schon auch noch probieren wie auch mehr VRAM.

buzzzer · Gestern um 14:42

Moin,
erste Versuche ein System aufzusetzen scheitern. Ich Trottel hatte mal einen 8PIN Stecker am Netzteil nicht angeschlossen. Ist erst nicht aufgefallen, weil die 7900XTX trotzdem geleuchtet hat wie ein Tannenbaum. NVMe umgebaut, TB ausgeschaltet und x Einstellungen im BIOS angepasst. 3 Stunden Lebenszeit verschwendet.
Als ich das Kabel angeschlossen hatte, war die Karte da, wurde aber sehr schnell warm und laut.
Claude und ich haben dann ein wenig "gefummelt" um eine passende aktuelle AMD Firmware zu installieren. Die (AMD DKMS-Treiber 6.16) ist aber dann wohl nicht kompatibel zum Proxmox Kernel 7.0.6.
Könnte jetzt nen anderen Kernel nehmen, aber es gibt wohl mit der Karte noch andere Probleme unter proxmox:

Ubuntu 24.04 VM Crashes with RX 7900 XTX Passthrough on Proxmox 9.2.0 (Kernel 6.8.12-9-pve+)

Issues/Description: I set up Proxmox on my server, and started working on setting up an Ubuntu 24.04.02 VM, with an end goal of hosting ollama with GPU passthrough. During initial setup of Ubuntu VM, it worked great, was quite stable and initially had little issues. After adding the GPUs for...

forum.proxmox.com

Ich werde dann mal Ubuntu direkt installieren.

asm@s24 · Gestern um 15:05

buzzzer schrieb:
3 Stunden Lebenszeit verschwendet.

Willkommen in der IT ...

buzzzer schrieb:
Ich werde dann mal Ubuntu direkt installieren.

Warum nehmen immer alle Ubuntu? Könnte es nicht auch mit einem Trixie-LXC gehen, oder ist da iGPU grundsätzlich simpler von der H/W als PCI-GPU? :confused:

Edit: also hier ist wirklich no offence intended ... reines Interesse, wo die Vorteile liegen könnten. Ich bin halt kein Fan von diesen Hardwaredurchreichungen, eben weil ich das als ziemlich schwierig /anfällig ansehe.

Neuer AI-Server

Legende

Legende

Profi

Legende

Enthusiast

Profi

Urgestein

Legende

Profi

Legende

Urgestein

Legende

Urgestein

Legende

Profi

Enthusiast

Profi