Neuer AI-Server

So, mit Gemma 4 E4B macht der 5650G 11 token/s, der Intel Ultra 255u macht 8 token/s.
Beides Vulkan.
Was anderes geht beim Intel nämlich nicht (nach langem herumprobieren mit Gemini und Claude). Was da noch kommen mag und wie Wertvoll Funktionen sind, die faktisch nicht unterstützt werden (z.B. die NPU) ist halt son Thema.

Insofern könnte man sich wohl über eine alte VEGA GPU trauen, ne Radeon 7 wenn man billig bekommt (immerhin 16gb HBM) oder ne entsprechende MI-irgendwas, leider sind die >32gb Modelle ziemlich teuer gebraucht, so dass das kaum lohnt. Die 16er bekommt man vergleichsweise günstig, aber viel billiger als ne 9060XT sind die dann auch nicht (na gut, der RAM wäre schneller, dafür ist die Archtiektur fast 10 Jahre alt).

Fazit, die Intel iGPUs klingen zwar phantastisch (mit ihren ganzen Codecs, die sie können, dem angeblichen SR-IOV, welches ich nie probieren konnte und der angeblich so leistungsstarken iGPU mit den angeblich so modernen Xe Kernen).
In der Praxis bleibt mir davon irgendwie wenig über.

Ob die Intel iGPUs jetzt für so Media-Stream-Kram besser sein mögen, vielleicht, aufs Hörensagen würd ich mich da aber nimmer verlassen.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
So, ergänzen wir, llama.cpp als Backend ist wohl nur mäßig toll. Im Router-Mode kann man zwar verschiedene Modelle mit Open-WebUI auswählen, so Einstellungen wie Kontext-Größe gehen allerdings nicht. Default sinds wohl 8k, darüber hinaus crasht das Modell. Kontext ändern funktioniert dann nur ziemlich frickelig, was ich so rausgefunden hab, nicht über open-webui.

Sieht aus, als müsste ich nochmal nen Anlauf machen und llama.cpp durch ollama ersetzen, gefällt mir wenig bis nicht, aber mh...

Nachtrag:
So, ich hab nun ollama nochmal probiert in dem gleichen LXC, in dem auch llama.cpp war, hab den dienst von llama.cpp einfach deaktiviert und leben lassen.

Wichtig ist wohl, dass der Container priviligiert ist, das Passthrough der Grafik Devices funktioniert, die Gruppen davon passen und so, in die Config von ollama muss man noch extra rein schreiben, dass er vulkan verwenden soll und die igpu (weil er igpu default blockt).

Für Details fragt Claude, ich hab recht viel copypasta gemacht. :fresse:

Läuft jetzt erstmal gleich schnell wie das llama.cpp selbst.
 
Zuletzt bearbeitet:
Teste doch mal, ob es besser läuft, wenn Du die GPU an eine dedizierte Linux VM durch reichst. Die paar Ressouzrcen mehr für eine Debian oder Ubuntu Instalaltion fallen auf VM Hosts i.d.r. nicht ins Gewicht, ist aber sauberer getrennt.
 
Beim Cezanne geht das nicht (so einfach), die Vega iGPUs sind in der Hinsicht leider etwas verbugt. Mein Zielsystem später hat aber auch kein IPMI, also ist GPU dem Host wegnehmen eh so eine Sache.
Das Problem ist ja nicht, dass die Performanche schlecht wäre - mit der uralt Vega iGPU und DDR4 kann man halt nicht viel mehr erwarten - mich überrascht positiv, dass das überhaupt (halbwegs sinnvoll) läuft.

Das Problem ist ja kein Leistungsproblem, sondern dass die APIs von OpenWebUI und llama.cpp nicht ausreichend kompatibel sind bzw. der gemeinsame Funktionsumfang halt überschaubar ist, bei ollama ists da besser, auch wenn ich kein Fan von dieser Sache mit dem Modelfile usw. bin.
 
Das wäre ja mal ein use case für mich. Benchmarking. :hust:
So geil, jetzt hab ich was "richtiges" gefunden. Mein PVE-Docker-Monitor hat ja ein AI-Interface. Funktioniert mit Ollama (im LXC). 8-)

1782674263836.png
 
Gute Frage... :unsure:
Es gibt zwei Settings. Im Pulse. Also primär ist das m.E. eine Funktion der S/W.
Bei "Pulse Patrol":
1782719485664.png

Dann noch eins bei AI:
1782719633141.png

So wirklich klar komm ich da grad net mit. :confused: Womöglich müßte einer/man/jemand mal die Doku studieren. Ich bin kein rechter Freund von solchen Automatismen, deshalb liegt das jetzt nicht so weit oben auf meiner Liste. :sneaky:
 
Was macht das Ding? Ist das ne Art Docker-Helfer? Wenn das über ollama läuft, mit welchem Modell, lät das ein eigenes darauf trainiertes Mini-Modell?

Ich hab hier auf der Win-Gurke Docker Desktop installiert (vom rumtesten), da gibts "Gordon", auch ein AI Helper.
 
Was macht das Ding? Ist das ne Art Docker-Helfer?
Auch. Primär ist es aber m.E. für PVE/PBS. Aber man kann jedes LX damit überwachen und wenn darin ein Docker läuft, dann wird das auch angezeigt. Gibt ja 'n Haufen so Zügs, Uptime Kuma. Beszel o.ä.
Da hat es z.B. so Alerts wie "Backup nicht aktuell", "Snapshot älter als XX Tage", "Host/VM/Container offline" ... Die Alerts bekomm ich dann via Telegram-Bot (Webhook).
1782725060930.png

Der schraubt schon seit Monaten an einer neuen großen Version (6), derzeit in rc7. Da wird vl. alles besser. :hust: Oder nur anders, wie das halt so ist. :rolleyes:
Wenn das über ollama läuft, mit welchem Modell, lät das ein eigenes darauf trainiertes Mini-Modell?
Nee, es läuft eben das, was man in Ollama downloaded hat. Diese Modelle werden im Pulse als Dropdown-Liste angezeigt und auswählbar gemacht.
Scheint nicht alles zu funktionieren, Mistral z.B. kam mit Fehlermeldungen wie "Hä, ich versteh das nicht".
gemma4 schein bisher am besten zu gehen. Ich spiel halt so damit rum. Echte Probleme hab ich grad net. 😅
Was noch komisch ist, es kommen immer mal wieder so rate limit errors. Sollte nach meinem Verständis mit Ollama aber gar nicht sein, denn da sind die Modelle doch lokal.
Ich kann in der AI-Konfig von Pulse natürlich auch die großen Onlinemodelle wählen, aber da bin ich ja in kurzer Zeit bankrott. Oder eben es hagelt rate limits als einzige "Info".
Deswegen ja die Idee mit Ollama.
 
Hmhmhm, verstehe.
Also ein einfacher Log-Auswerter? Gut, das ist nicht blöd.

Von Agenten, die ungefragt irgendwas in meinem Proxmox rumfimgern, halte ich lieber (noch) Abstand, auch wenn das Copy-Pasta in/aus der Shell natürlich mühsam ist.. aber trotzdem. In einer VM oder auf der Testgurke gern, aber nicht im Main-Server.

Gemma 4 ist imho ganz okay (bis auf Gemma 4 31b, Kontext Bloat), imho wäre dafür selbst ein kleines (E4B?) auf der iGPU vom 5650G okay, muss ja nicht rasend schnell sein.
Gemma 4 26b a4b hab ich ganz gern für Allgemein-Zeug, ist recht flott und vom Kommunikationsstil her für mich ganz in Ordnung, für Allgemeinverwendung.

Wahrscheinlich wäre ein Qwen besser für "technische" Sachen, Qwen ist zwar sehr "Nannyhaft", ist in dem Anwendungsbereich aber egal.
Imho ist Gwen 3.6 27b eines der besten LLMs (was ich bisher so durch habe) für solche Anwendungen, benötigt halt 24-32gb VRAM, wenn man ein UD-Q4-K-XL mit ca. 18gb laufen haben möchte, soll aber mit KV-Cache in Q4 immer noch sehr stabil sein, womit man die Kontextlänge dann auch wirklich nutzen kann.
Als sachlich technisches "Hilf mir bei meinen Computerproblemen bis Coding" LLM ist das 27b sicher das Mächtigste, was man lokal unterbekommt.

Wenn man medium Leistung hat soll Gemma 12b auch nicht so übel sein, hab damit aber noch nicht viel rumgespielt, soll äußerst sparsam im KV Cache Verhalten sein, also auf 12-16gb GPUs sehr interessant.
Qwen 3.5 9b ist auch interessant, ein Unsloth Q4 hat ca. 6gb, 64k KV-Cache mit Q8 machen ca. 2gb, läuft also auf einer 8gb GPU.


Leider fehlen mir mit diesen Mittelgroßen Modellen die Erfahrungswerte, da sie mir zu groß/langsam für die Laptop-iGPU sind und ich auf der Workstation (5090) eben gleich zu den größeren greife.
gemma4 schein bisher am besten zu gehen. Ich spiel halt so damit rum. Echte Probleme hab ich grad net. 😅
Was für Rechenleistung hast denn?

Ich bin ja kurz davor die ASUS Turbo Radeon AI PRO R9700 zu bestellen, immer dieser Poker mit den Preisschwankungen... eigetnlich hab ich momentan gar nicht sooo die Zeit dafür, hmhm.
 
Also ein einfacher Log-Auswerter?
Das fehlt mir noch. Hab Graylog, aber das ist mir zu groß/schwer/umständlich/anfällig.
Ja genau so funktioniert Pulse. :sneaky:
Was für Rechenleistung hast denn?
Na ja, eher wenig. Ryzen 7 255 w/ Radeon 780M. Die iGPU bekommt jetzt 8GB VRAM. Gemma4 nutzt aber immer nur knapp die Hälfte. Andere Modelle alles. :confused:
Mein "idle" im home lab liegt so bei 90-100W. Läuft der AI-LXC mit gemma4, dann geht das auf 130W hoch. Kosten wären nicht so wichtig, aber der Raum hat jetzt im Sommer locker 30°. Also von daher möcht ich da nicht unbedingt noch Leistung draufpacken. Ist im Moment noch mehr so Tech-Demo. Look-n-feel ... Ist mir schon klar, daß die Wünsche dann irgendwann steigen. :hmm:
 
16gb kann sie, oder? Hast RAM Mangel, dass dir das fehlen würde?
Schlechter als mein Intel-Ultra Ding (das läuft ja nur mit Vulkan und bekommt de Papier-Leistung nicht rüber) oder 5650G mit der Uralt-Vega kann der nicht sein.

Ich tät mal Richtung Gemma E2B, E4B oder 12B schauen (das dann mit ~12gb VRAM) oder Qwen 3.5 9b.

Ich weiss nicht, wie "gut" das Modell für diesen Zweck denken können muss.
Ich merk schon, dass die Antworten von E4B gegenüber Qwen 3.6 27b (oder auch Gemma 4 26b) etwas "flach" sind, aber soo schlecht auch nicht.
 
Hast RAM Mangel, dass dir das fehlen würde?
Eher nicht so bisher, die Kiste hat 80 GB und die paar VMs/LXC laufen noch komfortabel.
Ich weiss nicht, wie "gut" das Modell für diesen Zweck denken können muss.
Da hab ich jetzt auch noch gar keine Ahnung. Gerade gestern mal zum Laufen gebracht. 💡
Überhaupt mit den verschiedenen Modellen. :confused: Hab bisher immer einfach "latest".
 
Ich spiele gerade mit Hermes Agent herum. Finde es eigentlich sehr geil, aber irgendwie klappen die einfachsten Dinge manchmal nicht. Ich hab z.B. für Proxmox nen API Key erstellt, damit der Agent damit den Admin auf einer Testkiste sein kann. Dann weiss er manchmal nicht mehr wie er auf den Host zugreifen soll. Von einem von ihm selbst erstellten Container, wusste er nix mehr oder plötzlich klappen von ihm umgesetzte Dinge nicht mehr. Ich nutze auch gemma-4-26B-A4B und Qwen3.6-27B. Beide mit 64k Kontext.

32GB hätte ich gerne, will aber auf die R9600D warten. Hoffe, dass die knapp 1000€ kostet.
 
Könntest noch GLM 4.7 Flash testen, ist auch die Größenordnung, arbeitet verdammt viel mit Tool Calls und so.

Gefühlt hätte ich Qwen 27b als das Beste eingeschätzt für den Zweck.

Probier es mit einem Start Prompt und der Option diese Start-Token im Speicher zu halten, wenn das Ding Start Prompts zulässt.
Schreib sowas in den Start-Prompt wie "versichere dich immer über den aktuellen Status der Konfiguration" oder so, keine Ahnung wie mans genau macht. Und sowas wie "suche immer danach, wie die Kommandos in der momentan aktuellen Softwareversion ausgeführt werden" oder so, damit die KI nicht irgendwelche veralteten Infos verwendet (z.B. von irgend einer json faselt, obwohl seit einem Jahr eine yml verwendet wird etc.).
Beitrag automatisch zusammengeführt:

PS:
Intel B65 ist momentan der billigste VRAM, allerdings braucht man dafür CPU PCIe Lanes (wegen Resizebar) und allgemein bin ich mir nicht sicher, wie super das ist.
 
Zuletzt bearbeitet:
Keine Ahnung ich hab meinen Hermes wohl schon kaputt gemacht. Der macht jedes mal die gleichen Fehler und dreht sich dann ganz schnell im Kreis.
Und hey die Aufgabe war erstmal nur einen LXC anzulegen. Am besten ist: Schönes Wochenende 8-)
 

Anhänge

  • CleanShot 2026-06-29 at 20.42.16@2x.png
    CleanShot 2026-06-29 at 20.42.16@2x.png
    264,2 KB · Aufrufe: 15
Lol, welches Modell?
Zum Heretic, vom Hörensagen weiss ich, dass die ganzen Uncensored Dinger u.U. gewisse Lobotomieprobleme haben könnten, wenn was beim "befreien" daneben geht... ist wohl von-bis, je nach dem. Soll auch welche geben, die nachher "nachtrainiert" werden und dadurch wiederum zulegen.
Tät für sowas wie Hermes nicht unbedingt eins nehmen, da tuts ja eine vanilla Version auch, ein Unsloth Quant oder so?
 
Lol, welches Modell?
Zum Heretic, vom Hörensagen weiss ich, dass die ganzen Uncensored Dinger u.U. gewisse Lobotomieprobleme haben könnten, wenn was beim "befreien" daneben geht... ist wohl von-bis, je nach dem. Soll auch welche geben, die nachher "nachtrainiert" werden und dadurch wiederum zulegen.
Tät für sowas wie Hermes nicht unbedingt eins nehmen, da tuts ja eine vanilla Version auch, ein Unsloth Quant oder so?
Ich hab das hier gefunden und einfach mal probiert.
Im Moment lande ich dann immer wieder beim gemma-4-26B-A4B. Ist schneller und es klappt auch mehr.
Aber noch verstehe ich nicht, warum Hermes oft Dinge innerhalb einer Session vergisst. Das macht keine Sinn. Aber ich bin mir auch sicher ich mache was nicht richtig.
 
Ich meine, dass Qwen besser in Logik und Struktur ist, in Coding (selber aber nie so gemacht) und daher wsl. für nen Bash-Agent besser?
Ich tät das mal mit einem "normalen" 27b probieren.

Gemma 4 ist dafür beim Reden natürlicher, finde ich. Also so als nützlichen Chatbot fände ich Gemma 4 irgendwie angenehmer, Qwen ist da irgendwie ein bisschen so... "autistisch"? Wie C3PO oder Delta?

Was du noch testen kannst ist IBM Granite 4.1 30b, ist auch ein schnelles MoE und imho ganz gut, ist vllt. ein brauchbares Zwischending?
Ich tät das https://huggingface.co/unsloth/granite-4.1-30b-GGUF UD-Q5-K-XL testen (weil MoE, bei Dense würde ich idR. das UD-Q4-K-XL nehmen oder so, MoE soll etwas anfälliger auf Quantisierungsverluste sein wobei ich nicht weiss, ob nicht das UD-XL das ausreichend ausbügelt auch in Q4).
edit: Ich glaube 4.1 30b ist dense und 4.0 small (ca. 32b) ein MoE...
 
Zuletzt bearbeitet:
Qwen soll auf jeden Fall auch besser für Hermes sein. Gemma4 ist aber 2-3 mal schneller. Da bin ich dann schnell ungeduldig, vor allem wenn was nicht klappt.
Ich teste nochmal ein "normales": hf.co/unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL

Meinst Du nicht dass hf.co/unsloth/granite-4.1-30b-GGUF:UD-Q5_K_XL zu groß ist mit 20,4GB? Mit 64k context (braucht hermes) ist glaube ich 18GB max.
Ja ich weiß AI Pro kaufen :d
 
Welche Hardware hast du nochmal? XTX?

Also du musst immer MoE und Dense unterscheiden,
Gemma 4 26b A4B ist MoE, 31B ist Dense.
Qwen 3.6 27b ist Dense, 35B A3B ist MoE.
MoE ist so um den Faktor 3 schneller, dafür aber etwas ungenauer, den Deep-Dive im Detail kannst selbst machen.
Drum ist wohl so ne Regel auch, dass bei Dense Modellen die Q4KM (oder UDQ4KXL etc.) Quantisierung schon zu 99% ans Original kommt, man bei MoE aber etwas schlechter unterwegs ist und für >99% wohl eher ne Q5-irgendwas benötigt, mit Q4 dann eher bei 96-97% sein soll, zum Quatschen reichts wohl, für mehr muss man halt wissen/testen.

Du musst also Gemma 26b a4b mit Qwen 35b a3b vergleichen und Gemma 31b mit Gwen 27b.
Ich hatte enorme Probleme mit Gemma 4 31b, wegen dem KV-Cache Bloat, evlt. hatte ich aber einfach falsche Settings, muss mir das nochmal genauer ansehen.

Wie viel Token du für den Kontext brauchst ist so ne Sache, hängt von der Archtiektur ab und wohl auch von sowas wie "SWA Cache", "Full SWA Cache" sollte mal wohl deaktivieren, da sonst ein ziemlicher KV-Cache Bloat auftritt speziell bei Gemma 4. Muss da aber selbst noch etwas testen.
Zudem gibt es die Option den KV Cache auf Q4 zu quantisieren, angeblich leidet Gemma 4 darunter Gwen 3.6 aber (so gut wie gar) nicht.
Meinst Du nicht dass hf.co/unsloth/granite-4.1-30b-GGUF:UD-Q5_K_XL zu groß ist mit 20,4GB? Mit 64k context (braucht hermes) ist glaube ich 18GB max.
Musst schauen. In dem Fall musst natürlich auf Q4 gehen, knappe 18gb, bleiben aber auch nur 5-6gb über.
2. KV-Cache (Q8 für 64.000 Token)
Moderne Architekturen wie Granite 4.1 nutzen Grouped-Query Attention (GQA). Laut den offiziellen Modell-Metadaten von IBM hat das 30B-Modell: [1, 2]
  • 64 Layer (num_hidden_layers)
  • 8 KV-Heads (num_key_value_heads)
  • Eine Head-Dimension von 128 (head_dim) [1, 2]
Die Formel für den KV-Cache (für Keys und Values) lautet:
\(\text{VRAM}=2\times \text{Layer}\times \text{KV-Heads}\times \text{Head-Dim}\times \text{Token}\times \text{Bytes}\)
Eingesetzt für Q8 (1 Byte pro Element):
\(2\times 64\times 8\times 128\times 64.000\times 1\,\text{Byte}=8.388.608.000\,\text{Bytes}\approx \mathbf{7,81}\,\text{GiB}\)
Achtung, die Google KI ist scheiße, man muss einfach immer wieder nachfragen, einfach den Text markieren und fragen ob sicher ist, dass das stimmt, dann kommen noch 5 Verbesserungen lolol.
Auf jeden Fall ist die KV Cache Berechnung nicht ganz einfach, weils da so opimierungen gibt, die das Backend aber mit machen muss.

Aufpassen, 32gb sind gegenüber 24gb kein Gamechanger, die Dimension ist die gleiche, die Probleme verschieben sich nur minimal... die paar Gigabyte mehr machens in Wirklichkeit nicht fett.

Die ~30b Modelle haben in q4-irgendwas alle irgendwas um die +/- 18gb.
Den KV Cache komprimieren ist natürlich ne Sache.

Folgendes hab ich google machen lassen, wobei die Daten für Gemma 4 31b wohl nicht stimmen (bzw. nur ohne Berücksichtigung des SWA?).. andererseits hat sich 31b bei mir immer so aufgeblasen, dass es nach 3 Sätzen nicht nutzbar war. Und ob das 12b so auch stimmt?
1782817171850.png
edit: Slop-Table V2, wirkt realistischer, obs aber so stimmt und echt so wenig ist, muss man prüfen, die AIs lügen alle wie gedruckt, selbst Claude eiert rum.
1782818306947.png
Und hier mal die Stabilität der KV Quantisierung, ist auch Slop von Google, aber wer weiss, vielleicht ist ja was dran?
1782817714855.png

Demnach dürfte Qwen 3.6 27b als UD-Q4-K-XL mit KV-Cache in Q4 einach spitze sein, wenn einem der "Stil" von Qwen passt. Besser bekommst den VRAM nicht genutzt.
Klar, ist etwas langsamer, aber das große nutzbare KV-Cache Fenster und das solide Grundmodell sind einfach mächtig.

Chatty isses sicher nicht so, als Agent/Coder/Helfer sicher sehr stark.

PS: Der Tip mit Granite (evtl. auch Version 4.0 als MoE Modell oder 4.1 als kleinere 8b Version testweise) war auch dahingehend gemeint, dass es eine Alternative zu Gemma und Qwen ist, meiner Meinung nach gar keine so schlechte, was es wirklich kann, muss man halt testen (hab bissl damit rum getan und fands ganz okay).

Q5_1 Quant am Papier ist interessant, wird wohl seit kurzem unterstützt, ist aber irgendwie doch merkbar langsamer zum Rechnen und Flash Attention läuft damit offenbar nicht so reibungslos (oder war das nur bei asymmetrischen k und v quants?).
Auf jeden Fall klingt Q5_1 ganz interessant, in der Praxis ist aber wohl nur Q8 oder Q4 realistisch, aufs kommende Turboquant kann man gespannt sein.
 
Zuletzt bearbeitet:
Oh man ok. Und ich wundere mich warum das MoE schneller ist. Danke.
Ich probiere da nochmal rum. Gerade mit dem normalen GGUF Qwen
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh