Neuer AI-Server

pwnbert · Freitag um 19:18

So, mit Gemma 4 E4B macht der 5650G 11 token/s, der Intel Ultra 255u macht 8 token/s.
Beides Vulkan.
Was anderes geht beim Intel nämlich nicht (nach langem herumprobieren mit Gemini und Claude). Was da noch kommen mag und wie Wertvoll Funktionen sind, die faktisch nicht unterstützt werden (z.B. die NPU) ist halt son Thema.

Insofern könnte man sich wohl über eine alte VEGA GPU trauen, ne Radeon 7 wenn man billig bekommt (immerhin 16gb HBM) oder ne entsprechende MI-irgendwas, leider sind die >32gb Modelle ziemlich teuer gebraucht, so dass das kaum lohnt. Die 16er bekommt man vergleichsweise günstig, aber viel billiger als ne 9060XT sind die dann auch nicht (na gut, der RAM wäre schneller, dafür ist die Archtiektur fast 10 Jahre alt).

Fazit, die Intel iGPUs klingen zwar phantastisch (mit ihren ganzen Codecs, die sie können, dem angeblichen SR-IOV, welches ich nie probieren konnte und der angeblich so leistungsstarken iGPU mit den angeblich so modernen Xe Kernen).
In der Praxis bleibt mir davon irgendwie wenig über.

Ob die Intel iGPUs jetzt für so Media-Stream-Kram besser sein mögen, vielleicht, aufs Hörensagen würd ich mich da aber nimmer verlassen.

pwnbert · Samstag um 18:35

So, ergänzen wir, llama.cpp als Backend ist wohl nur mäßig toll. Im Router-Mode kann man zwar verschiedene Modelle mit Open-WebUI auswählen, so Einstellungen wie Kontext-Größe gehen allerdings nicht. Default sinds wohl 8k, darüber hinaus crasht das Modell. Kontext ändern funktioniert dann nur ziemlich frickelig, was ich so rausgefunden hab, nicht über open-webui.

Sieht aus, als müsste ich nochmal nen Anlauf machen und llama.cpp durch ollama ersetzen, gefällt mir wenig bis nicht, aber mh...

Nachtrag:
So, ich hab nun ollama nochmal probiert in dem gleichen LXC, in dem auch llama.cpp war, hab den dienst von llama.cpp einfach deaktiviert und leben lassen.

Wichtig ist wohl, dass der Container priviligiert ist, das Passthrough der Grafik Devices funktioniert, die Gruppen davon passen und so, in die Config von ollama muss man noch extra rein schreiben, dass er vulkan verwenden soll und die igpu (weil er igpu default blockt).

Für Details fragt Claude, ich hab recht viel copypasta gemacht. :fresse:

Läuft jetzt erstmal gleich schnell wie das llama.cpp selbst.

Supaman · Heute um 05:05

Teste doch mal, ob es besser läuft, wenn Du die GPU an eine dedizierte Linux VM durch reichst. Die paar Ressouzrcen mehr für eine Debian oder Ubuntu Instalaltion fallen auf VM Hosts i.d.r. nicht ins Gewicht, ist aber sauberer getrennt.

asm@s24 · Heute um 06:16

Supaman schrieb:
Teste doch mal, ob es besser läuft, wenn Du die GPU an eine dedizierte Linux VM durchreichst.

War es nicht so, daß das gar nicht ging...?

pwnbert · Heute um 09:09

Beim Cezanne geht das nicht (so einfach), die Vega iGPUs sind in der Hinsicht leider etwas verbugt. Mein Zielsystem später hat aber auch kein IPMI, also ist GPU dem Host wegnehmen eh so eine Sache.
Das Problem ist ja nicht, dass die Performanche schlecht wäre - mit der uralt Vega iGPU und DDR4 kann man halt nicht viel mehr erwarten - mich überrascht positiv, dass das überhaupt (halbwegs sinnvoll) läuft.

Das Problem ist ja kein Leistungsproblem, sondern dass die APIs von OpenWebUI und llama.cpp nicht ausreichend kompatibel sind bzw. der gemeinsame Funktionsumfang halt überschaubar ist, bei ollama ists da besser, auch wenn ich kein Fan von dieser Sache mit dem Modelfile usw. bin.

Suche

Neuer AI-Server

pwnbert

Legende

pwnbert

Legende

Supaman

Urgestein

asm@s24

Profi

pwnbert

Legende