Welche lokale KI verwenden zum Programieren?

Runlevel5 · Sonntag um 12:26

Hallöchen.
Ich beschäftige mich nun ein paar Monate mit verschiedenen KIs.
Der hintergedanke war das sie mir ein oder mehrere Scripte erstellt die ich auf meinem NAS (ugreen) laufen lasse und so autmatisch verschiedene dinge laufen.
Klappt auch wunderbar. Dann habe ich die KI benutzt um mir eine Windows APP zu Programieren (in Python) woraus ich eine EXE gebaut habe und kann dann mit der APP meine scripte Steuern,Editieren, Cronjobs editieren, Container machen...
Nun bis jetzt wad die Google Gemini echt hilfreich. Vor allem die Pro oder Thinking (Modus).
Aber die sind ja Zeitlich begrenzt. Nur die Fast ist es nicht. Da sie mir aber immer wieder die Scripte verhaut oder was ändert und nix mehr geht,
will ich es Lokal auf meinem Rechner laufen lassen.
Was meint ihr? was soll ich da benutzen? wie genau einrichten?
Welche Modelle? Soll ja irgendwie mit meiner Hardware funktionieren.
Wichtig ist mir vor allem das es die KI nicht verhaut. Also wenn wir kleine Änderung im Code machen will ich nicht das die gleich die ganze App zerschiesst oder Knöpfe verschwinden.
Gab schon alles deswegen.
Die scripte die ich benutze sind für mein Nas gebaut (ugreen basiert auf Debian) und die APP mit der ich das ganze im Griff habe Läuft auf Windows 11 und ist in Python gebaut.
Die Gemini hat mir ein Builder gebaut den ich starte und der baut mir aus der .py datei eine Exe und ein Patcher habe ich auch wo ich nur eingeben muss welchen teil ich ändern will und der Patcht mir den Code.

Was meint ihr? was wäre gut nutzbar? ich weiss ich habe keine besondere GPU dafür. Speicher und CPU gibts ja auch. Ist mir echt egal ob das Ding lange braucht da keine GPU leistung. Das Ergebniss ist wichtig.

passat3233 · Montag um 12:47

Ich halte von KI zum Programmieren wenig.
Ja, es kommt meist lauffähiger Code dabei heraus, aber:
Das ist oft Spaghetticode, d.h. der Code ist unnötig aufgebläht.
Ein erfahrener Programmierer macht deutlich schlankeren Code.
Und ein erfahrener Programmierer kann den Code auch bzgl. Geschwindigkeit und Ressourcenbedarf (Größe der .exe, RAM-Bedarf) optimieren.
Und auch bzgl. Sicherheit (KI-.generierter Code hat oft Sicherheitslücken).

mz_z · Montag um 14:30

Schau dir mal das hier an:

https://unsloth.ai/docs/de/modelle/qwen3.5

Mit einer langsamen GPU ist die A35B-A3B-Variante die richtige für dich, idealerweise ab 4 Bit aufwärts, sofern dein VRAM+RAM dafür ausreichen. In Benchmarks ist sie grob auf dem Niveau von Sonnet 4.5.

Laufen lassen kannst du das Modell mit OpenCode:

https://github.com/anomalyco/opencode/blob/dev/README.de.md

Zum einfachen Ausprobieren mit gui sind lmstudio und Jan AI gut geeignet.

Liesel Weppen · Montag um 15:50

passat3233 schrieb:
Ich halte von KI zum Programmieren wenig.
Ja, es kommt meist lauffähiger Code dabei heraus, aber:
Das ist oft Spaghetticode, d.h. der Code ist unnötig aufgebläht.
Ein erfahrener Programmierer macht deutlich schlankeren Code.
Und ein erfahrener Programmierer kann den Code auch bzgl. Geschwindigkeit und Ressourcenbedarf (Größe der .exe, RAM-Bedarf) optimieren.
Und auch bzgl. Sicherheit (KI-.generierter Code hat oft Sicherheitslücken).

Ein Programmierer benutzt eine KI um sich Tipparbeit zu sparen, weil die KI sinnvolle und umfangreiche Vorschläge machen kann. Die übernimmt ein Programmierer aber selbstverständlich nicht ungeprüft. (Mein KI-generierter Codeanteil erreicht an guten Tagen an die 50% des insgesamt geänderten Codes

)

Jemand der nur mal schnell ein paar Pythonskripte zusammenkloppt ist kein Programmierer, wird nicht sonderlich daran interessiert sein, ob das Spaghetticode ist oder nicht und den juckt auch meistens die Performance nicht. Wäre die Performance im speziellen Interesse, würde er schonmal grundsätzlich nicht Python benutzen.

Das was du da beschreibst kommt raus, wenn man eine KI nicht "zum programmieren" benutzt, sondern die KI komplett programmieren lässt. Das machen hauptsächlich die Leute, die eben keine Programmierer sind.
Und da hat KI-generierter Code sicherlich auch nicht mehr Sicherheitslücken, als wenn sich so jemand selbst Codesnippets von Stackoverflow zusammenkopiert.

Schmufix · Montag um 21:02

Qwen3.5 hat so ein gewissen Querdenker Faktor, ist mal was anderes.

Gouvernator · Montag um 22:10

GPT-OSS 20B ist nicht schlecht. Qwen 3 Coder mit 80B, GPT-OSS 120b wenn es größer sein soll. Ansonsten noch das neue Qwen 3.5 27B oder Nemotron 3 Nano 30B. Sehr easy mit LM Studio und dem CLINE Agent in VS Code.

Runlevel5 · Mittwoch um 12:33

Mein Problem ist eher das alles was ich bis jetzt ausprobiert habe irgendwelche Probleme hatte. LM studio schön und gut aber sobald ich ein Model geladen hab und aufgabe gegeben hab hat es gestockt ohne ende. denke mal meine Grafikkarte war da einfach zu schwach. Das gleich mit olama. Irgendwie harmoniert es nicht so ganz mit der Hardware. Wörter kommen ein wort die Sekunde (also von der KI) und braucht ewig für den Code. Da sind die Online lösungen gefühlt besser. Oder hatte ich einfach falsche Modelle oder ?

mz_z · Mittwoch um 14:23

Welche Modelle hast du denn ausprobiert?

OpenAI und co. haben gigantische Rechenparks und die Modelle sind riesig. Sicherlich Billionen Parameter anstatt Milliarden. Dadurch sind sie auch genauer. Außerdem sind Cloud GPUs auch nicht mehr mit Gaming GPUs vergleichbar, die haben 10-100x mehr KI-Leistung.

Wenn du dir schnellere Modelle wünschst, musst du kleinere nehmen. Die sind aber nicht so genau.

Probier mal Qwen 3.5 9B aus. Das passt auf deine GPU. Ansonsten kannst du noch dynamische, sogenannte Mixture of Experts (MoE) Modelle ausprobieren. Die sind nochmal schneller aber etwas weniger genau.

Aber viel schneller wird's mit einer RTX 5050 nicht. Oder halt sehr ungenau. Es gibt schon Gründe dafür, dass es die Cloud-Provider gibt

Edit: Treiber ist aktuell und das Cuda Toolkit installiert?
Ansonsten kannst du noch nach Modellen suchen, die in NVFP4 quantisiert wurden. Damit wird es mit RTX 5er GPUs nochmal deutlich schneller. Also zb. diese für die 35B-A3B Variante und diese für die 9B.

Edit2: Nvidias Nemotron könntest du auch noch ausprobieren.

AG1M · Mittwoch um 19:47

Selbst mit NVFP4 ist es mit 8 GB VRAM schon am Limit bei Qwen 3.5 9B, denn die Kontextlänge muss stark verringert werden (etwa nur um die 2K um noch etwas Cache/Buffer zu haben) was aber gerade beim Coding wichtig ist. Unter 12 GB VRAM mit einer brauchbaren Kontextlänge würde ich da gar nicht erst anfangen.

Liesel Weppen · Mittwoch um 21:42

Runlevel5 schrieb:
Wörter kommen ein wort die Sekunde (also von der KI) und braucht ewig für den Code. Da sind die Online lösungen gefühlt besser. Oder hatte ich einfach falsche Modelle oder ?

Weil du eben mit CPU+RAM nur wenige TOPS erreichst (eine neuere CPU mit einer NPU soll da wohl noch etwas helfen, wenn die Software/Modell diese nutzen kann). GPU+VRAM ist um Welten schneller, es muss dann aber logischerwesei auch genügend VRAM vorhanden sein. Mit 8GB bist du da eher an der Untergrenze, mit der überhaupt was halbwegs brauchbares läuft.

Deswegen sind ja die ganzen KI-Anwender so scharf auf Grafikkarten mit 16, 24, 32GB Speicher. Weil man eigentlich nicht mal die schnellste GPU braucht, sondern primär erstmal genug VRAM.

Hoto · Gestern um 15:23

Das Problem ist halt wirklich, dass Coding viel KV Cache benötigt, der zum Modell im (V)RAM noch zusätzlich sehr ordentlich (V)RAM frisst. Mit 8GB VRAM bei einer so schwachen GPU kann man Coding lokal eigentlich vergessen.

Andere KI Anwendungen sind aber durchaus damit möglich. Nur Coding ist denkbar schlecht dafür.

Gouvernator · Gestern um 16:29

Mit 16Gb VRAM kann man nix coden. Ich teste immer wieder neue LLMs mit einer Timer-App. Bis das LLM was gebaut hat, in VS Code + Cline Agent vergehen 40.000 Tokens. So ein Kontext Fenster muss man mindestens einplanen. Mit Nemotron 3 Nano fährt man zur Zeit am besten. 32Gb Vram ist aber Pflicht. Ich kann mit 70Gb Vram niedrige Quants von 120B LLMs fahren. Das ist auch was am Ende etwas sinnvolles bzw. funktionierendes ausspucken kann.

Hoto · Heute um 06:12

Das kommt sehr auf das Modell an. Ist es ein MoE basiertes Modell ist das auch immer noch ordentlich schnell, wenn der Großteil im normalen RAM liegt. Wichtig ist eher, dass der KV Cache komplett in den VRAM passt, sonst wirds richtig langsam. Ich kann auch 120B Modelle in Q4_K_M nutzen, KV Cache und was noch drauf passt in den VRAM, Rest in den RAM. Da reicht 24GB VRAM + 64GB RAM locker (wären zusammen 88GB Speicher, aber das OS und Software nutzen natürlich schon ein wenig davon). 16GB VRAM ginge sicherlich auch noch, aber mehr VRAM ist natürlich immer besser. Aber klar, Coding ist schon sehr anspruchsvoll und entsprechend ist da dann eine Performance, die bei anderen Einsatzzwecken ausreichend wäre, doch etwas arg langsam. Mit genug RAM gehts aber.

Kommt halt auch immer darauf an was man überhaupt Coden will, einfache kleine Programme können sicherlich auch schon kleinere LLMs. Ist daher auch die Frage ob man damit einfach nur etwas Code erstellen will oder ernsthaft damit Software Projekte umsetzen will. Bei mir ist es letzteres, weswegen ich da dann doch lieber auf ChatGPT Code setze. Daher fehlt mir da selbst tatsächlich etwas die praktische Erfahrung mit lokalen Modellen. Sehe aber seit Monaten auf Reddit LocalLLaMA wie über lokale Modelle fürs Coding geredet wird und was da schon mit kleineren Modellen geht oder auch nicht geht.

Gerade Software Projekte, wo etliche Funktionen Abhängigkeiten aus anderen Dateien haben, bläht sich der Kontext (KV Cache) extrem schnell auf.

Suche

Welche lokale KI verwenden zum Programieren?

Runlevel5

Enthusiast

passat3233

Urgestein

mz_z

Enthusiast

Liesel Weppen

Urgestein

Schmufix

Experte

Gouvernator

Enthusiast

Runlevel5

Enthusiast

mz_z

Enthusiast

AG1M

Legende

Liesel Weppen

Urgestein

Hoto

Legende

Gouvernator

Enthusiast

Hoto

Legende