So Kinder, weiter im Text.
Begonnen hab ich mit Text2Img und Img2Img, dann Img2Vid. Das braucht alles viel Rechenleistung, der VRAM Verbrauch ist in Relation überschaubar (schon auch hoch). Ist alles mehr Spielerei und weit weg von "real", zumindest das, was man Open-Source so auf seiner HW laufen lassen kann. BigTech, DarkTech und DeepStateTech können da wsl. mehr, na wie auch immer.
Auf jeden Fall mach ich jetzt seit ner Zeit mit Text LLMs rum (Audio In/Output hab ich noch nicht erreicht) und stelle überrascht fest, dass die Verhältnisse hier anders sind.
Offenbar ist die Rechenleistung selbst gegenüber dem VRAM Bedarf eher untergeordnet, soll heissen, am Laptop mit Intel Ultra und 32gb RAM (die iGPU kann sehr viel als VRAM verwenden) laufen LLMs jetzt nicht sooo viel langsamer als auf der 5090. Schon langsamer, aber nicht um den Faktor, den die Rohwerte der Rechenleistung erwarten lassen würden.
Insofern bin ich mir nicht sicher, wie schlau es ist mit einer leistbaren GPU zu arbeiten (selbst mit ner 96gb RTX).
Spannend sind doch z.B. diese Qwen 122b a10b Modelle und sowas, die sollen schon richtig gut sein. Als wohl brauchbares Q5_k_xl hat das 91gb, Platz für Kontext braucht man ja auch noch (was man erstmal immer übersieht, als Anfänger bzw. außenstehender). Als Q4_k_xl sinds 77gb, falls der Platz für Kontext sonst fehlt (es soll wohl immer noch der bessere weg sein ein Model mit mehr Parametern stärker zu quantisieren als eines mit weniger zu nehmen, auch solls besser sein das Model stärker zu Quantisieren als den KV Cache stärker zu Quantisieren).
Nunja, so auf jeden Fall die Frage, wie man das am besten anstellt. Die Speicherbandbreite ist in dem Fall wohl nicht sooo der Dealbreaker, wobei ich da noch mehr probieren muss.
Möglicherweise ist es schlauer die AI in so ein Standalone Mobile-Chipset auszulagern (Spark, Intel Mobile Ultra, AMD AI max) und nicht im eierlegenden Wollmilchserver zu integrieren.
Kostet halt momentan 3-4k sowas mit 128gb, meh.
edit:
Wie sieht das jetzt mit Videos aus? benötigen die auch extrem viel RAM? Oder wird eh alles 720p gerendert und hochskaliert?
Braucht von allem Viel. Bei WAN arbeitest du mit High-Noise und Low-Noise Modellen, dass das alles in den VRAM passt und dort liegen bleibt ist eher unwahrscheinlich, eine richtig schnelle SSD wäre gut (Gen 5 Raid 0 aus 2 oder so).
Du bist halt immer am Rum laden, weil Text Encoder (LLM), VAE und die Modelle (Base, Highspeed Lora usw.) alle recht groß sind..
LTX ist ganz interessant, da geht schon mehr, inklusive Ton.
Ist aber alles nicht ganz einfach und gerade auf ner AM4 Plattform mit ner Gen 4 SSD ist das lame. Leider werden real nicht die Geschwindigkeiten der Benchmarks erreicht, warum auch immer das so ist. Ein 16gb Model ist leider nicht in 2 Sekunden geladen. Es geht halt doch relativ viel Zeit drauf beim Rumspielen, obwohl die HW nicht schlecht ist.
Ich denke, dass img2vid ähnlich arbeitet wie ne Kette aus img2img, immer mit dem vorherigen img als Start und so eine Folge an Bildern generiert wird. Zumindest ist der Leistungsbedarf ähnlich.