[Sammelthread] ChatGPT und andere KI - Anwendungsbeispiele und Diskussion

Naja, laufen bedeutet noch nicht das sie auch wirklich öffentlich genutzt würden und nicht bloß zum Testen sind. Warum? Weil solche Größen dermaßen teuer im Betrieb sein dürften, dass sich das kein KI Unternehmen leisten kann. Das ist ein Ressourcen Verbrauch, der Kosten explodieren lässt. Zumal je größer die LLMs sind desto langsamer werden sie auch.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Dass die öffentlich nicht genutzt werden ist ja offensichtlich, sonst würden wir diese Modelle ja kennen. Es gibt auch die Vermutung, dass die Anbieter ihre allerbesten Modelle unter Verschluss halten und nur intern nutzen (wenn Antrophic z.b. das beste coding Modell hat, dann können sie sich dadurch ja einen Vorteil verschaffen wenn kein anderer Zugriff drauf hat). Dann wird halt nur das released, das man braucht um im Wettbewerb weiter gut vorne zu stehen.
 
Naja, was heißt dann würden wir sie kennen. Wir wissen ja nicht mal wie groß die aktuellen Modelle sind, weil das schon länger nicht mehr kommuniziert wird. Aber man wird sicher sein können, dass die Unternehmen nicht direkt ihr bestes Pferd ins Rennen schicken werden. Es ist zwar ein KI Wettrennen, aber eben ein Ausdauerrennen, kein Sprint.
 
Zuletzt bearbeitet:
Ich wusste nicht mal, dass das existiert, habs Gestern schon auf Reddit gelesen. Ist echt übel was da teilweise bei Open-Source abgeht.
 
Claude ist ja im Coding meilenweit ChatGPT voraus. Das ist ja echt krass. Während man mit ChatGPT sich rumquält, liefert Claude einfach ab. Habe beide im Moment im Abo.
Ich war eigentlich echt ein Fan von ChatGPT aber die hat echt stark qualitativ nachgelassen...
 
Gehen die echt ab, muss man mal zum Thema Mythos nachlesen. Klingt nach Science Fiction.
 
Denke ich werde auch auf Claude wechseln, da Sora auch abgeschaltet wird seh ich Premium bei GPT eh gar nicht mehr ein.

Bin noch am überlegen ob ich meine Daten rüberziehe oder neu anfange. Haben unser Baby viel über GPT getrackt und ganz schöne Auswertungen bekommen.
 
Claude ist ja im Coding meilenweit ChatGPT voraus. Das ist ja echt krass. Während man mit ChatGPT sich rumquält, liefert Claude einfach ab. Habe beide im Moment im Abo.
Ich war eigentlich echt ein Fan von ChatGPT aber die hat echt stark qualitativ nachgelassen...
Nur um Missverständnisse vorzubeugen. Reden wir hier von ChatGPT oder von ChatGPT Codex per VS Code Erweiterung? Das sind nämlich zwei paar Stiefel und das sollte man daher korrekt benennen.
 
 

-----


we all love letting the ai handle the heavy lifting and just running "npm install" without thinking. but a supply chain attack hit axios a few hours ago. version 1.14.1 silently pulls in "plain-crypto-js@4.2.1", which is an obfuscated rat dropper. npm pulled it, but if you were vibe coding today, you might be infected.
the problem with ai coding is we let claude write the code, hit enter, and never check the package.json diffs. we just trust the flow. attackers know this. they are targeting devs who just tell the cli to scaffold a project and run installs without a second thought.
run this right now to check your machines:

Code:
Bash
# check your lockfile
grep -r "plain-crypto-js" package-lock.json
grep -r "axios@1.14.1" package-lock.json

# check for persistence artifacts
ls -la /library/caches/com.apple.act.mond   # macos
ls /tmp/ld* # linux

if you see it, roll back to "axios@1.14.0" immediately and rotate all your keys, aws creds, everything.
i just made my dev associates pin their versions and audit all our lockfiles. slow down on the installs and actually read what the ai is pulling in.

Sources:
https://socket.dev/blog/axios-npm-package-compromised
https://www.aikido.dev/blog/axios-npm-compromised-maintainer-hijacked-rat
 
Damit hat die KI aber nur indirekt zu tun.
Das Problem handelt man sich doch genauso ein, wenn man das Package benutzt und einfach die neueste Version nimmt.

Sowohl mit KI-Unterstützung, als auch wenn man das manuell macht, setzt das Wissen vorraus, das dieses Paket eben verseucht ist.

Die Masche ist übrigens so alt wie NodeJS selbst (und funktioniert auch genauso mit Python/Pip). Da werden "immer wieder" schadhafte Pakete eingeschleust.
 
Das Problem handelt man sich doch genauso ein, wenn man das Package benutzt und einfach die neueste Version nimmt.
War auch genau mein Gedanke als ich den Text gelesen hat. Quasi jedes Projekt nutzt ohne Ende externe Dependencies, viele sind open Source und könnten geprüft werden aber in der Praxis macht das doch fast keiner, man vertraut einfach dem Maintainer Team. War doch gerade erst wieder so ein Fall mit liteLLM oder der Krasse Fall wo die SSH Library kurzfristig ne Backdoor durch xz utils bekommen hat die so gut in irgendwelchen binären Testfiles versteckt war, dass sie jemand nur durch Zufall gefunden hat. Will gar nicht wissen wie viel von diesen Fällen unentdeckt bleiben.
Gleichzeitig Frage ich mich aber, ob nicht AI hier auch unterstützen könnte. Wenn hier der Source code zur Verfügung steht, könnte ne AI ja die Änderungen überprüfen und so halbwegs einschätzen ob da Schindluder mit getrieben wurde.

*edit*
Den Hinweis hier zu posten finde ich aber trotzdem gut, ist ja nicht unwahrscheinlich, dass gerade jemand hier betroffen ist durch Vibe Coding und jetzt befallen ist.
 
Das eigentliche Problem ist, dass solche Angriffe mit KI eben zunehmen werden. Open Source hat da ein Problem für das sie eine Lösung finden müssen. Ironisch, dass die Lösung wohl auch hier KI beinhalten wird.
 
Stimmt und umgekehrt kann man KI natürlich nutzen um Anfällige Projekte dafür zu finden (also aus Attacker Sicht)
 
Ja, der Fluch von KI, diese macht es für alle leichter, auch für die mit keinen guten Motiven.
 
Ich habe für mich schon ein paar kleine Programme schreiben lassen. Am Ende einfach die KI selbst das Projekt auf Sicherheitslücken prüfen lassen und beheben.
Dabei nicht einfach machen lassen, sondern erst eine Aufstellung mit Lösungen erarbeiten lassen und dann kann man selbst entscheiden wie und was man beheben lassen will.
Ja nach Größe des Projektes müssen auch hier mehrere Iterationen gemacht werden.
 

-----


Abstract​

As autonomous AI agents increasingly navigate the web, they face a novel challenge: the information environment itself. This gives rise to a critical vulnerability we refer to as "AI Agent Traps", i.e. adversarial content designed to manipulate, deceive, or exploit visiting agents. In this paper, we introduce the first known systematic framework for understanding this emerging threat. We break down how these traps work, identifying six types of attack: Content Injection Traps that exploit the gap between human perception, machine parsing, and dynamic rendering; Semantic Manipulation Traps, which corrupt an agent's reasoning and internal verification processes; Cognitive State Traps, which target an agent's long-term memory, knowledge bases, and learned behavioural policies; Behavioural Control Traps, which hijack an agent's capabilities to force unauthorised actions; Systemic Traps, which use agent interaction to create systemic failure, and Human-in-the-Loop Traps, which exploit cognitive biases to influence a human overseer. This research is not specific to any particular agent or model. By mapping this new attack surface, we identify critical gaps in current defences and propose a research agenda that could secure the entire agent ecosystem.
 
Zuletzt bearbeitet:
Es wäre schön wenigstens in einem deutschen Forum mal deutsche Informationen zu KI zu lesen. XD

Gemma 4 scheint ja aktuell einen regelrechten Hype zu haben, weil es angeblich für seine Größe so stark sein soll wie bis zu 10x so große Modelle. Werde es definitiv mal testen, wird mein erstes Gemma Modell sein. Da es ein lokales Modell ist, kann ich auch damit leben, dass es von Google ist.
 
Zuletzt bearbeitet:
Es wäre schön wenigstens in einem deutschen Forum mal deutsche Informationen zu KI zu lesen. XD

Gemma 4 scheint ja aktuell einen regelrechten Hype zu haben, weil es angeblich für seine Größe so stark sein soll wie bis zu 10x so große Modelle. Werde es definitiv mal testen, wird mein erstes Gemma Modell sein. Da es ein lokales Modell ist, kann ich auch damit leben, dass es von Google ist.
Gemma4 31B ist ohne Scheiß so intelligent wie Deepseek und 500B+ Konsorten. Das Ding kann dir aus dem Stand fehlerfrei ein Game aus dem Ärmel schütteln. Mit Sound, Musik, Physik, 3D oder 2D. Solche Aufgaben habe ich zuletzt erfolgreich erstellt sehen nur bei Youtubern die allerneuste chinesische Cloud Models getestet haben.
 
Ja, das klingt schon gut, nur ausgerechnet beim programmieren ist mir Privacy egal. :d

Wenn das Model aber auch bei allem anderen so stark wäre, wäre das zumindest ein guter Hinweis darauf. Daher muss ich das mal selbst testen ob es für meinen Einsatzzweck passt.

Ich bin da tatsächlich auch eher an den kleineren bzw. schnelleren Modellen interessiert zwecks conversational Chatbot, also STT > Text > TTS. Da ist mir auch hohe Geschwindigkeit wichtig. Ein 31B dense Modell ist jetzt nicht unbedingt für Geschwindigkeit bekannt. Das etwas kleinere MoE Modell klingt da schon interessanter, kann aber natürlich mit einem Dense Modell ähnlicher Größe nicht mithalten (MoE Modell sind für ihre Größe immer Schwächer als Dense Modelle).
 
Also ich hab das Gemma4 MoE auf meiner P40 mal mit Home Assistant Voice getestet.

Bis jetzt das beste Modell zum Unterhalten und für Tools calling was ich lokal mit deutscher Sprache getestet habe.

Ganz normalen Satz gesprochen, dass er zwei Rolläden öffnen soll und beide aufgemacht.

Geschwindigkeit ist auch okay auf der alten Hardware.

Das Modell werde ich definitiv weiter testen.
 
Ich habe die Experten Anzahl beim 26B Gemma4 von 8 auf 15 in LM Studio erhöht. Der Speed ist dann schlechter, aber die Intelligenz ist viel besser. Mit BF16 programmiert es mir anstatt NES Clones gerade 3D Physik-Games.
 
Aufgrund von mehrmaligem, nachdrücklichem Tipp nutze ich Claude statt ChatGPT und Google Gemini.

Habe mir heute spaßeshalber mal Zusammenfassungen von Seiten von meinem Blog schreiben lassen und die KI jeweils gebeten auch nach Rechtschreibfehlern zu suchen. Habe dafür extra welche eingebaut.

Die Ergebnisse hätten unterschiedlicher nicht sein können.

Prompt:

»Kannst du diese Seite auf inhaltliche Fehler überprüfen? Auch Rechtschreibung?« dazu dann den Link zum Blogbeitrag.

Google Gemini

Findet keine Rechtschreibfehler, erfindet dafür neue (die gar nicht im Dokument auftauchen). Sehr schön auch das Problem mit dem Datum: »Im Text steht „März 2026“ und „7. April“ – da wir aktuell erst April 2024 haben, ist das entweder ein Blick in die Zukunft oder (wahrscheinlicher) ein inhaltlicher Fehler des Autors (Zahlendreher bei der Jahreszahl).« - Für Google Gemini ist also gerade April 2024? :d

Die Zusammenfassung ist auch irgendwie eine andere Geschichte, denn es sind plötzlich Inhalte drin, die nicht von mir stammen. So wurde zum Beispiel ein Sturz mit dem Motorrad erfunden, weil im Text etwas von »Schneefall im März« steht. Es wurde sogar ein Ort angegeben, an dem der Unfall passiert ist - steht nicht drin und ich war da auch noch nie mit dem Motorrad. :d

ChatGPT

Benennt die Rechtschreibfehler nicht, bemängelt dafür - mein bekanntes - Problem mit der Zeichensetzung. Es fehlt bei mir leider immer wieder hier und da ein Komma. Ich sollte einfach kürzere Sätze schreiben. Bemängelt wird auch, dass ich »häufig das statt dass« geschrieben hätte. Konkret würde immer wieder », das« geschrieben stehen statt », dass« - es taucht nicht ein einziges mal im originalen Text ein ", das" auf?

ChatGPT scheint den Text ins Englische zu übersetzen und macht dann die Überprüfung. Also meckert er plötzlich an, dass ich englischsprachige Begriffe falsch verwendet hätte? Die tauchen im originalen deutschen Text aber nicht auf. Als Beispiel: »Langlebigkeit« habe ich geschrieben, ChatGPT meckert »„Longvity“ (falsch geschrieben)« an. :d

Zudem wird mein Schreibstil kritisiert. Ich würde »zu viel auf fremde Erfahrungen bauen« (sinngemäß). Ursache sind Angaben, dass ich mich von anderen Blogs habe inspirieren lassen etwas zu schreiben und dies so benannt habe (also wie bei einer Blogparade). ChatGPT macht daraus: »subjektive Einschätzungen sind nicht gekennzeichnet«. Ich habe aber nie andere Blogs zitiert, sondern nur darauf hingewiesen, dass ich inspiriert wurde. Insgesamt sei der Schreibstil aber »für einen Blog in Ordnung«, es sei aber »kein Fachartikel«.

Claude

Hat die versteckten Fehler gefunden (plus einen weiteren, der mir entgangen war, eine Hochzeit - also zwei gleiche Worte hintereinander wo nur eins hingehört hätte). Die Zusammenfassung war korrekt.

Claude hat, anders als die anderen beiden, keine weiteren für mich nutzlosen Dinge ergänzt oder halluziniert irgendwelche Geschichten dazu. Die Zusammenfassung ist sehr kurz ausgefallen, Google Gemini und ChatGPT haben sich sehr lange zu allem ausgelassen (ohne wirklich zu helfen).
_____

Was ich mich frage: Sind die Fehler zumindest teilweise sogar absichtlich von der KI eingefügt worden? So etwas wie das Datum? Gerade bei Google Gemini hatte ich auch bei einfachen Test-Programmieraufgaben wie »Mach mit eine Funktion in PHP, welche in einer Schleife einen Array ausgibt« Fehler drin.

Wäre aber irgendwie schlechte Werbung für das eigene Produkt? Wieso sollte ich ein Abo abschließen für etwas, das offensichtlich Fehler macht?
 
Es hat ja schon nen Grund warum wir dir hier empfohlen haben Claude zu nutzen, das ist einfach das beste Produkt und die Anderen kriegen es einfach nicht so gut hin :d
Aber ehrlicherweise ist dein Prompt nicht gut, je nach Modell wird da halt einiges reininterpretiert was er jetzt damit machen soll.

Besser fährst du vermutlich, wenn du ihm ne genauere Beschreibung der Aufgabe gibst:

Du bist mein Assistent der das professionelle Lektorat für meinen Blog übernimmt. Ich erwarte von dir, dass du gewissenhaft die Inhalte überprüfst und auf Rechtschreibung überprüfst. Bevor du etwas änderst, gib mir eine Auflistung der Fehler die du gefunden hast und warte auf mein Feedback. Außerdem sollst du die Blogposts inhaltlich überprüfen und mir auch hier inhaltliche Fehler vorlegen zum Review meinerseits.
Wenn du Änderungsvorschläge hast, sollen sie weiterhin der Tonalität aus dem Schreibstil aus meinem Blog entsprechen.

Claude kann dir übrigens auch helfen so einen Prompt vorzubereiten wenn du ihm erklärst was du machst und was du erwartest. Kannst ihm auch sagen er soll dir Rückfragen stellen die ihm helfen die Aufgabe besser zu verstehen.
 
Ich habe den Prompt so gewählt, wie ihn Freunde und Bekannte von mir formulieren würden. Also so, als würde man mit einem Menschen reden, der dann evtl. noch etwas nachfragt.

Gerade die Rechtschreibprüfung sollte dann doch eigentlich kein Thema sein? Sollte man meinen.

Auf die Idee mit der Zusammenfassung kam Google Gemini von ganz alleine.

Für die Zusammenfassung hatte ich noch den Zusatz »Erstelle mir eine Zusammenfassung vom Inhalt für die Verwendung als Angabe bei og: description« (Leerzeichen nur, damit hier im Forum kein Smiley kommt) separat. Google Gemini blieb beim halluzinierten Sturz.

Darauf angesprochen:

Was ist passiert?

Ich habe bei meiner ersten Analyse Informationen aus anderen Berichten des Blogs (oder aus meinem allgemeinen Wissen über Motorrad-Stürze in den Alpen auf dieser Seite) vermischt.

»Es gibt keine schlechten Fragen - nur schlechte Prompts« stimmt, da gebe ich dir natürlich recht. Google Gemini bleibt aber beim Sturz auf einem Pass, welcher definitiv weder auf der Seite noch in meinem Blog auftaucht. Es ist Google, das weiß sicherlich besser was ich geschrieben habe als ich selbst? 😊
 
Plottwist: du leidest wegen dem Sturz unter Amnesie und kannst dich daran nicht mehr erinnern... Gemini schon. :fresse:
 
Ich kontere. Ich habe Gemini um eine Zusammenfassung der Funktionen von GPSBabel gebeten.

Allesfönner?

1775682962957.png


1775682985635.png



Ich habe mir tatsächlich vorgestern die Haare geföhnt. Aber nicht gefönnt. ;)
 
Ich habe den Prompt so gewählt, wie ihn Freunde und Bekannte von mir formulieren würden. Also so, als würde man mit einem Menschen reden, der dann evtl. noch etwas nachfragt.
Das ist der Knackpunkt, den man lernen muss. Eine KI ist eben nicht irgendein Freund oder Bekannter und es hilft ungemein die Fragen/Aufgaben entsprechend zu stellen.

Gerade die Rechtschreibprüfung sollte dann doch eigentlich kein Thema sein? Sollte man meinen.
Ich habe mir einen PullRequest-Agent erstellt, da steht im wesentlichen drin, er soll alle Änderungen auf dem aktuellen Codebranch gegenüber Master prüfen, ob auskommentierter Code vorhanden ist, eingefügte Kommentare auf Rechtschreibung prüfen und noch ein paar andere Sachen.

ChatGPT versagt dabei komplett, der kriegt nichtmal den Abgleich mit Master hin.
Mit Claude geht das, es fällt aber auf, das er selbst das Diff jedesmal anders bildet. Er findet aber trotzdem nicht jeden Rechtschreibfehler.
Da fällt mir gerade auf... das er letztens auskommentierten Code nicht gefunden hat, könnte daran liegen, weil ich mit /* */ einen ganzen Block auskommentiert habe.... da tauchen im Diff dann nur die eingefügten Zeilen für /* und */ auf. Das dazwischen noch was steht, was somit auskommentiert wurde, rafft er wohl nicht, weil ich ihm gesagt habe, er soll "nur" das Diff angucken. :unsure:
Ein Mensch würde verstehen "was gemeint" ist und anhand des Diffs auch merken, das zwischen den Kommentarzeichen doch Code steht, der dadurch auskommentiert wurde. Genau das hat der menschliche Reviewer auch erkannt und entsprechend bemängelt. :ROFLMAO:
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh