[News] Open-Source Tool: Windows-Anwendungen über den Accessibility Tree steuern (Rust)

Kaptnkek

Profi
Thread Starter
Mitglied seit
20.03.2022
Beiträge
308
Moin zusammen,

ich habe ein kleines Open-Source Projekt entwickelt, das ich gerne teilen möchte: DirectShell.

Kurz gesagt: Es liest den Windows Accessibility Tree (die Schnittstelle die normalerweise für Screenreader gedacht
ist) und schreibt alle UI-Elemente einer Anwendung in eine SQLite-Datenbank. Damit kann man Programme per SQL abfragen
und auch Eingaben injizieren — oder als Proxy Abfangen und verändern. Es funktioniert soweit ich das sehe mit jeden Programm das WA nutzt was ~ +99% sein dürften.

Das Ganze ist in Rust geschrieben, ca. 1,2 MB groß, und läuft als Overlay das man auf beliebige Fenster "snapt".

Gedacht ist es vor allem als Baustein für Automatisierung und als Schnittstelle für KI-Agenten, aber auch für alle die
programmatisch mit Desktop-Anwendungen arbeiten wollen ohne auf OCR oder Pixel-Erkennung angewiesen zu sein.

Im Grunde ist es ein Primitivum das jedes X- Beliebige Programm Forked , Automatisch eine SQL Lite DB erstellt sowie weitere sub Dateien Generiert welche es :

- Jedweigen Scripten , Programmen , Code usw
- Sowie KI Modellen und Agenten

Ermöglicht Jedes Programm Nativ zu Lesen , Benutzen und zu Manipulieren.

Im Grunde ist es eine Automatisch entstehende art API unabhängig davon ob das Programm eine API besitzt. Es funktioniert also ebenfalls mit alter legecy Software oder Prioritären API Programmen.

Das wichtige ist dabei aber es " Hackt" nichts , ändert nichts , bricht ,keinerlei sicherheits Mechanismen und bricht damit keine TOS , AGB oder ein Gesetz.

und da die WA Schnitstelle in über 180 Ländern Rechtlich geschützt ist ist es auch nicht Patchbar.

Repo: https://github.com/IamLumae/DirectShell
Whitepaper: https://dev.to/tlrag/-directshell-i...niversal-app-interface-no-screenshots-no-2457 ( Volle Technische Version im Short Paper Verlinkt sowie ein Live Demo Video)
Lizenz: AGPL-3.0 also open source und free to use für alles und jeden der es nicht Kommerziell nutzen will.

Bin gespannt auf Feedback und Fragen. Ist natürlich noch Day 1 — es gibt genug Ecken und Kanten, aber die Grundlage
steht.

Grüße Martin
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Blog 19.02.26

Migräne , Stress und die suche nach der Nadel im Heuhaufen.


Es ist eine Interessante Situation. Auf der einen Seite Trudeln hier und da Interessante Kommentare ein :

Ozz
Feb 18

This is absurdly cool! Fast as lightning. Managed to build a macOS version of it in an hour :) THANKS! I'm sure this is an idea that will not go back to the bag. would be cool to see how this gets integrated to "everything"... but for now it makes claude code so much smarter.

THANKS! :)

(Dev.to Kommentar)

Auf der anderen seite hat man das gefühl nichts bewegt sich. 100 Downloads. Einige Hundert Reads auf den Papern aber es scheint fast wie ein Kollektives " das ist interessant aber was machen wir jetzt damit zu sein"

Vielleicht liegt das einfach daran das noch effektiv die Anwendungen fehlen. Directshell verspricht fortschritt aber das ist natürlich erst dann greifbar wenn die ersten Anwendungen auf Basis von DS entstanden sind die auch Praktisch Funktionieren.

Ich selbst Fokussiere mich auf den KI-Agenten Usecase weil ich glaube das es einer der Vielversprechendsten ist aber man merkt auch einfach das man da plötzlich vor der Situation steht etwas zu Bauen zu dem es keine Referenz gibt. kein "mal kurz Googlen wie mache ich das" Keine best Practice. Reines Try and Error.

und ich kann euch das sagen das ist Ansträngend.

Wo stehe ich ?

Den gemini Ansatz der einige der roh daten in " Häppchen zerlegt" habe ich wieder eingestampft. Gestern gedacht es ist klug heute gemerkt : Nein , ich will Deterministische Lösungen auch wenn sie schwerer sind.

Ich habe nun also eine Mechanik in den MCP Server gebaut der die Relevanten daten aus dem CDM Port des Browser holt , aufbereitet und daraus automatisch die Notwendigen Tools Dynamisch abbildet.

Also : Kein zusätzlicher API Call. Keine weiteren kosten. Das ist gut.

Die größte ungelöste frage vor der ich nach wie vor stehe ist wie ich es Realisiere das lernfortschritte der KI direkt in einen Learning Loop gegossen werden können. Das Problem ist klar kannst du der Ki sagen merk dir das. Aber das ist nicht zuverlässig.

Es muss eine Methode her die Autonom , Deterministisch und zuverlässig Learnings extrahiert und diese wieder als permanenten Loop Kontext Bewusst in die KI zurück Subventioniert.

Ansonsten gabs einige coole PN´s und anfragen. Einige Meetings sind Geplant. aber noch nichts Konkretes.

In dem Sinne

Euch einen wunderschönen Donnerstag <3
 
So Kleines Update. Ich hab meine Armseligen Video Skills genutzt und mal versucht ein Besseres Video zu machen das Menschen verständlich zeigt was Directshell kann :



Es wird keinen preis gewinnen das ist mir schon klar. Aber - nichts destotrotz zeigt und beweist es das Directshell bereits jetzt in einigen bereichen Signifikant besser performt als die Konkurenz.

- Es verbraucht Deutlich weniger token da es keine Screenshots nutzt
- es muss sich in der website Navigation nicht auf Vision Modelle verlassen
- Es kann JEDES Programm nutzen nicht nur Spezielle Browser.

Und das ist der Punkt hinter Directshell. Nicht das es schon Perfekt wäre. es liegen noch viel debugging und verbesserungen vor mir - sondern das es nun ein tool gibt das Jeder Agentischen KI die MCP nutzen kann oder CLI dazu in der Lage ist Jedes Programm und jeden Browser zu nutzen. Es zeigt das wir mit DS dazu in der lage sind jeder noch so alten app und sei die 30 jahre alt einen defakto KI Support zu integrieren und das wir nun dazu in der Lage sind jeden programm eine API zu geben egal ob es nativ eine hat oder nicht.

In dem Sinne euch einen schönen abend.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh