Innovation

Die Zukunft der Bedienung von Windows: Der Microsoft UFO-Agent

Die Art und Weise, wie wir mit unseren Computern interagieren, entwickelt sich ständig weiter. Ein spannendes Beispiel für diese Entwicklung ist der Microsoft UFO-Agent (User Interface Focused Operator), ein innovatives System, das Benutzeranfragen auf dem Windows-Betriebssystem durch intelligente Interaktionen mit Anwendungen erfüllt. In diesem Blogartikel werden wir erklären, wie der UFO-Agent funktioniert und welche Technologien dahinterstecken.

Hauptkomponenten des UFO-Agenten:

  1. Dual-Agent-Framework:
  • HostAgent: Zerlegt die Benutzeranfrage in Teilaufgaben und wählt die geeignete Anwendung aus.
  • AppAgent: Führt spezifische Aktionen auf der ausgewählten Anwendung aus.
  1. Steuermodul für Interaktionen:
  • Ermöglicht das Ausführen von Aktionen ohne menschliches Eingreifen, was eine vollständig automatisierte Ausführung ermöglicht.
  1. Speicher und Blackboard:
  • Speicher: Speichert Informationen über Benutzeranfragen, Anwendungszustände und andere relevante Daten.
  • Blackboard: Teilt Informationen zwischen den Agenten.
  1. Prompter und Prozessor:
  • Prompter: Generiert Prompts für das Sprachmodell basierend auf Benutzeranfragen und Anwendungszuständen.
  • Prozessor: Verwalten von Workflows, einschließlich der Bearbeitung von Benutzeranfragen, Ausführung von Aktionen und Speicherverwaltung.

Arbeitsablauf:

  1. Bearbeitung von Benutzeranfragen:
  • Der HostAgent zerlegt die Benutzeranfrage in Teilaufgaben und wählt die geeignete Anwendung aus, indem er GPT-Vision verwendet, um Screenshots der grafischen Benutzeroberfläche (GUI) und Steuerinformationen zu analysieren.
  • Der AppAgent führt dann spezifische Aktionen auf der ausgewählten Anwendung basierend auf den zerlegten Aufgaben aus.
  1. Ausführung von Aktionen:
  • Der AppAgent verwendet pywinauto, um UI-Steuerelemente zu inspizieren, deren genaue Position abzurufen und Aktionen wie das Klicken auf Schaltflächen oder das Eingeben von Text durchzuführen.
  • Das Steuermodul für Interaktionen übersetzt diese Aktionen in ausführbare Operationen.
  1. Planreflexion und Schutzmechanismus:
  • UFO überarbeitet seinen Plan bei jedem Entscheidungsschritt kontinuierlich, um sich an die dynamische Natur der Benutzeroberfläche anzupassen.
  • Ein Schutzmechanismus sucht vor der Ausführung sensibler Aktionen die Bestätigung des Benutzers, was Sicherheit und Zuverlässigkeit gewährleistet.

Bewertung:

UFO wurde in 9 beliebten Windows-Anwendungen getestet, darunter Outlook, Photos, PowerPoint, Word, Adobe Acrobat, Datei-Explorer, Visual Studio Code, WeChat und der Edge-Browser. Die Bewertung umfasste sowohl quantitative Metriken als auch Fallstudien, die die überlegene Wirksamkeit von UFO bei der Erfüllung von Benutzeranfragen demonstrierten.

  • Erfolgsquote: UFO erzielte eine beeindruckende Erfolgsquote von 86 % im Benchmark.
  • Abschlussquote: UFO zeigte eine hohe Abschlussquote, was seine Fähigkeit zur Durchführung genauer Aktionen belegt.
  • Schutzquote: UFO erreichte eine Schutzquote von 85,7 %, was seine Fähigkeit zur genaueren Klassifizierung sensibler Anfragen beweist.

Fallstudien:

  1. Löschen aller Notizen in einer PowerPoint-Präsentation:
  • UFO identifizierte effizient einen Shortcut zum Entfernen aller Notizen aus einer PowerPoint-Präsentation, was den Prozess vereinfachte und seine Fähigkeit zur Bewältigung komplexer Aufgaben zeigte.
  1. Verfassen einer E-Mail mit Informationen, die aus mehreren Anwendungen gesammelt wurden:
  • UFO navigierte zwischen Word, Photos und Outlook, um die erforderlichen Informationen zu sammeln und eine E-Mail zu verfassen, was seine Fähigkeit zur Bewältigung mehrstufiger Aufgaben in verschiedenen Anwendungen zeigte.

Einschränkungen und zukünftige Verbesserungen:

  • UI-Steuerelemente und -Aktionen: Derzeit durch pywinauto und Windows UI Automation eingeschränkt. Geplant ist die Unterstützung alternativer Backends wie Win32 API oder die Integration dedizierter GUI-Modelle für visuelle Erkennung.
  • Unbekannte Anwendungs-Benutzeroberflächen: UFO könnte erhebliche Zeit benötigen, um sich in unbekannten Anwendungsbenutzeroberflächen zurechtzufinden. Die Nutzung von Suchmaschinen als externe Wissensbasis könnte seine Anpassungsfähigkeit verbessern.

Fazit:

Der UFO-Agent ist ein bahnbrechender Ansatz zur Entwicklung eines UI-Automatisierungsagenten, der speziell für die Windows-OS-Umgebung entwickelt wurde. Sein Dual-Agent-Framework, das Steuermodul für Interaktionen und fortschrittliche Funktionen wie Planreflexion und Schutzmechanismus machen ihn zu einem vielseitigen und leistungsfähigen Werkzeug zur Interaktion mit dem Windows-Betriebssystem.

Für weitere Informationen können Sie die UFO-Dokumentation und das GitHub-Repository konsultieren.