KI für Autonome Systeme: Jetzt einsteigen und Praxisbeispiele selbst ausprobieren

By Andreas Kopp, Sr. Cloud Solution Architect AI and Data Science

4. February 2021

Zuerst gab es mechanische Systeme. Dann automatisierte. Und jetzt: autonome! Entdecken Sie Projekt Bonsai, den Microsoft KI-Ansatz für Autonome Systeme, und erfahren Sie mehr über die Vorteile von künstlicher Intelligenz und angelernter Robotik für die Fertigungsindustrie.

Schon einmal mit einem Autonomen System interagiert? Lernen Sie Moab kennen, ein kleines Kraftpaket mit hoher künstlicher Intelligenz! Was verstärkendes Lernen für Robotik-Innovationen in der Fertigungsindustrie bedeutet, warum unser Projekt Bonsai wenig mit empfindlichen Pflänzchen zu tun hat und wieso ein Tischtennisball beim Machine Teaching plötzlich die Hauptrolle spielt, erfahren Sie in unserem neuen Blogbeitrag „KI für Autonome Systeme“.

Kürzlich ist bei uns ein neues Familienmitglied eingezogen. Es hört auf den eher sperrigen Namen „Moab-Device“. Moab ist ein Open-Source-Kit für Robotik-Hardware, mit dem sich spielerisch erlernen lässt, wie man KI-Lösungen für Autonome Systeme mithilfe der Microsoft Bonsai-Plattform trainieren kann. In diesem Artikel erhalten Sie nicht nur einen kurzen Überblick über Microsoft Bonsai, sondern erfahren auch, wie Sie selbst ein Autonomes System in einer virtuellen Umgebung aufbauen und für Ihre Zwecke anlernen können.

Was sind Autonome Systeme?

Zu den jüngeren Durchbrüchen im Bereich der künstlichen Intelligenz zählen vor allem datenbasierte Algorithmen mit rein digitalen Inputs und Ergebnissen. So werten beispielsweise Machine-Learning-Systeme heute medizinische Bilder aus, erkennen betrügerische Kreditkartentransaktionen, verfassen realistische Texte, erstellen perfekte Bild- oder Videofälschungen und übertrumpfen sogar ausgewiesene Weltklasse-Profis in komplexen Brett- und Videospielen.

Bei Autonomen Systemen muss sich die KI von der Welt der Bits und Bytes nun in die Welt der Atome vorwagen. Hierbei geht es um intelligente Agents, die in physischen Umgebungen handeln können. Beispiele sind unter anderem autonome Fahrzeuge, Industrierobotik, die Steuerung komplexer Produktionsprozesse oder Drohnen.

Datengesteuerte Ansätze, wie supervisiertes Machine Learning, reichen in der Regel nicht aus, um diese KI-Systeme erfolgreich auch in der realen Welt einzusetzen. Genau das ist der Ausgangspunkt für die Microsoft Bonsai-Plattform für Autonome Systeme. In der folgenden Abbildung sehen Sie einige darauf basierende Use Cases für Optimierungs- und Steuerungsprozesse:

Abbildung mit fünf Use-Case-Beispielen für Optimierungs- und Steuerungsprozesse: Motion Control, Smart Buildings, Calibration, Process Control und Industrial Robotics

Dabei handelt es sich meist um komplexe, dynamische Steuerungs- oder Optimierungsprozesse mit mehreren Zielen und Einflussvariablen. Verdeutlichen wir das am Beispiel der Produktion: Hier sind ganz klassische Ziele die Senkung von Kosten, die Reduzierung von Abfall, die Beschleunigung von Prozessflüssen oder die Verbesserung der Ertragssituation oder Qualitätskontrolle (damit die Produkteigenschaften innerhalb der Spezifikationen bleiben). Ein eindrucksvoller Use Case dafür ist der Einsatz der Microsoft Bonsai-Plattform bei PepsiCo, um die Qualität bei der Fertigung von Cheetos zu optimieren. In diesem Blogpost (auf Englisch verfügbar) erfahren Sie mehr darüber – oder sehen Sie sich dieses Kurzvideo an:

Ein weiterer Einsatzzweck von Autonomen Systemen in der Fertigungsindustrie könnte darin bestehen, die Verwaltungsaufgaben für Ingenieure oder Maschinenführer zu vereinfachen. Denken Sie nur daran, dass es manchmal Jahre oder gar Jahrzehnte in Anspruch nehmen kann, einen hochkomplexen Maschinenkalibrierungsprozess zu meistern. Das Delegieren von Routineaufgaben an Autonome Systeme kann hingegen künftig dazu beitragen, die Überlastung Einzelner in der Fertigungsstraße zu vermeiden.

Eine gängige Methode, um diese Art von Systemen aufzubauen, wird als verstärkendes Lernen (Reinforcement Learning) bezeichnet: Dabei lernen die KI-Agents, indem sie verschiedene Aktionen und Strategien selbst durchprobieren. Der Vorgang beginnt mit der zufälligen Auswahl einer Option unter einer Reihe von möglichen Bewegungen. Ein vom Menschen bereitgestelltes Belohnungssystem leitet den Lernprozess, damit die KI die Wirksamkeit ihrer erlernten Handlungen messen kann. So führt beispielsweise der Sieg über einen Gegner im Schach zu einer positiven Belohnung. Nach immer wieder neuem Training, oft mit Millionen von Wiederholungen, lernt die KI, die nötigen Fähigkeiten zu beherrschen – und entwickelt manchmal sogar übermenschliche Fähigkeiten.

Das Ziel ist, das endgültige Autonome System in der physischen Welt praktisch einsetzen zu können. Der Trainingsprozess beginnt dabei immer in einer sicheren, simulierten Umgebung. Das verstärkende Lernen hat ein enormes Potenzial und könnte in Zukunft ein entscheidender Baustein für noch viel intelligentere Systeme sein. Zurzeit ist die Entwicklung derartiger Systeme noch immer eine komplexe Herausforderung, auch für Experten. Ein gängiges Sprichwort in der KI-Forschung lautet: Wenn Sie ein bestimmtes Problem durch verstärkendes Lernen angehen wollen, haben Sie plötzlich zwei Probleme.

Die Microsoft Bonsai-Plattform soll nun die Komplexität bei der Entwicklung Autonomer Systeme reduzieren. Fachbereichsexperten wie Maschinenführer oder Ingenieure sollen damit in die Lage versetzt werden, im Lernprozess der KI als „Lehrer“ zu fungieren. Der Workflow besteht aus folgenden Schritten:

Per Machine Teaching wird Fachwissen für ein bestimmtes Themengebiet in den Lernprozess der KI eingebunden.
Simulationswerkzeuge sorgen für eine schnellere Aufnahme und Skalierung des Trainings.
Die KI-Engine automatisiert die Generierung und Steuerung neuronaler Netze und DRL-Algorithmen (Deep Reinforcement Learning).
Die Modelle werden flexibel für die reale Welt bereitgestellt und skaliert.

Stellen Sie sich vor, Sie möchten einem Kind beibringen, wie man Tennis spielt. Sie würden wahrscheinlich damit beginnen, das Spiel zu erklären, zu zeigen, wie man den Ball mit dem Schläger trifft, und nach und nach immer komplexere Bewegungsmuster vermitteln. Anstatt sich beim Lernen auf das Gehirn des Kindes zu konzentrieren, kümmern Sie sich um die tatsächlichen Kompetenzen und Fähigkeiten, die Sie vermitteln möchten. Beim Machine Learning war es in der Vergangenheit nur allzu häufig komplett anders: Viele ML-Experten haben sich primär auf die inneren Abläufe in ihren neuronalen Netzen konzentriert – und nicht auf das eigentliche Geschäftsproblem. Das Machine-Teaching-Konzept der Bonsai-Plattform läutet hier einen Paradigmenwechsel ein: Die Idee dahinter ist, dass die Fachbereichsexperten – praktisch wie ein Tennistrainer – den Trainingsprozess anleiten, indem sie Ziele in fachspezifischen Begriffen definieren (beispielsweise Maximierung des Ertrags in einem Produktionsprozess). Diesen Ansatz stellen wir im Folgenden anhand des Moab-Beispiels genauer dar.

Simulatoren dienen dazu, die Umgebung zu beschreiben und das KI-Modell beziehungsweise Brain auf sichere Weise zu trainieren, bevor die Lösung in der realen Welt bereitgestellt wird. Um die Wiederverwendung vorhandener Modelle zu ermöglichen, unterstützt Bonsai häufig verwendete Simulatoren wie Anylogic und MathWorks. Da der Trainingsprozess in der Regel sehr rechenintensiv ist, wird einfach die Skalierbarkeit der Azure Cloud auf Abruf genutzt.

Wie bereits erwähnt, zielt Bonsai darauf ab, die Low-Level-Mechanik des zugrunde liegenden Entwicklungs- und Trainingsprozesses für Machine Learning zu abstrahieren. Dinge wie neuronale Netzwerkarchitekturen oder Belohnungsfunktionen im verstärkenden Lernen werden automatisch implementiert und immer wieder neu abgestimmt. Im Idealfall laufen all diese Prozesse automatisiert und ohne weiteres menschliches Zutun ab – auch wenn manuelle Checks natürlich jederzeit möglich sind.

Schließlich liefert Bonsai auch die Runtime-Funktionen, um das System bereitzustellen und die Lösung in Ihre weitere Umgebung zu integrieren – mithilfe der Cloud oder Edge Computing.

Praktisches Machine Teaching mit Projekt Moab

Probieren wir nun also unseren Familienzuwachs „Moab“ aus: Wir möchten dem Gerät beibringen, wie man einen Tischtennisball auf einer Platte balanciert. Jetzt übernehmen wir die Rolle von Experten im Balancieren von Bällen, um die KI zu trainieren. Etwaige KI-Vorkenntnisse lassen wir hier bewusst außen vor.

Tipp: Sie möchten das Ganze gleich selbst ausprobieren? Dann nutzen Sie doch unsere virtuelle Umgebung, die auch ohne physisches Moab-Gerät funktioniert. (Kleiner Hinweis in eigener Sache: Für die Hands-on-Umgebung ist ein Azure-Abonnement erforderlich. Sollten Sie noch kein Abonnement haben, können Sie einfach unsere kostenlose Testversion nutzen.)

Animation des Moab-Geräts

Nutzen Sie die Moab-Tutorials mit Schritt-für-Schritt-Anleitungen für die folgenden Szenarien:

Balancieren des Balls auf einem virtuellen Moab-Gerät
Schritte, um das Modell robuster zu machen, damit es realen Bedingungen standhält (Domain Randomization)
Umgehen eines Hindernisses auf der Platte als zusätzliche Herausforderung

Lassen Sie uns das erste Tutorial durchgehen. Es ist ganz einfach und deckt dennoch alle wesentlichen Schritte für das Machine Teaching ab. Rufen Sie den Bonsai-Arbeitsbereich auf, um direkt mitzumachen.

Screenshot der Startseite von Projekt Bonsai

Nach der Auswahl von „Moab“ wird die Umgebung mit den erforderlichen Artefakten für das erste Tutorial gefüllt. Wir sehen Abschnitte für die Bonsai-Modelle (die Brains), die Simulatoren sowie die Teaching- und Trainingsumgebungen. Die Versuchsspezifikationen sind im Quellcode der Inkling-Sprache enthalten, der im Teaching-Abschnitt zu finden ist. Inkling ist eine Machine-Teaching-Sprache, die entwickelt wurde, damit Sie sich exakt auf Ihre Ziele konzentrieren können, während sie die zugrundeliegenden Machine-Learning-Details für Sie verarbeitet. Im ersten Tutorial ist es nicht notwendig, den Code anzupassen. Hier finden Sie die folgenden Elemente:

Technische Zeichnung des Moab-Geräts

Ausgangspunkt: Zufällige Ballposition, Geschwindigkeit und Winkel der Platte
Zu beobachtende Umgebung: Ballposition (x, y) und Geschwindigkeit
Mögliche Aktionen: Regulierung des Plattenwinkels (neigen und rotieren)
Lernziele:

1. „Herunterfallen von Platte“ vermeiden: Ball im 80 % Radius halten
2. „Mitte der Platte“ anstreben: Ziel x=0, y=0

Im Tutorial wird das Machine Teaching in über 5.000 Runden (Episoden) durchgeführt. Die Episoden beginnen mit zufälligen Ausgangspunkten der Ballposition, der Geschwindigkeit und des Plattenwinkels (Neigung und Rotation). Die Startbedingungen steuern den Schwierigkeitsgrad des Trainings. In diesem Tutorial wird der Tischtennisball beispielsweise zunächst in einem Bereich von 50 Prozent des Radius platziert. Im zweiten Tutorial wird das Handicap erhöht, was zu einem robusteren Modell, aber auch zu längeren Trainingszeiten führt.

Das Moab-Gerät beobachtet die Umgebung durch eine Kamera, die in der Mitte eingebaut ist. Insbesondere verfolgt es die aktuelle Position des Tischtennisballs (x- und y-Koordinaten) und misst seine Geschwindigkeit.

Moab verwendet seine drei servobetriebenen Arme, um den Winkel der Platte (Neigung und Rotation) anzupassen und damit die definierten Ziele zu erreichen. Diese Aktionen werden zu Beginn noch zufällig sein und sich im Laufe der Zeit nach und nach verbessern.

Unsere Aufgabe als langjährige Super-Experten für das Balancieren von Bällen ist es, den Lernprozess durch sinnvolle Ziele anzuleiten. Zuerst verwenden wir das Ziel „Hindernis vermeiden“, um Moab mitzuteilen, dass es eine gute Idee ist, den Ball von der Kante der Platte fernzuhalten (genauer gesagt, ihn innerhalb von 80 Prozent des Radius zu halten). Als Zweites formulieren wir ein „Drive-Ziel“, um Moab zu sagen, dass es den Ball stets in Richtung der Plattenmitte bewegen und an dieser Stelle halten soll.

Nachdem wir auf den grünen Train-Button geklickt haben, können wir den Lernfortschritt kontinuierlich mitverfolgen:

Screenshot des ersten Teaching-Tutorials für das Moab-Gerät

Die Lernkurven stellen die durchschnittlichen Performance-Werte der Testepisoden dar, die während des Trainings ausgeführt werden. Die Ergebnisse zeigen, dass Moab schnell lernt, die definierten Ziele zu meistern. Es beginnt mit einer kurzen Phase des reinen Versuchs und Irrtums. Entsprechend hektisch sieht die Animation des Moab-Geräts zu Beginn aus. Bald jedoch steigen die Kennzahlen beider Ziele auf fünf beziehungsweise 45 Prozent. Den Tischtennisball in Richtung der Plattenmitte zu bewegen, ist viel schwieriger, als sie in den ersten Episoden einfach auf der Platte zu halten. Wir können sehen, dass sich die Kennzahlen allmählich verbessern, bis sie nach 1.600 Trainingsepisoden 100 Prozent erreichen.

Realistisch betrachtet, sind die Fortschritte bei verstärkendem Lernen und Machine Teaching nicht immer so schnell verzeichnen. Wenn Sie das zweite und dritte Tutorial ausprobieren, werden Sie längere Durchlaufzeiten erleben. Einige Durchläufe führen möglicherweise gar nicht zu guten Ergebnissen, oder die Kennzahlen können in späteren Episoden nach einem anfänglichen Hoch sogar wieder fallen.

Bevor Sie ein Brain für den Produktivmodus bereitstellen, sollte immer zuerst eine Evaluierung des trainierten Modells erfolgen. Auch sollte sein Verhalten visuell überprüft werden. Klicken Sie auf die Schaltfläche Start Assessment, um sich das genauer anzusehen:

Screenshot der Assessment-Ergebnisse für das Moab-Gerät

Hier beobachten Sie das Verhalten des Geräts während einer Kette von Assessment-Episoden und verfolgen die entsprechenden Parameter. Das obige Diagramm zeigt die Handlungen des trainierten Modells. Moab reagiert unmittelbar auf die zufällige Startbedingung zu Beginn der Episode, indem er die Neigung und das Rotieren der Platte anpasst, um die Kontrolle zu erlangen, und dann den Ball sanft in die Mitte steuert. Das zweite Diagramm zeigt den resultierenden Verlauf der Ballposition (x-, y-Koordinaten).

Wenn wir mit der Performance des Modells zufrieden sind, können wir es über die Schaltfläche Export Brain auf das Moab-Gerät in einem Docker-Container übertragen. Das folgende Video zeigt die Leistung eines eingesetzten Brains in Aktion:

Wenn das trainierte Modell mit den Realitäten der physischen Welt konfrontiert wird, können wir im Vergleich zu unseren Simulationen noch eine abweichende Leistung erleben. Ein Simulator ist nicht in der Lage, alle relevanten Aspekte der realen Welt zu erfassen (sogenannter Sim-to-Real-Gap). Eine Methode, um Modelle für Bereitstellungen in physischen Umgebungen robuster zu machen, ist die Domain Randomization (DR). Im zweiten Tutorial wenden wir diese Methode an, um während des Trainingsprozesses Variabilität hinzuzufügen, einschließlich schwierigeren Startbedingungen und zufälligen Abweichungen des Radius und der äußeren Hülle des Balls.

Sie möchten mehr über konkrete Anwendungsszenarien erfahren? Dann lesen Sie gleich unseren internationalen Microsoft AI-Blog – zum Beispiel zum Einsatz von Autonomen Systemen bei Bell, um dem Ziel völlig autonomer Landungen näherzukommen.

Unser Microsoft Manufacturing Newsletter bringt Ihnen regelmäßig die wichtigsten Neuerungen aus dieser spannenden Branche direkt in Ihr Postfach. Melden Sie sich jetzt hier an und verpassen Sie keine News mehr.