nach oben

Erschienen in:

Open Access 2024 | OriginalPaper | Buchkapitel

13. Simulationsmodelle der Virtuellen Inbetriebnahme als Lernumgebung für Reinforcement Learning

verfasst von : Florian Jaensch, Alexander Verl

Erschienen in: Echtzeitsimulation in der Produktionsautomatisierung

Verlag: Springer Berlin Heidelberg

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config

KI-gestützte Suche

Patentsuche

Aus

Zusammenfassung

Die steigenden Anforderungen der Produktionstechnik nach flexiblen und trotzdem wirtschaftlich effizienten Anlagen stellt die Automatisierungstechnik vor große Herausforderungen. Die Umstellung von beispielsweise einer Roboterzelle auf ein neues Produkt muss dabei schnell und aufwandsarm möglich sein. Die Steuerungssysteme, sowie die zugehörigen Engineering Methoden, müssen zunehmend intelligent und lernfähig werden, um möglichst viele der bisher manuellen Aufwände selbstständig zu übernehmen. Die Simulationsumgebung für eine Virtuelle Inbetriebnahme stellt eine geeignete Lernumgebung dar, in der das Steuerungssystem, mit Methoden des maschinellen Lernens, automatisch trainiert werden kann. Dafür müssen die Simulationswerkzeuge erweitert und möglichst standardisierte Schnittstellen geschaffen werden.

13.1 Vorteile und Grenzen der Virtuellen Inbetriebnahme

Über die letzten Jahrzehnte haben sich industrielle Prozesse und Produktionssysteme stetig weiterentwickelt. In vielen Produktbereichen steigt die Variantenvielfalt, sodass produzierende Unternehmen auch bei kleineren Losgrößen effizient sein müssen. Besonders für kleine und mittelständische Unternehmen steigen dabei die Herausforderungen, trotz kleiner Losgrößen automatisiert produzieren zu können. Zudem sind kleine Unternehmen oftmals Teil einer größeren Wertschöpfungskette. Sie müssen dadurch schnell und unter hoher Termintreue reagieren können und ihr Produktionssystem auf eine neue Variante umstellen können.

Problematisch ist zumeist nicht die technische Realisierung einer Automatisierung von Produktionssystemen an sich, sondern diese mit wenig Entwicklungsaufwand zu erreichen. Besonders wichtig für kleine Losgrößen ist es, den Aufwand des Engineerings für alle an der Automatisierung beteiligten Systeme gering zu halten. Dabei hilft der zunehmende Trend zum Software-Defined-Manufacturing [1]. Funktionalitäten, welche früher spezielle Hardware benötigten, werden zunehmend in den Softwareanteil von Automatisierungssystemen verlagert. Für die dadurch steigenden Anforderungen an die Softwareentwicklung sind zudem computergestützte Werkzeuge entstanden. Ein wichtiges Werkzeug der Softwareentwickler im Bereich Produktionstechnik ist die Virtuelle Inbetriebnahme (VIBN) [2] mit ihren Simulationsmodellen des Produktionssystems.

Die Simulationsmodelle stehen früher zur Verfügung als ein realer Aufbau des Produktionssystems, welcher beim Kunden oder beim Hersteller in Betrieb genommen wird. Dem Steuerungsentwickler steht durch das simulierte Produktionssystem früher eine Testumgebung zur Verfügung. Dadurch kann die Steuerungsentwicklung zeitlich und räumlich verlagert werden, was den Arbeitsprozess des Steuerungsentwicklers erleichtert. Eine solche virtuelle Testumgebung wird als X-in-the-Loop System [3] (siehe Abb. 13.1 links) bezeichnet, in der ein Testobjekt X, hier das Steuerungssystem, mithilfe einer Feedbackschleife iterativ entwickelt und optimiert werden kann. Die Testumgebung verwendet dabei hauptsächlich die Steuerungssoftware oder Steuerungshardware für Integrations-, beziehungsweise Systemtests [4]. Das Vorgehen zur Entwicklung ist zumeist eine empirische Steuerungsentwicklung welche die Testumgebung als wichtige Komponente verwendet.

In Abb. 13.1 wird die empirische Vorgehensweise für die Steuerungsentwicklung schematisch dargestellt. Im ersten Schritt wird versucht, die informelle Anforderungsbeschreibung, also das Sollverhalten, durch ein implementiertes Steuerungsprogramm zu erreichen. Das Steuerungsprogramm soll in Kombination mit der XiL Simulation, welche die simulierte Steuerstrecke beinhaltet und die entsprechenden Eingangssignale benötigt, verarbeitet werden können. Das Steuerungsprogramm wird im zweiten Schritt, mit Hilfe von Tests in Form von Simulationen überprüft. Die Tests und Simulationen umfassen dabei mehr oder weniger systematische Entwürfe von Testszenarien von kritischen Aspekten und Situationen, welche idealerweise vorab definiert sind. Im dritten Schritt wird ein Vergleich zwischen dem durch die Steuerung erreichten Verhalten und dem Sollverhalten statt. Wird das Sollverhalten nicht erreicht muss erneut ab Schritt 1 die nächste Iteration mit einem angepassten Steuerungsprogramm durchgeführt werden [5]. Für komplexe Systeme werden zumeist viele abgetrennte Iterationsschleifen mit einzelnen Modul-, Integrations- und Systemtests durchgeführt.

Dieses iterative Vorgehen wird durch den Steuerungsentwickler vorangetrieben, welcher durch direktes Testen seines Entwicklungsschritts ein Feedback erhält und darauf basierend den nächsten Entwicklungsschritt plant und umsetzt. Durch die frühere Verfügbarkeit des X-in-the-Loop Systems, kann die Steuerungsentwicklung zeitlich vorverlagert werden, basiert im Grundsatz jedoch weiterhin auf einer konventionellen Entwicklung ohne Simulationsmodelle.

Ein Ansatz welcher die Iterationen mithilfe der Simulation selbstständig durchführt und automatisiert eine Lösung entwickelt und vorschlägt, wäre eine deutliche Erleichterung für den Entwickler. Die VIBN kann dadurch von einem reinen Testsystem zu einem computergestütztem Werkzeug zur Steuerungsentwicklung werden.

13.2 Reinforcement Learning zur Unterstützung der Steuerungsentwicklung

Ein Ansatz welcher eine selbständige Iteration und Lösungsfindung am X-in-the-Loop System ermöglichen kann, ist Reinforcement Learning.

Reinforcement Learning steht für eine Klasse von Problemen, sowie für die Vielzahl von dazugehörigen Lösungsmethoden, die im Bereich des Maschinellen Lernens zur Verfügung stehen. Dabei interagiert ein lernfähiges Programm, ein sogenannter Agent, mit einer Umgebung (engl. Environment), die ihm dabei nicht zwingend bekannt sein muss. Der Agent sieht die Umgebung über bestimmte Zustandsvariablen und kann über definierte Aktionen Einfluss auf die Umgebung ausüben. Der Agent lernt dabei laufend dazu und passt sich an, indem er für jede Iteration eine Belohnung oder Bestrafung als numerisches Feedback von der Umgebung erhält. Das Ziel des Agenten ist es, die Belohnung auf lange Sicht zu maximieren [6].

Reinforcement Learning hat bereits, in oftmals noch nicht-kommerziellen und nicht industriellen Bereichen, beeindruckende Ergebnisse erzielt. Bekannte Beispiele sind Spiele mit perfekter Information (sämtliche Informationen aller Spieler sind bekannt) wie Schach oder Go, oder auch Videospiele mit imperfekter Information (nicht alle Informationen sind bekannt), wobei in beiden Bereichen oftmals nach dem Lernen auch die fähigsten Menschen weit übertroffen werden konnten [7, 8]. Diese Beispiele haben meist bereits implementierte Punktesysteme oder Gewinnkriterien, weshalb sie sich für eine automatische Optimierung durch Belohnung sehr gut eignen.

Entscheidend für Reinforcement Learning ist die Lernumgebung innerhalb derer der Agent interagieren kann. Für Produktionssysteme (Maschinen, Anlagen und Roboter) scheidet das reale System aus, da der Agent während des Lernens unweigerlich Fehler machen muss. Diese Fehler sind zeit- und kostenintensiv und teilweise gefährlich für das Produktionssystem. Daher müssen simulierte Lernumgebungen für den Einsatz von Reinforcement Learning geschaffen werden. Ein Ansatz zur Schaffung von simulierten Lernumgebungen ist es bereits bestehende Simulationsumgebungen so zu erweitern, dass sie den Anforderungen des Reinforcement Learning gerecht werden.

13.3 Wandel der Testumgebung zur Lernumgebung

Der hier vorgestellte Lösungsansatz basiert auf der strukturellen Ähnlichkeit zwischen der X-in-the-Loop Simulation (XiLS) und Reinforcement Learning, welche in Abb. 13.2 nachvollzogen werden kann.

Der Lösungsansatz besteht darin, die Testumgebung so zu verändern, dass die XiLS vom Funktionsumfang in einer Weise erweitert wird, um als Lernumgebung verwendbar zu sein. Innerhalb dieser Lernumgebung kann ein sogenannter Agent trainiert werden. Dieser Agent ist dadurch in der Lage, geeignete Steuerungslösungen für produktionstechnische Problemstellungen zu lernen [9].

Der Agent ersetzt das Steuerungssystem in der XiLS-Struktur (vgl. Abb. 13.2). Die Kommunikation der Soll-/Istwerte zwischen den simulierten Komponenten und der Steuerung muss in die für Reinforcement Learning übliche Struktur mit Zuständen und Aktionen eingepasst werden. Als Ergänzung zu der XiLS-Struktur, muss eine spezifische Belohnungsfunktion integriert werden, um das Reinforcement Learning Problem vollständig zu definieren.

Auf Basis dieses Lösungsansatzes wurden bereits mehrere Anwendungsfälle untersucht und spezifische industrienahe Problemstellungen gelöst [10, 11]. Für jede Problemstellung wurde eine Lernumgebung innerhalb des VIBN-Werkzeugs ISG-virtuos entwickelt, welche mit einer speziellen Kommunikationsschnittstelle, zur Übertragung der anwendungsfallspezifischen Aktor- und Sensorsignale an den Agenten, ausgestattet war.

Bei der erfolgreichen Übertragung von Reinforcement Learning Methoden in die Produktionstechnik kann auf existierende und aktuelle Ressourcen zurückgegriffen werden, die sich bereits in anderen Anwendungsbereichen bewährt haben. Der Anwender soll in die Lage versetzt werden die aktuellsten Methoden und Algorithmen an seinen Anwendungsfall koppeln zu können, ohne diese selbst zu entwickeln oder anzupassen. Wichtig dafür ist es, die Lernumgebung an bestehenden Standards zu orientieren. OpenAI, Google oder Microsoft liefern standardisierte Lernumgebungen für Lernalgorithmen. Das am weitesten verbreitete Toolkit kommt von OpenAI [12]. OpenAI Gym [13] bietet Open-Source Lernumgebungen für z. B. Videospiele, physikbasierte Simulationen und unteraktuierte Steuerungsprobleme. Durch den freien Zugang zu den einheitlich aufgebauten Lernumgebungen hat sich daraus ein De-Facto Standard entwickelt.

Dazu stellt OpenAI sogenannte Open-Source Baseline Algorithmen zur Verfügung, welche die wichtigsten Entwicklungen und Fortschritte der aktuellen Forschung beinhalten. Diese Baseline Algorithmen werden laufend verbessert und erweitert. Eine unabhängige Community stellt zum Beispiel Implementierungen dazu als Stable Baselines zur Verfügung. [14]

Den Anbietern fehlt aktuell jedoch eine produktionstechnische Simulationsumgebung oder eine geeignete Ankopplung der Toolkits an industrielle Problemstellungen. Ein Lösungsansatz dazu soll im Folgenden vorgestellt werden.

Für die Erfüllung des OpenAI Standards müssen bestimmte Funktionalitäten im VIBN-Werkzeug abgebildet werden. Es muss eine Schnittstelle für den Austausch von Signalen zwischen Agent und Simulation bestehen. Üblicherweise existieren bei VIBN-Werkzeugen Schnittstellen auf Feldbusebene, um die Kommunikation zwischen Steuerung und Simulation in gleicher Art und Weise wie zwischen Steuerung und realen Feldbuskomponenten sicherzustellen.

Innerhalb der Lernumgebung wurde statt einer Feldbus-Schnittstelle eine Remote-Schnittstelle gewählt, um weitere relevante Funktionalitäten, wie das Starten, Stoppen, Parametrieren und Zurücksetzen von Simulationen umsetzen zu können. Da die relevanten Reinforcement Toolkits wie auch OpenAI Gym in der Programmiersprache Python implementiert sind, wird diese Kommunikationsschnittstelle zunächst durch eine Wrapper-Klasse für Python umgesetzt. Über eine weitere Wrapper-Klasse erbt, die VIBN-Lernumgebung die Funktionen und die Struktur von OpenAI Gym, welche mittels der Kommunikationsschnittstelle überschrieben und konkretisiert werden. Die VIBN-Lernumgebung soll so möglichst automatisch aus dem Simulationsprojekt generierbar sein. Die VIBN-Lernumgebung beinhaltet auf diese Weise zwar nicht die eigentliche Simulation und die Modelle, kann jedoch über die Verlinkung und die Remote-Schnittstelle, die Modelle aufrufen und selbstständig starten. Die VIBN-Lernumgebung kann 1:1 wie ein Standard OpenAI Environment verwendbar gemacht werden (siehe Abb. 13.3). Dadurch können Standard-Lernalgorithmen, welche zu OpenAI Gym kompatibel sind, ohne Anpassung gekoppelt werden.

13.4 Anwendungsbeispiel Roboter-Zellensteuerung

Im Anwendungsbeispiel wird eine Roboter-Zellensteuerung einer Fräs- und Handhabungszelle mithilfe von Reinforcement Learning gesucht und optimiert.

Je nach Problemstellung gibt es viele Interpretationen, wie die Systemgrenzen eines Robotersteuerungssystems definiert werden [15]. Für industrielle Roboter werden in der Regel alle Technologien, die zur Steuerung des Roboters benötigt werden, zusammengefasst als Steuerungssystem bezeichnet [16].

Das Steuerungssystem kann auf Basis einer hierarchischen funktionsbasierten Struktur beschrieben werden. Steuerungsfunktionen auf unterer Ebene sind für die Bewegungsausführung der einzelnen Achsen zuständig. Die Steuerungsfunktionen auf höherer Ebene beinhalten die logische Handlungsplanung zur Erfüllung spezifischer Aufgaben [15]. In industriellen Anwendungen sind die Bewegungssteuerung und die logische Steuerung in der Regel separate Einheiten, welche zumeist jedoch als kombiniertes Produkt Robotersteuerung bereitgestellt werden.

Das Lernen wird im Anwendungsbeispiel auf der Aufgabenebene durchgeführt. Die Bewegungssteuerung wird mithilfe eines industriellen numerischen Steuerungskerns (NC Kern) ausgeführt. Dafür wird der integrierte virtuelle NC Kern im VIBN-Werkzeug ISG-virtuos verwendet [17].

Die Lernumgebung ist damit eine Software-in-the-Loop Simulation eines kinematischen Robotermodells mit einer geeigneten NC-Steuerung zur Bahn- und Geschwindigkeitsplanung auf Basis von G-Code. Die Förderbänder und Werkstücke sind mithilfe von Materialflussmodellen realisiert. Zudem wird der Materialabtrag beim Fräsen simuliert. Die Lernumgebung ist in Abb. 13.4 dargestellt.

Anstatt durch theoretische Überlegungen und Vorarbeiten ein vereinfachtes Modell zu erstellen, das dem Agenten das Lernen so einfach wie möglich macht, soll in diesem Ansatz dem Anwender so wenig Arbeit wie möglich entstehen. Daher wird ein Zustandsraum geschaffen, der aus einer Dimension pro verwendeten Sensor besteht. Für jede mögliche Sensordatenkombination wird ein neuer Zustand erstellt. Es erfolgt keine Priorisierung oder Generalisierung der Sensordaten. Im beschrieben Anwendungsfall sind die Zustandssensoren alle einfach zu diskretisieren (z. B. Lichtschranken). Ausnahmen bilden die Endzustände, welche als feste Zustände implementiert sind und die die Umgebung zurücksetzen und den nächsten Durchlauf starten. Es ergeben sich insgesamt über 3500 mögliche Zustands-Aktions-Kombinationen für den Agenten. Zum Erfolgreichen Lösen der Aufgabe muss daraus eine Sequenz von 18 korrekt hintereinander ausgeführten Aktionen gefunden werden.

Abb. 13.5 zeigt den Lernfortschritt als Verhältnis der Gesamtzahl von positiven zu negativen Belohnungen während eines Durchlaufes. Die Kurve zeigt somit die Gesamt-Performance des Agenten bis zu einem bestimmten Zeitpunkt (Anzahl durchlaufener Episoden) und nicht die aktuelle Perfomance zu einem bestimmten Zeitpunkt. In der Abbildung kann die stetig steigende Performance des Agenten und somit das Lernen nachvollzogen werden. Der Absolutwert des Verhältnisses von positiven zu negativen Belohnungen ist auf einem niedrigen Niveau, weil über den gesamten Lerndurchlauf nicht immer die beste Aktion ausgewählt wird, sondern auch zufällige Aktionen ausprobiert werden. Dazu kommt, dass es über die 18 Aktionen die der Agent machen muss viele Möglichkeiten für negative Belohnungen und nur eine einzige Möglichkeit am Ende für eine positive Belohnung gibt.

Nach einer ausreichenden Anzahl von Aktionen konnte für dieses Anwendungsbeispiel in mehreren Versuchen immer eine optimale Strategie gefunden werden. Abhängig von den Umgebungsbedingungen (das heißt der Förderbandgeschwindigkeit, die zu Kollisionen innerhalb des Prozesses führt) gibt es verschiedene optimale Strategien, die jeweils gefunden wurden. Abb. 13.6 zeigt das Ergebnis eines erfolgreichen Lerndurchlaufs anhand von beispielhaften Einzelbildern, welche sich jeweils zu den Aktionen der gefundenen Sequenz zuordnen lassen.

Detailliertere Beschreibungen der Lernumgebung (Zustandsraum, Aktionsraum und Belohnung) sowie des Lernansatzes und der Ergebnisse können in [10] nachvollzogen werden.

13.5 Anwendungsbeispiel Roboter-Kabelhandhabung

Zur Validierung der beschriebenen VIBN-Lernumgebung nach OpenAI-Standard ist eine Roboter-Kabelhandhabungsaufgabe untersucht worden, bei der ein Kabel in einer bestimmten Pose automatisiert auf einen Tisch gelegt werden soll. Die Anwendung Kabelhandhabung ist für den vorgestellten Ansatz aufgrund der Potenziale und dem bisherigen Fehlen von Lösungen besonders interessant.

In der Automobilbranche wird die Verkabelung oder die Montage von Schläuchen und Dichtungen weitestgehend manuell durchgeführt. Kabelbäume haben grundsätzlich einen großen Einfluss auf die Qualität und Kosten eines PKWs [18]. In einer Studie von 2012 zur Untersuchung der körperlichen Belastung bei der Endmontage von Kabelbäumen stellte sich heraus, dass weniger als 5 % der Montageschritte automatisiert waren [19]. Das Einsparpotential bei einer Automatisierung wird noch deutlicher unterstrichen, wenn berücksichtigt wird, dass circa 750 verschiedene Kabel mit einer Gesamtlänge von ca. 1,5 km in einem Mittelklasse-PKW verbaut sind [18].

Trotz der Potenziale existieren kaum industrielle Anwendungen, da der Schwierigkeitsgrad der Automatisierung bisher eine zu große Hürde darstellt. Im Gegensatz zur Roboter-Handhabung von starren Objekten, bei denen hauptsächlich Position und Orientierung des Manipulators (und damit auch des Werkstücks) berücksichtigt werden müssen, spielt bei flexiblen Objekten zusätzlich die aktuelle Deformation des Werkstücks eine große Rolle. Daher reichen nicht die 6 üblichen Freiheitsgrade (DoF) zur Handhabung eines Objekts, sondern es müssen prinzipiell unendlich viele DoFs berücksichtigt werden. Wenn das flexible Objekt manipuliert, also zum Beispiel in eine definierte Pose gebracht werden soll, handelt es sich folglich um ein unteraktuiertes System. Von der Pose des Manipulators können dadurch nur indirekt Schlüsse auf den Zustand des zu handhabenden Objektes gezogen werden. Das zu handhabende Objekt kann bei gleicher Roboterpose mit der Umgebung kollidieren oder kollisionsfrei sein, abhängig vom Pfad, auf dem der Roboter zu dieser Pose kam. Die Planung einer Trajektorie kann somit nur zeitabhängig und abhängig vom aktuellen Zustand erfolgen, wobei dieser Zustand und die weitere Planung sehr komplex zu bestimmen bzw. zu berechnen ist [20].

Insbesondere wenn keine Spezialmaschinen, sondern flexible Automatisierungslösungen auf Basis von Industrierobotern verwendet werden, treten die Schwierigkeiten bei der Beeinflussung des Objektverhaltens verstärkt auf. Aufgabenstellungen, welche ein Mensch durch seine, auf Erfahrung und Lernen basierten sensomotorischen und kognitiven Fähigkeiten relativ einfach lösen kann, sind für Roboter bisher eine sehr große Herausforderung. Auch für Menschen relativ einfach anmutende Aufgaben, wie ein Kabel zu greifen, sicher durch den Arbeitsraum zu befördern und in einem definierten Bereich sauber abzulegen, sind mit einem Roboter nur schwer umsetzbar. Die Übertragung des menschlichen Erfahrungsschatzes und deren Fähigkeiten auf Robotersysteme, sind mithilfe der gängigen Roboterprogrammiermethoden und -Schnittstellen bislang ebenfalls nicht möglich.

Der Anwendungsfall Roboter-Kabelhandhabung (vgl. [11]) ist in Abb. 13.7 dargestellt. Das Kabel wird zunächst horizontal im freien Raum positioniert, ist vom Roboter gegriffen und schwingt aufgrund der Schwerkraft nach unten. Der Roboter, beziehungsweise der Reinforcement Learning Algorithmus, soll das Kabel stabilisieren und kontrolliert auf dem Tisch platzieren, sodass die markierten Segmente wie abgebildet im Zielbereich liegen (siehe Abb. 13.7 rechts). Die Lernumgebung besteht aus einem 6-Achs-Roboterkinematikmodell in ISG-virtuos gekoppelt mit einer Mehrkörper-Kabelsimulation in der Physik-Engine AGX Dynamics. Die beiden Simulationswerkzeuge sind über den Functional Mock-up Interface Standard gekoppelt [21]. Die Lernumgebung wird durch einen kontinuierlichen Zustandsraum (Position und Geschwindigkeit des letzten Kabelsegments) und einen diskreten Aktionsraum (3 Achsen mit inkrementaler Achsbewegung) aufgebaut. Der Roboter wird für diesen Anwendungsfall auf 3 seiner 6 Achsen begrenzt. Der Lernansatz ist episodisch. Der Agent hat pro Episode 7s Zeit, um das Kabel im Zielgebiet zu stabilisieren, falls keine Kollision die Episode vorzeitig abbricht. Entscheidend für einen erfolgreichen industriellen Einsatz ist eine sinnvolle Belohnungsfunktion und eine Möglichkeit, diese zu implementieren. Für diesen Anwendungsfall sind 3 verschiedene Belohnungsfunktionen integriert, welche in verschiedenen Kombinationen untersucht werden:

Mittlerer quadratischer Positionsfehler (MQF): Positionsfehler zwischen den markierten Segmenten und den Zielbereichen (in Abb. 13.7 als Pfeile dargestellt). Der Positionsfehler geht negativ in die Belohnungsfunktion ein (Bestrafung). Die Bestrafung (negative Belohnung) ist umso kleiner, je näher das Segment an einem Zielbereich liegt.
Kollisionsfehler: Wenn der Roboter mit dem Tisch kollidiert (Kollisionsfehler), erfolgt eine negative Belohnung, die auch die Episode zurücksetzt. Für die negative Belohnung wird ein vorher definierter skalarer Wert gewählt, der sich an einer aufsummierten MQF-Belohnung einer schlechten Episode orientiert. Eine zu klein gewählte Bestrafung könnte zu einem lokalen Maximum führen, wenn der Roboter sehr früh in der Episode kollidiert und daher weniger negative MQF-Belohnung für die Episode erhält.
Position erreicht: Wenn das Zielsegment innerhalb eines bestimmten Zielgebiets liegt (in Abb. 13.7 als Halbkugel visualisiert), erfolgt eine positive Belohnung. Diese Belohnung wird erst ausgelöst, wenn die Aufgabe zumindest teilweise erfolgreich ausgeführt ist, also ein Segment den Zielbereich erreicht hat. Beim Reinforcement Learning spricht man hierbei von einem Sparse Reward Problem, da die Belohnungsfunktion in den meisten Bereichen null ist und nur für sehr wenige Zustände einen positiven Wert liefert. Auf Grund der verzögerten Rückmeldung in Form der Belohnung ist diese Art insbesondere für Probleme interessant, bei denen keine Echtzeit-Informationen über die Position der markierten Segmente des Kabels vorliegen.

Der verwendete Lernalgorithmus ist ein DeepQ-Learning-Algorithmus, mit einem DeepQ Netz (DQN) von Stable Baselines, mit verschiedenen Erweiterungen, die das Lernen beschleunigen und stabiler machen [8, 22, 23, 24].

Die eingesetzte Policy ist eine Multilayer Perceptron (MLP) Policy, was bedeutet, dass die interne Bewertungsfunktion des Agenten durch ein mehrschichtiges künstliches Neuronales Netz [14] approximiert wird. Das MLP ist für diesen Anwendungsfall mit zwei versteckten Schichten ausgeführt, die jeweils 64 Neuronen enthalten.

Die Simulation läuft nicht in einem Echtzeittakt. Der Agent kann die Simulation in 10 ms Taktschritten schrittweise takten. Da keine spezialisierte Simulations- und Machine Learning Hardware mit leistungsfähiger GPU verwendet wird, sind die Taktschritte nicht schneller als Echtzeit. Durch die Physiksimulation und das online Trainieren des Neuronalen Netzes kann die getaktete Simulation zumindest circa im Bereich der Realzeit durchgeführt werden.

Ein wichtiges Ergebnis für die Validierung ist, dass der Reinforcement Learning Algorithmus mit der VIBN-Lernumgebung Lösungen für diese Kabelhandling-Aufgabe finden konnte. In Abb. 13.8 ist eine Lösung nach etwa 20 000 Simulations- und Trainingsschritten des Agenten anhand von Einzelbildern visualisiert, die über eine Episode gespeichert wurden. Das Kabel wird so auf dem Tisch abgelegt, dass durch Reibung die Pendelenergie abgebaut wird. Danach wird das Kabel langsam nach hinten in die Zielposition gezogen.

13.6 Zusammenfassung und Ausblick

In diesem Beitrag wurde ein Ansatz zur Verwendung von VIBN-Simulationsmodellen als Lernumgebung für selbstlernende und selbstoptimierende Steuerungssysteme aufgezeigt. Dabei wurde erläutert wie die VIBN, ursprünglich als Testumgebung entwickelt, in eine Lernumgebung überführt werden kann. Des Weiteren wurde der Ansatz anhand von zwei Anwendungsbeispielen, mit unterschiedlichen Problemstellungen für Robotersteuerungen, näher betrachtet und validiert.

Eine solche Lernumgebung, eingebettet in ein industrietaugliches Werkzeug, kann in der Zukunft einen wichtigen Beitrag zur Zeit- und Kosteneinsparung für komplexe Automatisierungslösungen liefern. Zudem kann ein solcher Ansatz ein Schritt in Richtung des Digitalen Zwillings nach Kritzinger et al. [25] sein, welcher als steuerndes, simulatives und optimierendes Abbild der realen Anlage viele Mehrwerte bietet.

Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Vorheriges Kapitel Testautomatisierung am Digitalen Zwilling

Nächstes Kapitel Konzept für die automatisierte Planung von Montagesystemen

Lechler A, Verl A Software Defined Manufacturing Extends Cloud-Based Control. Bd. 3: Manufacturing Equipment

VDI/VDE 3693 – Blatt 2 – Virtuelle Inbetriebnahme: Einführung der virtuellen Inbetriebnahme in Unternehmen, Verein Deutscher Ingenieure, Düsseldorf, 2018

Schröter J (2013) Das erweiterte X-in-the-Loop-Framework zur durchgängigen Integration von Optimierungsverfahren in den Produktentwicklungsprozess am Beispiel der Entwicklung energieeffizienter Fahrzeuge. Dissertation. Karlsruher Institut für Technologie (KIT), Karlsruhe

VDI/VDE 3693 – Blatt 1 – Virtuelle Inbetriebnahme: Modellarten und Glossar, Verein Deutscher Ingenieure, Düsseldorf, 2016

Abel D, Bollig A (2006) Rapid control prototyping: Methoden und Anwendungen; mit 16 Tabellen. Springer, Heidelberg

Sutton RS, Barto A (2018) Reinforcement learning: An introduction. The MIT Press, Cambridge

Silver D et al (2017) Mastering the game of Go without human knowledge. Nature 550(7676):354–359. https://doi.org/10.1038/nature24270

Mnih V et al (2013) Playing Atari with Deep Reinforcement Learning. http://arxiv.org/pdf/1312.5602v1

Jaensch F, Csiszar A, Kienzlen A, Verl A (2018) Reinforcement learning of material flow control logic using hardware-in-the-loop simulation, First International Conference on Artificial Intelligence for Industries (AI4I), Laguna Hills, USA, S 77–80

10.

Jaensch F, Csiszar A, Sarbandi J, Verl A (2019) Reinforcement learning of a robot cell control logic using a software-in-the-loop simulation as environment, Second International Conference on Artificial Intelligence for Industries (AI4I), Laguna Hills, USA, S 79–84

11.

Jaensch F, Verl A (2020) Virtual commissioning simulation as reinforcement learning environment for robot cable handling, Third International Conference on Artificial Intelligence for Industries (AI4I), Irvine, USA, S 27–31

12.

Sewak M (2019) Deep reinforcement learning: Frontiers of artificial intelligence, 1st Aufl.

13.

Brockman G et al (2016) OpenAI gym. http://arxiv.org/pdf/1606.01540v1

14.

Hill A et al. Stable baselines: GitHub, GitHub repository

15.

Grimble MJ, Johnson MA, Siciliano B, Sciavicco L, Villani L, Oriolo G (2009) Robotics. Springer, London

16.

Brogårdh T (2009) Robot control overview: An industrial perspective. MIC 30(3):167–180. https://doi.org/10.4173/mic.2009.3.7

17.

Scheifele C, Verl A, Riedel O (2018) Echtzeit-Co-Simulation für die Virtuelle Inbetriebnahme. atp 60(11–12):44. https://doi.org/10.17560/atp.v60i11-12.2361

18.

Reif K (2011) Bosch Autoelektrik und Autoelektronik: Bordnetze, Sensoren und elektronische Systeme; mit 43 Tab, 6. Aufl. Vieweg+Teubner Verlag/Springer Fachmedien Wiesbaden GmbH, Wiesbaden

19.

Enríquez JA, Díaz J, Weichel, Frieling E (2012) Analyse körperlicher Belastung beim Einbau des Kabelbaums in das Fahrzeug und Empfehlung zur Belastungsreduktion — eine Felduntersuchung in einem Werk der deutschen Automobilindustrie. Z Arb Wiss 66(1):13–24. https://doi.org/10.1007/BF03373857

20.

Hinze C, Wnuk M, Lechler A, Verl A (2019) Harte Echtzeit für weiche Materialien. atp 61(11–12):112–119

21.

Blockwitz T et al (2012) Functional mockup interface 2.0: The standard for tool independent exchange of simulation models. In Proceedings of the 9th International MODELICA Conference, September 3–5, 2012, Munich, Germany, S 173–184

22.

Schaul T, Quan J, Antonoglou I, Silver D (2015) Prioritized experience replay. http://arxiv.org/pdf/1511.05952v4

23.

van Hasselt H, Guez A, Silver D (2015) Deep reinforcement learning with double Q-learning. http://arxiv.org/pdf/1509.06461v3

24.

Wang Z, Schaul T, Hessel M, van Hasselt H, Lanctot M, Freitas N (2015) Dueling network architectures for deep reinforcement learning. http://arxiv.org/pdf/1511.06581v3

25.

Kritzinger W, Karner M, Traar G, Henjes J, Sihn W (2018) Digital Twin in manufacturing: A categorical literature review and classification. IFAC-PapersOnLine 51(11):1016–1022. https://doi.org/10.1016/j.ifacol.2018.08.474

Titel: Simulationsmodelle der Virtuellen Inbetriebnahme als Lernumgebung für Reinforcement Learning
verfasst von: Florian Jaensch
Alexander Verl
Verlag: Springer Berlin Heidelberg
Buch: Echtzeitsimulation in der Produktionsautomatisierung
Print ISBN: 978-3-662-66216-8

Electronic ISBN: 978-3-662-66217-5

Copyright-Jahr: 2024
DOI: https://doi.org/10.1007/978-3-662-66217-5_13

Premium Partner

Marktübersichten

Die im Laufe eines Jahres in der „adhäsion“ veröffentlichten Marktübersichten helfen Anwendern verschiedenster Branchen, sich einen gezielten Überblick über Lieferantenangebote zu verschaffen.

Zur Marktübersicht