Demonstrator Objekterkennung

Allgemeines zur künstliche Intelligenz

Künstliche Intelligenz und damit maschinelles Lernen folgt immer nach der gleichen Reihenfolge:

Daten werden erfasst und aufbereitet. Dies kann in Echtzeit geschehen oder durch das Aggregieren in Datenbanken. Bevor die Daten verwendet werden können, ist in nahezu jedem Anwendungsfall ein Aufbereiten im Zuge des ETL Prozesses notwendig.

Anschließend können die Daten mittels eines Algorithmus der künstlichen Intelligenz und genauer des maschinellen Lernens analysiert werden. In den meisten Fällen dienen diese dazu innerhalb der Daten Merkmalsketten und Muster zu identifizieren. Das konkrete Ziel eines Algorithmus wird maßgeblich davon beeinflusst, welche Art des Lernens zum Einsatz kommt.

Das Ergebnis des Algorithmus wird in einer beliebig gearteten Reaktion ausgedrückt. Dabei kann, wie hier beschrieben, ein Aktor gesteuert werden oder nur eine Systemausgabe erstellt werden. Methoden des bestärkenden Lernens sind meistens so strukturiert, dass die Reaktion des Systems direkt einen neuen Input erschafft.

Input o Algorithmus o Output

Die konkrete Implementierung des Algorithmus ist dabei abhängig von der Art der Daten. Die Bandbreite erstreckt sich dabei von neuronalen Netzen über Regressionsanalysen bis hin zu Markow Modellen. Grundlegend kann zwischen drei Arten des maschinellen Lernens unterschieden werden:

„The exciting new effort to make computers think [...] machines with minds, in the full and literal sense“ - Haugeland

Überwachtes Lernen

Produziert Ausgaben zu aktuellen Daten basierend auf vorhergehende Erfahrungen

Erhöhte Effizienz durch mehr Erfahrung
Benötigt beschrifteten Trainings-Datensatz (teuer)
Probleme mit großen Datensätzen
Ausgabe ist genau und vertrauenswürdig

„The study of mental faculties through the use of computational models“ - Charniak and McDermott

Unüberwachtes Lernen

Kann Muster in unbekannten Datensätzen finden

Kann Anhaltspunkte für weitere Klassifikation finden
Benötigt keinen beschrifteten Datensatz

„Predictions have an expiry date. Action is needed before predictions expire.“ - Sukhdeve

Bestärkendes Lernen

Die allgemeinste Form des maschinellen Lernen.

Agent lernt nur aus Belohnung
Agent hat kein Vorwissen über die Umgebung
Agent interagiert mit der Umgebung

❮ ❯

KI in Anwendung

Willkommen zu einem Überblick zu dem Demonstrator „Objekterkennung“. Wie der Name schon andeutet, ist die primäre Aufgabe des Demonstrators Bauteile zu erkennen und weiter diese anschließend automatisch zu sortieren. Dazu besteht er aus drei Hauptkomponenten, sowie weiteren Nebenkomponenten.

Die drei wichtigsten Elemente für den Demonstrator sind der Roboterarm, ein Rechner und das Kamerasystem. Bei dem Roboter handelt es sich um einen Mover6 der Firma Commonplace Robotics. Damit handelt es sich um einen Roboterarm mit 6 Freiheitsgraden. Als Endeffektor dient hierbei ein ansteuerbarer Elektromagnet.

Die Kamera ist eine Realsense D415 der Firma Intel. Diese besitzt keine expliziten Bilderkennungsfunktionen. Die Kamera erfasst kontinuierlich die Situation vor dem Roboterarm und sendet den Videofeed an die Steuereinheit. Ergänzt wird die Kamera um eine Beleuchtung. Der Einfluss auf die Qualität der Bilderkennung durch die Beleuchtung ist sehr gering, solange ein Grundlevel an Helligkeit sichergestellt ist. Auch haben verschiedene Lichtfarben keinen signifikanten Einfluss in diesem Versuchsaufbau.

Auf dem Rechner wird sowohl die Schnittstellensoftware zu dem Roboter, als auch ein neuronales Netz betrieben. Je nachdem mit welchen Daten das Netz trainiert wurde, können unterschiedlich Gegenstände, unterschiedliche gut innerhalb der Bilder erkannt werden. Wird ein Objekt erkannt, wird auch die Raumpositionierung ermittelt. Beide Informationen werden anschließend an den Roboter gesendet, welcher die Gegenstände dann mittels eines Magneten aufnimmt und innerhalb einer definierten Ordnung sortiert.

Bild von Demonstrator mit Highlightfunktionen

Kamera und Beleuchtung sind essentieller Teil des ETL-Prozesses. Sie dienen dazu die Daten für die Analyse in hoher Qualität zu erstellen.

Für das Training eines KI- Algorithmus kann ein leistungsstarker Computer oder eine Cloud verwendet werden. Anschließend kann das trainierte Modell auf einer kleineren Einheit weiter betrieben werden.

Die Objektauswahl ist nahezu komplett frei. In diesem Demonstrator sind typische Maschinenelemente 3D gedruckt worden.

Ein Aktor, in diesem Fall ein Roboterarm, wird genutzt, um die Bauteile nach Art zu sortieren.

Datengrundlage

Abschließend noch ein Überblick über die Daten bezüglich des Demonstrators:

Datengrundlage

Zahlen

Anwendungsfall "Greifer":

Unterschiedliche Teile:

Bilder pro Teil:

25-50

Bilder gesamt:

800

Trainingsdauer:

5 - 15 min

Höchste Präzision:

98,7 %

Gleichzeitige Objekte:

Datenkonfigurator

Willkommen zum Datenkonfigurator. Dieser erlaubt es unterschiedliche Parameter, bezüglich des Trainings, der Aufnahme und der Klassifikation zu testen. Die zugrundeliegenden Daten sind dabei die Daten der beschriebenen Objekterkennung zum automatischen Sortieren von Bauteilen.

Das Szenario ist dabei wie folgt: Ein Roboter ist verbunden mit einer zentralen Steuereinheit, sowie einer Kamera. Bei dem Roboter handelt es sich um einen Mover6 der Firma Commonplace Robotics. Die Kamera ist eine Realsense D415 der Firma Intel. Dementsprechend liegt keine dedizierte Hardware zur Bilderkennung vor. Die Kamera erfasst kontinuierlich die Situation vor dem Roboterarm und sendet den Videofeed an die Steuereinheit. Auf dieser wird sowohl die Schnittstellensoftware zu dem Roboter, als auch ein neuronales Netz betrieben. Je nachdem mit welchen Daten das Netz trainiert wurde, können unterschiedliche Gegenstände unterschiedlich gut innerhalb der Bilder erkannt werden. Wird ein Objekt erkannt, wird auch die Raumpositionierung ermittelt. Beide Informationen werden anschließend an den Roboter gesendet, welcher die Gegenstände dann mittels eines Magneten aufnimmt und sortiert.

Vergleichbare Industrie-Applikationen dazu sind Sortieranlagen, wie zum Beispiel für die Mülltrennung.

Um einen Eindruck vom Einfluss unterschiedlicher Prozessparameter zu erfahren, finden Sie hier einen Konfigurator mit dem Sie unterschiedliche Einstellungen testen können. Indem Sie über die einzelnen Segmente des Objekterkennungskreislaufs gehen, können Sie unterschiedliche Parameter bezüglich der Trainigsdaten und der Validierungsdaten anpassen. Der Button „Kalkulieren“ wird dann eine ungefähre Präzision für diesen Versuchsaufbau ausgeben. Beachten Sie, dass diese Abschätzung eine Individualabschätzung ist und nur in der Tendenz auf andere Anwendungsfälle übertragen werden kann.

Versuchen Sie doch zunächst die essentiellen Stellschrauben zu identifizieren, welche den größten Einfluss auf die Präzision des neuronalen Netzes hatten:

Der Anwendungsfall

Beleuchtungsstärke

Durchgeführte Trainingsepisoden, jede Episode enthält 30 Trainingsbilder

Rauschen der Bilder bei der Klassifikation [0 = schwach; 2 = stark]

Prozentualer Anteil an falsch beschrifteten Bildern, im Trainingsdatensatz

Anzahl der Trainingsbilder pro Kategorie

Anzahl der Kategorien die zu Klassifizieren sind

Rauschen der Bilder bei dem Training [0 = schwach; 2 = stark]

Der Konfigurator basiert auf Messungen mit unterschiedlichen Parametern, sowie Trainingsdaten. Um die Präzision zu errechnen werden dabei Interpolationen auf Basis der Messungen verwendet. Daher sind gerade die Randbereiche des Berechnungsraums einer hohen Unsicherheit unterworfen.

Kalkulieren

Ungefähre Präzision:

-Ergebnis-

Welche Daten gibt es?

Welche Datenquellen gibt es im Kontext überwachtes Lernen und was muss mit den Daten geschehen?

Daten werden häufig als das Rohöl des 21. Jahrhundert bezeichnet. Daher widmet dieser Teil sich den unterschiedlichen Arten von Daten, welche es geben kann und die man ins Kalkül ziehen kann, wenn es um die Implementierung von KI in den eigenen Prozessen geht. Im Weiteren wird am Beispiel des Demonstrators auf das Beschriften von Daten, ein essentieller Teil des überwachten Lernens, eingegangen.

Optische Daten

Zusammengefasst unter der Domäne bildgebende Verfahren findet sich eine große Bandbreite an Sensorarten:

2D Kameras

3D Kameras

Ultraschall

Röntgen

Durch den Einsatz von optischen Sensoren lassen sich unterschiedliche Anwendungen realisieren. Im Rahmen der Qualitätssicherung können Fehler und eindeutige Merkmale an Produkten erkannt werden. Besonders durch den Einsatz von überwachtem Lernen können Computer so bekannte Produkte wiedererkennen und selbstständig sortieren.

Potentiale

Hindernisse

Oberflächliche Qualitätsprüfung

Anfällig für Lichtveränderungen

Sortierung

Anwendungen kameraspezifisch

Elektrische Daten

Gerade die Vernetzung von Produktionsanlagen ermöglicht ein systematisches Auswerten der internen Sensoren. Dabei können sowohl Leistungskenngrößen, sowie Temperatur- und Zustandswerte berücksichtigt werden.

Leistung

Temperatur

Beschleunigung

Geschwindigkeit

Die Aggregation maschineninterner Sensoren erlaubt bei geringem invasivem Aufwand bereits große Ergebnisse zu erzielen. Dabei können bestehende Schnittstellen zu MES (Manufacturing Execution System) oder einzelnen Produktionsmaschinen genutzt werden. Zusätzlich können vergleichbare Sensoren an neuralen Stellen im Produktionsprozess integriert werden, um Daten aus dem Prozess zu extrahieren. Hierbei sind besonders Anwendungen im Kontext prädikative Wartung durch unüberwachtes oder auch überwachtes Lernen umsetzbar.

Potentiale

Hindernisse

Prädikative Wartung

Unterschiedliche Abtastraten

Echtzeitfähig

Individuallösungen

Qualitätsdaten

Qualitätsdaten lassen sich durch unterschiedliche, teilweise manuelle, Testverfahren erfassen. Durch die Aggregation von weiteren Daten wie Betriebsdaten und Maschinendaten werden Anwendungsfälle ermöglicht, die darauf abzielen eine kontinuierliche Qualitätsabschätzung zu erstellen. Durch Abgleich von Qualitätsdaten mit anderen Prozessdaten lassen sich außerdem systemische Fehlerquellen mittels unüberwachtem Lernen identifizieren.

Betriebsdaten

Maschinendaten

Kundenzufriedenheit

Qualitätsdaten

Große Datenpools lassen sich mittels Methoden des unüberwachten Lernen auf Korrelationen hin untersuchen. Das Ziel hierbei kann hierbei in der Umsetzung einer prädikativen Wartung liegen. Weitere Ziele kann die Erkennung von unbekannten Zusammenhängen verschiedener Prozessparameter sein.

Potentiale

Hindernisse

Prädikative Wartung

Unterschiedliche Dateiformate

Ungeahnte Qualitätssteigerungen

Sehr explorativ

und viele mehr ...

Effektiv lassen sich gerade Methoden des unüberwachten Lernens, aber auch des überwachten Lernens immer dann einsetzen, wenn Daten vorliegen. Die Ziele umfassen dabei immer das Erkennen von Mustern und Gemeinsamkeiten zwischen Daten. Je nach Menge der Daten und welche Metainformationen zu diesen vorliegen bieten sich spezielle Ansätze an. Gerne bieten wir im Rahmen des Kompetenzzentrums Fachgespräche an, um spezielle Anwendungsfälle zu diskutieren.

❰ ❱

Labeling / Beschriftung

Labeling oder Beschriften beschreibt das Hinzufügen von Metadaten zu einzelnen Datensätzen. Dabei werden Datensätze zu Situationen zusammengefasst. Anschließend werden diese Situationen mit Expertenwissen angereichert, um diese besser beurteilen zu können. Ein konkretes Beispiel hierfür ist das Labeln von Bildern. Zuerst werden Kategorien festgelegt für alle Objekte, die erkannt werden sollen. Anschließend werden auf jedem Bild die Objekte markiert und die jeweilige Kategorie ausgewählt.

Ablauf

Zeitaufwand

Die benötigte Zeit zum Beschriften von Daten kann varieren, eine erste Überschlagsformel lautet wie folgt:

c: Erfahrung des Erstellers:

1 - 2

l: Anzahl der möglichen Label:

5 - 15

r: Verhältnis Objekt / Bild:

0,05 - 0,5

o: Anzahl Objekte pro Bild:

2 - 5

Diese Formel dient nur einer ersten Abschätzung. Die zugrunde liegenden Daten basieren dabei auf Tests mit Studenten an den Daten des beschriebenen Demonstrators.