Trustworthy Machine Learning
Was es braucht, um den Algorithmen vertrauen zu können.
von Sebastian Schaffrath
Lesedauer ca. 4 Minuten
Über den Autor
Sebastian Schaffrath
... beschäftigt sich mit Machine Learning und anderen IT-Trends und möchte gerne auch für den interessierten Laien ein wenig Klarheit zwischen Hype und Fachjargon schaffen.
Ebenso wie die Möglichkeiten, die sich durch Machine Learning eröffnen, werden auch die Gefahren, die mit dem technologischen Fortschritt in diesem Feld einhergehen oft an der falschen Stelle vermutet. Viele Menschen treibt vor allem die Angst vor einem Kontrollverlust über die Technologie um: Die Maschinen könnten ein Bewusstsein entwickeln!
Mit wachsendem Verständnis der Thematik, verschieben sich diese Bedenken aber eher in eine andere Richtung, hin zur Abschätzung der Verlässlichkeit von ML Systemen und Ihren Berechnungen.
Systeme können z.B unzuverlässig werden, wenn Ihre Datenbasis altert und nicht regelmäßig trainiert wird
Verschiedene Faktoren können die Performance von ML-basierten Systemen negativ beeinflussen. Beispielsweise geschieht es häufig, dass sich ein konkreter Anwendungsfall im Laufe der Zeit verändert.
Nehmen wir als Beispiel eine Anwendung, um den Energieverbrauch einer Kleinstadt vorherzusagen. Mit wachsendem Anteil z.B. an Elektromobilität wird sich der Basis-Energieverbrauch auf Dauer verändern, sodass das System irgendwann überholt ist, da seine Datenbasis veraltet ist.
Wenn solchen sich ändernden Eigenschaften nicht konstant durch Re-Training mit aktuellen Daten entgegengewirkt wird, wird die Performance eines ML Systems mit der Zeit abnehmen.
Die zweite häufig wenig beachtete Quelle für berechtigtes Misstrauen in eine ML Applikation ist ihr Urheber, in gewisser Weise der "Lehrer" der Maschine. Durch unsauberes Datenhandling kann sowohl absichtlich als auch unabsichtlich ein "Bias", also eine bestimmte Tendenz in das System eingebracht werden. Natürlich kann es auch durchaus sinnvoll sein vorhandenes Domänen-Wissen bei der Modellerstellung oder während der Datenaufbereitung einfließen zu lassen. Beispielsweise könnten bereits vorab alle, für einen speziellen Anwendungsfall nachweisbar irrelevanten Daten aus dem Datenset entfernt und somit die, für das Training benötigte Rechenzeit reduziert werden.
Die Maschine wird immer auch von Ihrem "Lehrer" beeinflusst sein.
Um das generelle Verständnis der Technologie und damit auch das Vertrauen in ML Systeme & Applikationen zu verbessern sollten Firmen, die solche Produkte anbieten transparenter kommunizieren, welche Technologien tatsächlich eingesetzt werden und wie sie einen vertrauenswürdigen Umgang mit der Datenbasis gewährleisten können.
Und dabei ist der Schutz des geistigen Eigentum kein Hinderungsgrund. Wir können transparenter über grundlegende technische Eigenschaften von ML-basierten Applikationen sprechen, ohne den Verlust von Know-How befürchten zu müssen. Zusätzlich sorgt ein besseres Verständnis des eigenen Produktes für eine erhöhte Vertrauenswürdigkeit und führt langfristig zu einer nachhaltigen, vom aktuellen ML/AI Hype unabhängigen Positionierung am Markt.
Eine der zentralen Eigenschaften von Machine Learning Anwendungen ist ihre starke Abhängigkeit von ihrer Datenbasis. Zu den wichtigsten Faktoren zählen dabei
- Der Umfang der zugrundeliegenden Daten auf denen die Anwendung trainiert wird
- Die Qualität der Daten
- Der Umgang mit diesen Daten
Vereinfacht gesprochen sollte sich der Umfang der Datenbasis proportional zur Komplexität der Aufgabe verhalten, die die ML Anwendung erlernen soll.
Vereinfacht..., hm? Also:
Stellen Sie sich vor, Sie wollen ein System trainieren, das erkennt, ob es sich bei einer handgeschriebenen Ziffer um eine "1" oder eine "8" handelt. Da die beiden Zahlen sich stark voneinander unterscheiden, wird ein relativ kleines Datenset genügen um die Unterschiede zu lernen. Soll das Modell hingegen erkennen, ob ein Bild einen Hund oder eine Katze zeigt, wird ein sehr viel größeres Datenset benötigt, da die Unterschiede hier viel geringfügiger sind und es mehr Ähnlichkeiten gibt.
Die Qualität der Datenbasis setzt sich aus vielen verschiedenen Eigenschaften zusammen, die sowohl durch den zugrunde liegenden natürlichen / technischen / ökonomischen / etc. Prozess aus dem die Daten stammen oder durch die Erstellung des Datensets durch den Urheber bestimmt werden können.
Der zugrunde liegende Prozess kann und soll in den meisten Fällen nicht manipuliert werden. Die Erstellung des Datensets hingegen kann und sollte durch den Urheber verantwortungsbewusst gehandhabt werden. Das folgende einfache Beispiel illustriert wie an dieser Stelle ein Bias in das System eingebracht werden kann :
In einer Fabrik soll die Ausfallwahrscheinlichkeit einer Produktionsanlage, bestehend aus zwei Maschinen auf Basis verschiedener Sensordaten vorhergesagt werden. Diese Sensordaten werden von zwei Sensor-Modulen aufgezeichnet, die an den Maschinen angebracht werden.
Wird jetzt eines der beiden Module vor der Aufzeichnung der Trainingsdaten nicht korrekt an der Maschine angebracht, so werden Daten die bei der Anwendung von korrekt angebrachten Modulen erfasst werden zu fehlerhaften Vorhersagen führen. Solche Fehler können durch klare Instruktionen und/oder eine Software, die alle an dieser kritischen Phase beteiligten Parteien unterstützen, vermieden werden.
Natürlich kann auch der Machine Learning Ingenieur, der für die Handhabung der Datenbasis verantwortlich ist, durch eine unsaubere Handhabung der Daten die Modellqualität für eine starke "Beeinflussung" des Systems sorgen.
Ein häufig von unerfahrenen Machine Learning Anwendern begangener Fehler ist beispielsweise, schon während des Trainings das komplette zur Verfügung stehende Datenset zu verwenden. Wenn man aber nicht einen Teil der Daten "ausspart" um hinterher die Performance des Modells zu überprüfen, ist das Modell am Ende nicht mehr repräsentativ für neue, zukünftige Daten und damit im Grunde nicht vertrauenswürdig.
All die genannten Punkte sind kontrollierbar. Das Fazit, sowohl für den Anwender, als auch für den Anbieter von auf Machine Learning basierenden Anwendungen sollte sein, dass die Qualität der Daten genauso wie der Umgang damit eine enorme Auswirkung auf die Qualität der Anwendungen hat.
Auch wenn ML Anwendungen häufig als "magische Black-Box" Technologien verkauft und wahrgenommen werden, können wir sie "Trustworthy" machen, indem wir einen verantwortungsvollen Umgang mit der Datenbasis pflegen und der Transparenz bezüglich den technischen Eigenschaften solcher Produkte einen hohen Stellenwert einräumen.