Machine-Learning-Experimenten für Benchmarking und AutoML

Antragssteller

Prof. Dr. Bernd Bischl
Institut für Statistik
Arbeitsgruppe “Computationale Statistik”
Ludwig-Maximilians-Universität München
Ludwigstraße 33
D-80539 München

Projektübersicht

In den letzten Jahren hat sich maschinelles Lernen in immer mehr wissenschaftlichen und praktischen Disziplinen als nützliches, oder sogar essentielles Werkzeug erwiesen. Die Informationen, welche durch maschinelles Lernen aus den immer größer werdenden Daten generiert werden, haben enorme Relevanz, sowohl für Wissenschaft als auch für Unternehmen. Dabei geht es zum einen darum, die Struktur in den Daten genauer zu verstehen, zum anderen darum, möglichst präzise Vorhersagen für künftige Ereignisse zu treffen. Entscheidend für den Erfolg solcher Methoden sind oft Erfahrungswerte von Usern, die dann entscheiden, welche Algorithmen und Hyperparameter in welcher Situation zur Anwendung kommen sollen. Dies ist selbst für Spezialisten oft eine schwierige Aufgabe, da der Zusammenhang zwischen Datensatz und optimalem Vorgehen oft nicht direkt vorherzusagen ist und das Verständnis der zugrundeliegenden Algorithmen fehlt.

Durch den extrem starken Zuwachs von (Forschungs-)Bereichen, die auf maschinelles Lernen angewiesen sind, kann der Bedarf an Spezialisten derzeit nicht gedeckt werden. Um dieses Problem zu lösen, müssen Möglichkeiten geschaffen werden, um datenabhängig und automatisiert passende Algorithmen auszuwählen. Der Anwender soll dadurch in die Lage versetzt werden, gute Lösungen zu erhalten ohne selbst massiv Zeit und Wissen in den Findungsprozess investieren zu müssen.

Dieses Feld des automatisierten maschinellen Lernens, auch AutoML genannt, hat in den letzten Jahren bedeutende Fortschritte gemacht. Kritisch für den Erfolg solcher Systeme ist das Vorhandensein einer großen Menge von Experimenten auf möglichst vielen verschiedenen Szenarien. Die OpenML Plattform erlaubt es Wissenschaftlern, Daten und Experimente in der Cloud bereit zu stellen. Die so produzierten Daten bieten bereits die Grundlage für einige AutoML Lösungen.

Da die Experimente bisher allerdings von Menschen definiert und auf der Plattform zur Verfügung gestellt werden, ist unklar ob diese Auswahl von Experimenten optimal ist. Wir schlagen daher vor, die von Menschen generierten Experiment-Datenbank vollautomatisiert anzureichern. Dazu sollen Bots, also autonom agierende Programme, zum Einsatz kommen, welche selbständig Experimente definieren, ausführen und die Ergebnisse auf OpenML hochladen.

Diese Bots sollen dabei massiv-parallel auf der HPC-Struktur des LRZ eingesetzt werden um eine große Menge an Daten zu generieren. Im ersten Schritt können Bots unabhängig voneinander agieren und zufällige Experimente durchführen. Im weiteren Verlauf soll dieses Vorgehen verbessert werden um gezielt Datensätze, Algorithmen und Hyperparameter-Konfigurationen zu evaluieren, welche bisher wenig untersucht wurden oder eine große Unsicherheit aufwiesen. Um die geschätzte Unsicherheit zu minimieren, können Methoden der modellbasierten Optimierung verwendet werden. Des Weiteren können in Folgeschritten die so gewonnenen Daten mit Hilfe verschiedener Methoden zur Darstellung mehrdimensionaler Daten visualisiert werden. Die daraus gewonnenen Erkenntnisse und Daten können dann in einem