Alexander Hirner, der CTO & Co-Founder von MoonVision & Dishtracker, gibt im Gespräch mit Anthony Kelly von SODA interessante Einblicke über seine Anfänge mit dem Programmieren, seine Faszination Machine-Learning und die Gründung von MoonVision und Dishtracker.
Alex: Ich besaß schon immer eine Faszination für autonome Maschinen und die Möglichkeit diese zum Leben zu erwecken. Das brachte mich in meinen frühen Kindertagen natürlich zum Programmieren. Während andere Fußball spielten, habe ich im Grunde Viren programmiert. Ich studierte Elektrotechnik an der Fachschule und arbeitete danach ein paar Jahre als Elektroingenieur, da die ganze “KI-Sache” zu diesem Zeitpunkt noch nicht sehr ausgereift war. 2014 beschloss ich, dass ich die Welt sehen musste, mit all den Dingen, die es in meinem Beruf zu entdecken gab, unter anderem im Zuge eines Auslandssemesters in den Vereinigten Staaten. Während dem Studium lernte ich Leute kennen, die bereits großes Know-How über KI und maschinelles Lernen besaßen. Gemeinsam mit ihnen studierte ich während meiner Zeit an der Westküste Journals von Schmidhuber und versuchte einiges davon in der Praxis umzusetzen. Das gab mir wirklich etwas Besonderes, weil ich jetzt dachte ja jetzt ist es an der Zeit, dass diese Technologie zum Leben erweckt wird.
Alex: Als ich 2016 zurück nach Österreich kam, kontaktierte mich Florian Bauer, ein Kollege, den ich auf dem Ethereum-Meetup, das ich bevor ich in die USA gegangen bin gegründet habe, kennengelernt habe. Er sagte zu mir: “Es gibt einen Hackathon, es ist ein großes Automobilunternehmen, und ich denke du bist ein Typ, der uns helfen kann ihnen eine Lösung mit maschinellem Lernen zu liefern”. Es war bei Audi in Ingolstadt. Eine der Aufgaben war es, in einem zukünftigen Klassifizierungs-Szenario Container anhand ihres Aussehens zu unterscheiden. Da sie noch nicht automatisch zählen konnten, mussten sie Menschen durch ihre Lager schicken, um zu zählen. Wir zeigten in einer Live-Situation, dass man das mit wenigen Trainingsdaten automatisieren konnte. Dies überzeugte die Jury und brachte uns den Sieg beim Audi Smart-Factory Hackathon 2016. Das hat uns als Team zusammengebracht, aber das war nur der Anfang von dem, was wir alle nicht wussten, was als nächstes passieren würde. Der erste Preis war der Besuch einer Eisrallye-Challenge mit Audi-Autos in Finnland. Am Abend saßen die anderen Teilnehmer der Challenge neben uns und fragten: “Hey ihr Jungs, ihr passt nicht hierher, ihr seht so jung aus. Was macht ihr denn so?”. “Ja, du hast Recht, wir sind Nerds und wir haben einen Hackathon mit einer wirklich coolen Lösung gewonnen, der uns hierher gebracht hat”, antwortete ich. Ein anderer Teilnehmer fragte: “Okay, wenn ihr das mit Containern könnt, könnt ihr das auch mit Hühnern machen?” Es stellte sich heraus, dass dieser Teilnehmer Josef Schmidbauer war, der einige Restaurants und ein Zelt auf dem Oktoberfest in München besitzt. Er hatte, wie viele andere auch, seit Jahren das Problem, dass der Kassiervorgang von Vertrauenspersonen kontrolliert werden musste, da sonst zu viel Essen die Küche verließ, das nicht in die Kasse eingebucht wurde. Durch die enorme Menge an Speisen und Getränken in den Oktoberfestzelten und Biergärten ist es für Festwirte und Servicepersonal sehr schwierig genau nachzuverfolgen, welche Stückzahlen ausgegeben wurden. Josef fragte, ob die Jungs der Herausforderung gewachsen seien und ich erwiderte: “Let’s, do it. Let’s make this thing happen”. Das war der Beginn von Moonvision und Dishtracker. Ich hatte zu diesem Zeitpunkt noch nicht allzu viel Erfahrung mit Objekterkennung. Aber ich wussten schon genau, was die Herausforderungen bezüglich der Trainingsdaten und deren Aufbereitung waren. Wir hatten vier Monate Vorbereitungszeit um das System auf dem Oktoberfest 2017 zum Leben zu erwecken.
“Was auch immer du einmal getan hast, beim zweiten Mal bist du doppelt so schnell”
Alexander Hirner
Alex: Es war im März, als wir die Herausforderung annahmen. Zu diesem Zeitpunkt wussten wir noch nicht, ob daraus eine Firma entstehen würde. Die 4 Monate bis zum Oktoberfest mussten wir sehr präzise sein und den eigentlichen Engpass finden, welcher war dass wir nicht wussten, welche Objekte wir bis zu zwei Tage vor der Zubereitung der Mahlzeiten lokalisieren und kategorisieren mussten. 2017 gab es noch keine Labelling Plattformen für die Objekterkennung mit Hilfsfunktionen, mit denen die Konsistenz von Kategorien überprüft werden konnte. Vom Video über die Extraktion von Szenen bis hin zu unbeaufsichtigten Algorithmen, die bereits rundliche Objekte erkennen. Und das alles in der Benutzeroberfläche des Labelling Tools, das von einer Person in Wien und einer Person auf dem Oktoberfest verwendet werden konnte, damit beide zusammenarbeiten konnten. Einige wichtige Dinge, die eingebaut wurden, waren Empfehlungssysteme, Video Extraktion, automatische Vorkennzeichnung und Qualitätskontrolle gekennzeichneter Einheiten. Diese waren der Schlüssel zum Erfolg.
Alex: Jetzt ist es ein Standardprozess und wir beginnen mit vorgefertigten Modellen. Die Extraktion kritischer Daten ist viel genauer, und wir haben einen Feinabstimmungs-Prozess, bei dem zunächst ein Zehntel der Daten benötigt wird. Außerdem sind die Datenaustausch-Pipelines jetzt vollständig global. Diese befinden sich im Internet und immer auf der Plattform. Es ist wie eine Plattform, auf der alle Daten und Modelle der letzten Jahre gespeichert sind. Was auch immer du einmal getan hast, beim zweiten Mal bist du doppelt so schnell und das geht weiter.
0:26 Alexander Hirner – CTO & CoFounder von Moonvision/Dishtracker
5:02 Die Idee von Moonvision und Dishtracker
11:55 Einführung in CV und Deep Learning: Wie haben wir angefangen?
15:01 Feuerprobe – Oktoberfest: Größte Learnings & Takeaways
19:20 Daten-Annotation & Q&A für CV
29:05 Was macht den Schritt von der Forschung zur Produktion so schwierig?