Motivation, Probleme & Herausforderungen

Die Speicherung von Daten hat erheblich zugenommen in den letzten Jahren. Mittlerweile werden täglich 2,5 Trillionen Byte Daten von den vielen Milliarden via Internet vernetzten Geräten erzeugt. Von 2007 bis 2009 wurden genau so viele Daten gespeichert wie im gesamten Zeitraum davor. In den letzten zwei Jahren waren es sogar neun mal so viele Daten wie im gesamten Zeitraum davor. Man muss kein Mathematiker sein, um hier einen exponentiellen Anstieg in der Menge der gespeicherten Daten zu erkennen.

Für den Menschen wird es immer schwieriger den Wert der Daten zu entschlüsseln und Handlungsempfehlungen aus den vorliegenden Daten abzuleiten. Machine Learning bedeutet, Daten maschinell in Handlungsanweisungen zu übersetzen. In Bereichen in denen viele Daten erzeugt werden und schnell ausgewertet werden müssen, finden derartige Methoden Anklang. Man stelle sich vor es gibt eine experimentelle Methode, die schneller Daten erzeugt als diese ausgewertet werden können. Wenn diese experimentelle Methode durchgehend angewandt wird, würde die Auswertung der Daten immer weiter abgehangen werden und Ergebnisse die Wissenschaftler viel zu spät erreichen.

Das Modell - Eine Abstraktion der Realität

Machine Learning ist mathematische Modellierung. Ein mathematisches Modell beschreibt einen bestimmten Teil der Realität und hilft dabei automatisiert Handlungsempfehlungen zu erzeugen. Damit das mathematische Modell das kann, muss es an einem Satz von Referenzdaten trainiert werden.

Im Wesentlichen funktionieren wir auf kognitiver Ebene gleich. Stellen Sie sich vor, Sie möchten jemanden darauf trainieren, die Rebsorte eines Weines anhand des Geschmacks zu erkennen. Sie würden denjenigen erst einmal eine beachtliche Menge an Wein trinken lassen und ihm dabei sagen, um welche Rebsorten es sich handelt - ihn also an einem Referenzdatensatz trainieren. Nachdem jemand genügend Riesling, Weiß Burgunder und Chardonnay getrunken hat, wird er Weine dieser Rebsorte am Geschmack erkennen können.

Weine Klassifizieren basierend auf NMR Spektren

Mit der Kernspinresonanzspektroskopie (NMR Spektroskopie) ist es möglich die Wechselwirkung von Teilchen zu messen und die molekulare Struktur einer Flüssigkeit aufzuklären. Nimmt man diese Technologie, um die molekulare Struktur von Weinen aufzuklären, kann man mit Hilfe der Mathematik das oben erwähnte Modell konstruieren.

Ein anschaulicher Algorithmus ist der KNN (k-nearest-neighbor) Algorithmus, der für eine Probe die „nächsten Nachbarn“ ermittelt, d.h. die bisherigen Proben mit der größten Ähnlichkeit zu der aktuellen Probe. Anschließend wird die aktuelle Probe der Probengruppe zugeordnet, aus der die meisten „Nachbarn“ kamen. Die NMR liefert einen hoch parametrisierten Raum, in dem diese Vergleiche gemacht werden. Ähnlich wie ein Mensch, der merkt ob ein Wein süß, sauer, trocken, fruchtig oder etwas anderes ist. Nur sind die Parameter bei einer menschlichen Weinprobe überschaubar, während die NMR tausende von Parametern liefern kann.

Machine Learning und Modell optimieren

Die Bewertung von einer Messung, die Tausende von Parametern liefert, in wieder Tausenden von Referenzdaten, wäre für einen Menschen schier unmöglich. Machine Learning bedeutet, ein mathematisches Modell soweit an Daten zu trainieren, dass es neue Daten automatisch auswerten kann. Die Maschine - oder besser gesagt der Algorithmus - lernt also anhand von Referenzdaten Entscheidungen zu treffen.

Die Optimierung von solchen Modellen ist nicht trivial. Jedes Modell beinhaltet immer auch Parameter, die vom Menschen gesetzt werden. Aber was sind die optimalen Parameter für Ihr Modell? Schon bei der Auswahl des Modells wurde eine menschliche (eventuell nicht optimale) Entscheidung getroffen. Lassen Sie sich von uns beraten, wie Sie, für ein effizientes Machine Learning, Modelle validieren und Parameter optimieren können.