Dieses Interview habe ich mit Ralf Colbus von IBM Deutschland anlässlich der IBM Storage Strategy Days 2018 geführt. Darin spricht er über die Rolle von Strorage-Systemen im Kontext leistungshungriger KI-Anwendungen, wie sie immer häufiger zum Einsatz kommen. Und über ein Tool, das künftig Datenwissenschaftlern helfen soll, Daten zielgerichteter und schneller zu finden.

Storage-Lösungen für KI-Anwendungen müssen zahlreichen Anforderungen genügen

KI-Anwendungen durchlaufen verschiedene Phasen, und vor allem daran sollten sich die entsprechenden Storage-Systeme orientieren. So werden im ersten Schritt sämtliche Daten für die Lernphase gesammelt, und das aus ganz unterschiedlichen Quellen, was ein System erfordert, das sowohl mit strukturierten als auch unstrukturierten Datentypen klar kommt.

Darüber hinaus muss man sich die Frage stellen: Habe ich überhaupt genug Speicherplatz für all die Daten. Hierbei geht es also um Aspekte wie die passenden Schnittstellen und die richtigen  Speichersysteme wie NAS, die ich hierfür brauche.

Als Nächstes sind die Verarbeitung und die Präparation an der Reihe. Hierzu gehört vor allem das sogenannte Taggen, also das Versehen der Daten mit Metatags. Die helfen dem Data Scientist, Daten von Anfang besser zuordnen und kategorisieren zu können. Denn wie die Praxis zeigt, verschwenden Datenwissenschaftler Zweidrittel ihrer Arbeitszeit mit dem Suchen und Auffinden der richtigen Daten. Was angesichts ihrer Stundensätze ein kaum hinnehmbarer Zustand ist.

Sobald die Verschlagwortung der Daten abgeschlossen ist, wird dieser meist riesige Datensatz in den Rechner geladen, der sie verarbeiten soll, was zum einen enorme Rechenzeiten und zum anderen schnelle Datenverbindungen erfordert.

Aber auch das Thema Datenarchivierung spielt in diesem Kontext mitunter eine gewichtige Rolle, also muss das Speichersystem auch hierfür geeignet sein. Denkbar sind hier Fälle des Autonomen Fahrens, bei denen es beispielsweise zu einem Unfall kommt, dessen rechtliche Lage eindeutig geklärt werden muss. Hierbei dreht es sich zum Beispiel um Fragen nach den Algorithmen, mit deren Hilfe das KI-Modell erstellt wurde, etc.

 Mit „MetaOcean“ gibt IBM Datenwissenschaftlern das richtige Tool an die Hand

Hinter dem Projekt „MetaOcean“ verbirgt sich der Versuch seitens IBM, vor allem Data Scientists bei der Suche nach den richtigen Daten für ihr spezielles KI-Projekt bestmöglich zu unterstützen. Hiermit lassen sich Daten von vornherein mit den passenden Schlagwörter versehen, also taggen. Das Tool kann zudem Datendoubletten ausfindig machen, was den notwendigen Datenbestand von Anfang an auf ein Minimum reduziert. Darüber hinaus erfolgt das Verschlagworten von Daten teilweise automatisiert, sodass die KI-Wissenschaftler diese Arbeit nicht ausschließlich manuell erledigen müssen.

Das Gute daran: IBM wird das Projekt „MetaOcean“ im Laufe des Herbst in ein „richtiges“ Produkt überführen, das die Datenwissenschaftlern dieser Welt beim schnellen Auffinden der richtigen Daten unterstützen und so ihre kostbare Zeit schonen soll.

Das komplette Videointerview mit Ralf Colbus

Disclaimer: Für das Erstellen dieses Videoblogpost hat mit IBM Deutschland beauftragt. Bei der Ausgestaltung der Inhalte hatte ich freie Hand.