Dieses Interview habe ich auf den IBM Storage Strategy Days 2018 mit Thomas Harrer geführt. Darin spricht er über die Notwendigkeit guter und valider Daten für KI-Anwendungen und was das für aktuelle und künftige Storage-Systeme bedeutet.

Die Datenexplosion der nächsten Jahre und ihre Folgen

Eine der wesentlichen Grundvoraussetzungen für eine funktionierende Künstliche Intelligenz ist das Bereitstellen und Vorhalten der benötigten Daten, die meist in großer Zahl vorliegen. Daher ist die richtige Storage-Strategie unerlässlich, will man die KI bestmöglich einsetzen und nutzen.

Eine Besonderheit kommt hierbei den unstrukturierten Daten zu, die im Verhältnis zu den strukturierten Daten deutlich schneller wachsen. Diese erfordern sehr viel leistungsfähigere und größere Speichersysteme, da hier die Datenmengen exponentiell wachsen. Das lässt sich sehr gut anhand einiger markanter Zahlen verdeutlichen.

Bis zum Jahr 2000 wurden weltweit etwa 2 Exabyte an Daten gespeichert. Das betraf alles von Büchern über Filme und anderen Informationen. Umgerechnet entspricht das 2.000 Petabyte. Mittlerweile werden 14 Exabyte an Daten generiert – und zwar pro Tag, woraus sich eine weltweit gespeicherte Datenmenge am Jahresende ergibt, die sich auf unglaubliche 20 Zettabyte beläuft.  Das sind 1.000.000.000.000.000.000.000 Bytes, also eine Million mal 1 Million mal eine Million mal 1.000.

Und diese Entwicklung schreitet weiter voran. So schätzen Experten, dass bis zum Jahr 2025 die Menschheit in etwa 165 Zettabyte an Daten generieren wird. Und was das für die benötigten Speichersysteme bedeutet, kann man sich wohl in etwa ausmalen.

Bereiche wie die Medizin treiben große Datenmenge voran

Dank medizinischer Apparaturen wie Mikroskope, Röntgengeräte, etc. werden schon seit vielen Jahren kontinuierlich Daten gesammelt und gespeichert. Hinzu kommt jetzt die Möglichkeit, das menschliche Genom immer kostengünstiger und besser analysieren und speichern zu können, wofür „nur“ etwa 700 Megabyte Datenspeicher erforderlich sind.

Will man allerdings noch das Genom sämtlicher menschlicher Bakterien entschlüsseln und protokollieren, verhält sich das gleich völlig anders. Hier kommen ganz schnell Terabyte an Daten zusammen, und das pro Patient! Was aber gleichzeitig bedeutet, dass die Erkenntnisse daraus neue Therapieformen ermöglichen, mit denen sich Patienten immer individueller behandeln lassen.

Die Künstliche Intelligenz hilft, die Welt besser zu verstehen

Die KI soll und wird uns helfen, die Welt anhand von Daten besser zu verstehen. Als Beispiel seien hier Videobilder zu nennen, die Geschehnisse aufzeichnen, die Bilder liefern für bestimmte Lebenslagen, und so fort. Klar ist hierbei, dass so sehr schnell riesige Datenmengen entstehen, die obendrein mit den typischen prozeduralen Algorithmen gar nicht richtig erfasst und verstanden werden können.

Daher sind neue Konzepte und Ansätze erforderlich, die vor allem auf Basis unstrukturierter Daten die Informationen liefern, die wir brauchen. Dazu gehören beispielsweise neuronale Netze, die mit diesen Daten ganz anders umgehen können und auch deutlich lernfähiger sind als die herkömmlichen Rechenansätze. So hilft die KI selbstfahrenden Autos, Gegenstände auf der Fahrbahn besser und schneller zu erkennen, weil sie permanent dazu lernen. Damit können autonom betriebene Fahrzeuge in Echtzeit entscheiden, wann sie bremsen sollen oder einem Hindernis einfach nur ausweichen können.

Das und vieles mehr wird uns helfen, die Welt ein bisschen verständlicher zu machen und die Automatisierung vieler Abläufe voranzutreiben.

Das komplette Videointerview mit Thomas Harrer

Disclaimer: Diesen Videoblogbeitrag habe ich im Auftrag von IBM erstellt. Bei der Ausgestaltung der Inhalte hatte ich vollkommen freie Hand.

Ein weiteres Interview von den IBM Storage Strategy Days 2018

Videoblog: “ Mit ‚MetaOcean‘ helfen wir Data Scientists, die richtigen Daten zu finden „