Thomas Harrer von IBM über KI und Daten

Videoblog: „Die KI wird uns helfen, die Welt besser zu verstehen“

Dieses Interview habe ich auf den IBM Storage Strategy Days 2018 mit Thomas Harrer geführt. Darin spricht er über die Notwendigkeit guter und valider Daten für KI-Anwendungen und was das für aktuelle und künftige Storage-Systeme bedeutet.

Die Datenexplosion der nächsten Jahre und ihre Folgen

Eine der wesentlichen Grundvoraussetzungen für eine funktionierende Künstliche Intelligenz ist das Bereitstellen und Vorhalten der benötigten Daten, die meist in großer Zahl vorliegen. Daher ist die richtige Storage-Strategie unerlässlich, will man die KI bestmöglich einsetzen und nutzen.

Eine Besonderheit kommt hierbei den unstrukturierten Daten zu, die im Verhältnis zu den strukturierten Daten deutlich schneller wachsen. Diese erfordern sehr viel leistungsfähigere und größere Speichersysteme, da hier die Datenmengen exponentiell wachsen. Das lässt sich sehr gut anhand einiger markanter Zahlen verdeutlichen.

Bis zum Jahr 2000 wurden weltweit etwa 2 Exabyte an Daten gespeichert. Das betraf alles von Büchern über Filme und anderen Informationen. Umgerechnet entspricht das 2.000 Petabyte. Mittlerweile werden 14 Exabyte an Daten generiert – und zwar pro Tag, woraus sich eine weltweit gespeicherte Datenmenge am Jahresende ergibt, die sich auf unglaubliche 20 Zettabyte beläuft.  Das sind 1.000.000.000.000.000.000.000 Bytes, also eine Million mal 1 Million mal eine Million mal 1.000.

Und diese Entwicklung schreitet weiter voran. So schätzen Experten, dass bis zum Jahr 2025 die Menschheit in etwa 165 Zettabyte an Daten generieren wird. Und was das für die benötigten Speichersysteme bedeutet, kann man sich wohl in etwa ausmalen.

Bereiche wie die Medizin treiben große Datenmenge voran

Dank medizinischer Apparaturen wie Mikroskope, Röntgengeräte, etc. werden schon seit vielen Jahren kontinuierlich Daten gesammelt und gespeichert. Hinzu kommt jetzt die Möglichkeit, das menschliche Genom immer kostengünstiger und besser analysieren und speichern zu können, wofür „nur“ etwa 700 Megabyte Datenspeicher erforderlich sind.

Will man allerdings noch das Genom sämtlicher menschlicher Bakterien entschlüsseln und protokollieren, verhält sich das gleich völlig anders. Hier kommen ganz schnell Terabyte an Daten zusammen, und das pro Patient! Was aber gleichzeitig bedeutet, dass die Erkenntnisse daraus neue Therapieformen ermöglichen, mit denen sich Patienten immer individueller behandeln lassen.

Die Künstliche Intelligenz hilft, die Welt besser zu verstehen

Die KI soll und wird uns helfen, die Welt anhand von Daten besser zu verstehen. Als Beispiel seien hier Videobilder zu nennen, die Geschehnisse aufzeichnen, die Bilder liefern für bestimmte Lebenslagen, und so fort. Klar ist hierbei, dass so sehr schnell riesige Datenmengen entstehen, die obendrein mit den typischen prozeduralen Algorithmen gar nicht richtig erfasst und verstanden werden können.

Daher sind neue Konzepte und Ansätze erforderlich, die vor allem auf Basis unstrukturierter Daten die Informationen liefern, die wir brauchen. Dazu gehören beispielsweise neuronale Netze, die mit diesen Daten ganz anders umgehen können und auch deutlich lernfähiger sind als die herkömmlichen Rechenansätze. So hilft die KI selbstfahrenden Autos, Gegenstände auf der Fahrbahn besser und schneller zu erkennen, weil sie permanent dazu lernen. Damit können autonom betriebene Fahrzeuge in Echtzeit entscheiden, wann sie bremsen sollen oder einem Hindernis einfach nur ausweichen können.

Das und vieles mehr wird uns helfen, die Welt ein bisschen verständlicher zu machen und die Automatisierung vieler Abläufe voranzutreiben.

Das komplette Videointerview mit Thomas Harrer

Disclaimer: Diesen Videoblogbeitrag habe ich im Auftrag von IBM erstellt. Bei der Ausgestaltung der Inhalte hatte ich vollkommen freie Hand.

Ein weiteres Interview von den IBM Storage Strategy Days 2018

Videoblog: “ Mit ‚MetaOcean‘ helfen wir Data Scientists, die richtigen Daten zu finden „

 

Piyush Chaudhary über IBM Spectrum Scale und Hadoop

[Videochat] „Autonomes Fahren profitiert von IBM Spectrum Scale und Hadoop“

Piyush Chaudhary (Kurzform: PC) ist ein äußerst erfahrener Software-Entwickler mit einer ansehnlichen IBM-Historie. Aus diesem Grund war es mir eine besonders große Freude, das nachfolgende Interview führen zu dürfen, in dem er eine ganze Menge über IBM Spectrum Scale im Allgemeinen sowie Spectrum Scale in Kombination mit Hadoop erzählt.

Zunächst einmal wollte ich gerne wissen, wovon PCs Vortrag während der IBM Spectrum Scale Strategy Days 2018 handelte.

httpss://twitter.com/mhuelskoetter/status/968783445257261056

Wenig überraschend sprach Piyush darin über die Kombination „IBM Spectrum Scale und Hadoop“, über die damit in Verbindung stehende Zusammenarbeit mit der Firma Hortonworks und präsentierte Anwendungsbeispiele, wie Hadoop-Lösungen von Hortonworks in Kombination mit IBM Spectrum Scale vielen Anwendern bei ihren Big-Data-Herausforderungen helfen.

Hortonworks Hadoop + IBM Spectrum Scale = High-Performance-Gespann

Um besser zu verstehen, was es mit IBM Spectrum Scale und Hadoop auf sich hat, wollte ich gerne den Zusammenhang zwischen beiden Techniken besser verstehen. Um es sowohl Hortonworks- als auch IBM-Anwendern so einfach wie möglich zu machen, bedient sich IBM eines relativ simplen Tricks.

So stellt IBM Spectrum Scale eine transparente Schicht zwischen der Storage-Hardware und dem Hadoop-eigenen Dateisystem HDFS (Hadoop Data File System) dar. Damit lassen sich Hadoop-Anwendungen innerhalb einer Spectrum Scale-basierten Storage-Umgebung nahezu ohne größere Anpassungen nutzen.

httpss://twitter.com/mhuelskoetter/status/968784138567323648

Was das für reale Hadoop-Spectrum-Scale-Anwendungen bedeutet, konnte PC anhand eines sehr prominenten Beispiels verdeutlichen. So setzt ein renommierter Automobilhersteller diese Analyse-Lösung im Bereich des autonomen Fahrens ein. Damit lassen sich die riesigen Datenmengen, die aufgrund der zahlreichen Sensoren innerhalb von fahrerlosen Fahrzeugen anfallen, blitzschnell und zuverlässig verarbeiten, speichern, analysieren und weiterverwenden.

Autonomes Fahren profitiert von Hadoop und IBM Spectrum Scale

Gerade beim Einspeisen der Sensordaten in die zugrunde liegenden Storagesysteme hilft die Kombination aus Spectrum Scale und Hadoop enorm, da die bereitgestellten Daten unmittelbar analysiert werden können, was wiederum Rückschlüsse in nahezu Echtzeit erlaubt. Die somit ermittelten Daten lassen sich zudem in völlig anderen Anwendungsszenarien nutzen, wie zum Beispiel in Simulatoren. Diese sollen zum Beispiel zeigen, wie sich die Verhaltensweisen der autonomen Fahrzeugen künftig verbessern lassen. An dieser Stelle können zusätzlich KI-Algorithmen dafür sorgen, dass die Simulatoren mithilfe der analysierten und aufbereiteten Datenbestände permanent bessere und zuverlässigere Ergebnisse hervorbringen.

Das Interview mit PC in voller Länge

 

Disclaimer: Für diesen Beitrag hat mich IBM Deutschland als (Video-)Blogger beauftragt.

Wendel Zacheiss, SVA, über Dell EMC Isilon

[Video] Wendel Zacheiss, SVA, über die Dell EMC Isilon-NAS-Plattform

Dieses Interview habe ich anlässlich des SVA StorageDay 2017 in Hamburg in den heiligen Hallen des Millerntorstadions gedreht. Darin spricht Wendel Zacheiss von der SVA über die Dell EMC Isilon-Plattform und warum diese Lösung so gut mit unstrukturierten Daten umgeht.

httpss://twitter.com/mhuelskoetter/status/923465683140308997

Mit der Isilon hat Dell EMC eine Scale-Out-NAS-Plattform im Programm, die in den Ausprägungen All-Flash, Hybrid und Archivierung vorliegt. Dabei steht das Speichern und Archivieren von unstrukturierten Daten im Vordergrund. Doch warum ist das so, wollte ich von Herrn Zacheiss gerne wissen. Zunächst einmal: Es spielt überhaupt keine Rolle, ob es um reine Dateidaten geht, die mithilfe von Office-Anwendungen generiert werden, oder um Video-/Analysedaten, die zunehmend auf Storage-Einheiten wie der Dell EMC Isilon landen.

Dell EMC Isilon skaliert beinahe beliebig, und das in alle Richtungen

Das Besondere an der NAS-Lösung von Dell EMC ist deren enorme Skalierbarkeit. Denn es stehen sämtliche Ressourcen wie Prozessor und Datenspeicher nahezu unbegrenzt zur Verfügung. Gleichzeitig lässt sich diese Plattform sehr komfortabel verwalten, womit sie die richtige Speicherlösung für unstrukturierte Daten ist.

Ursprünglich wurde die Dell EMC Isilon vor allem für das Speichern von Videostreams eingesetzt, und das merkt man ihr auch heute noch an. So ist ein zunehmend wichtiger Bereich die Aufzeichnung von enormen Videodaten, die von Überwachungskameras generiert werden.

Ob CIFS, SMB, S3 oder OpenStack – Dell EMC Isilon ist eine Multi-Protokoll-Lösung

Für das  Speichern und Abrufen dieser unstrukturierten Daten stehen diverse Schnittstellen wie CIFS/NFS, SMB, Amazon S3, OpenStack und Swift zur Verfügung. Damit können die Anwender der Dell EMC Isilon auf vielfältiger Weise ihre unstrukturierter Daten speichern und diese anschließend mit geeigneten Tools weiterverarbeiten.

Hadoop-Big-Data-Analysen finden direkt auf der Isilon statt

So nimmt beispielsweise das Analysieren von großen Datenmengen eine immer wichtigere Rolle ein, was unter dem Schlagwort „Big Data“ subsummiert wird, . Hierfür existieren zahlreiche Analysetools wie Hadoop samt dem Hadoop File System (HFS), die aus den unstrukturierten Daten aussagekräftige Ergebnisse extrahieren und aufbereiten.

Damit lassen sich die Daten auf der Dell EMC Isilon bestmöglich nutzen, da auf der Speicher-Appliance ein Hadoop-Plugin vorinstalliert ist, das die zu untersuchenden Daten in einem Hadoop-Cluster zusammenfasst und analysiert. Das hat den wesentlichen Vorteil, dass die Daten nicht erst umständlich auf die Speichereinheit geladen oder kopiert werden müssen, sondern sofort bereit stehen. Das spart Zeit und Geld.

Social-Media-Analysen und mehr mit Hadoop

In Sachen Datentypen ist das Hadoop-Plugin äußerst flexibel. So kann nahezu alles analysiert werden, von Social-Media-Daten wie Twitter- oder Facebook-Beiträge bis hin zu Analyse- und Logfile-Daten, wie sie im Splunk-Umfeld anfallen und ausgewertet werden.

Disclaimer: Dieser Beitrag und das zugehörige Video sind im Auftrag der SVA GmbH/Wiesbaden entstanden. Bei der Auswahl der Interviewfragen und der Erstellung des Blogposts hat mir die SVA größtenteils freie Hand gelassen.

Weitere Videobeiträge vom SVA StorageDay 2017

[Video] Holger Fröhlich, SVA, über die Hitachi Content Platform

[Video] Sven Kaminski, SVA, über NetApp ONTAP und mehr

[Video] Konrad Trojok, SVA, über kognitive Objektspeicher-Lösungen

[Video] Gero Dieckmann über den SVA StorageDay 2017