Dieses Interview habe ich mit CEO und Co-Gründerin Dagmar Schuller des Startup-Unternehmens audEERING aus Gliching bei München geführt. Darin spricht sie über die Open-Source-Software openSMILE und was diese mit audEERING zu tun hat. Und was es mit sensAI auf sich hat, erfahrt ihr in diesem Video ebenfalls.

openSMILE ist der „Grundstein“ der Firma audEERING

Ohne die Open-Source-Software openSMILE gäbe es die Firma audEERING wohl eher nicht. Denn mit dieser Eigenentwicklung der TU München schafft das Startup-Unternehmen rund um Dagmar Schuller all die Produkte, die man derzeit bereits am Markt sieht – und die künftig noch folgen werden.

Bei openSMILE handelt es sich um einen sogenannten Feature Extractor, mit dem sich eine Vielzahl von Emotionen in gesprochener Sprache erkennen lassen. Also egal, wie traurig, wütend oder glücklich ein Mensch gerade ist, openSMILE erkennt anhand bestimmter Parameter ziemlich genau, in welcher emotionalen Verfassung der Sprecher (oder Sänger) sich gerade befindet.

Das lässt sich sehr gut anhand des folgenden Videos erkennen, in dem openSMILE die wichtigsten emotionalen Parameter dem gesprochenen Wort zuordnet und daraus die Grundstimmung ableitet. Und das, wie ihr sehen könnt, macht die Software ziemlich gut.

Doch openSMILE kommt nicht nur bei audEERING selbst zum Einsatz. So wurde die Software bereits mehr als 50.000-mal von diversen Forschungszentren und anderen Anwendern von der audEERING-Seite geladen, um die Fähigkeiten des Feature Extractors in eigenen Projekten nutzen zu können. Selbstverständlich gibt es auch eine kommerzielle Lizenz, die sich direkt über audEERING beziehen lässt.

openSMILE erkennt an die 6.000 Merkmale

Bei openSMILE handelt es sich laut Frau Schuller um ein sehr variables System mit einem bereits sehr großen Featureset. Soll heißen, dass die Open-Source-Software an die 6.000 unterschiedlichsten emotionalen Zustände erkennen kann. Dabei kommt openSMILE in zwei Ausprägungen zum Einsatz: Entweder als Cloud-Service oder direkt auf dem Gerät, auf dem die Audiodateien entstehen. Der große Vorteil hierbei: Dank der hohen Rechenleistung der aktuellen Smartphones, Tablets und Smartwatches kann openSMILE das gesprochene Wort quasi in Echtzeit analysieren und die zugrundeliegenden Emotionen darstellen. Ohne dass dabei irgendwelche Daten das Gerät verlassen. Ein in Zeiten von DSGVO und Co. nicht zu unterschätzender Vorteil.

Von „Singing Voice Detection“ bis Vogelstimmen: openSMILE hat einiges zu bieten

Neben den sprachlichen Fähigkeiten hat openSMILE auch ein hohes musikalisches Talent vorzuweisen. Dies spiegelt sich zum Beispiel in sensAI Music wider, dem audEERING-Produkt für den Musik- und Videomarkt. So kommt beispielsweise die Funktion „Singing Voice Detection“ im Bereich Internetradio zum Einsatz. Dort bestimmt openSMILE selbstständig anhand des aktuellen Stücks, dass der Solopart für das Einstreuen eines kurzen Werbejingles bestens geeignet wäre. Aber auch für Vogelkundler ist openSMILE sehr interessant, da es für die genaue Bestimmung von Vogelstimmen und den zugehörige Vogelarten geeignet ist.

Das leistet sensAI im Allgemeinen

sensAI ist quasi das Frontend zu openSMILE und fasst je nach Ausprägung die zahlreichen Merkmale der Software unter einer einheitlichen Bedieneroberfläche zusammen. Hierbei kann man sich als Anwender entweder für die Web-API oder den Embedded Service entscheiden, je nach bevorzugter Integration von sensAI und openSMILE. In diesem Kontext kommen auch diverse Machine-Learning-Algorithmen zum Einsatz, die dafür sorgen, dass openSMILE und die zugrundeliegende Anwendung schlauer und schlauer wird.

sensAI gibt es derzeit in vier Ausprägungen: senAI Base, senAI Enhance, sensAI Emotion und sensAI Music.

sensAI von audEERING gibt es derzeit in vier Ausprägungen

Das vollständige Interview mit Dagmar Schuller