include
Tipp

Flow Moods: Wie Deezer eine emotionale KI baute.

Flow Moods: Wie Deezer eine emotionale KI baute.
Benutzerebene 7
Abzeichen +10

Bei folgendem Artikel handelt es sich um eine Übersetzung des in englischer Sprache am 25. Oktober 2022 erschienenen Artikels von Marin Lorant. Weitere Beteiligte sind die Co-Autoren Benjamin Chapus und Théo Bontempelli. In der deutschen Übersetzung wird das generische Maskulinum verwendet.
(Lesedauer: ca. 11 Minuten)

 

In diesem Jahr brachte das Empfehlungsteam von Deezer seinem Feature Flow bei, Emotionen in Musik zu erkennen. Hier ist die Geschichte von Flows Moods (Stimmungen).

 

Flow me to the Moods: Ein wenig Kontext

 

Das Paradoxon der Wahl

Die Entwicklung von Musik-Streaming-Plattformen in den späten 2000er Jahren revolutionierte den Musikkonsum: Musikliebhaber konnten endlich günstig und einfach auf alle Musik der Welt zugreifen.
Obwohl diese neue Glückseligkeit in so vielen Aspekten vorteilhaft ist, vergrößert sie ein Problem für Musikhörer: die Auswahlüberlastung. Die Fülle an Optionen erfordert mehr Aufwand von den Benutzern und kann sie mit ihrer Entscheidung unzufrieden zurücklassen. Interessanterweise haben vor der Implementierung von Flow auf Deezer viele Benutzer die App geöffnet und verlassen, ohne Musik zu hören.
Unsere Teams dachten zuerst an ein Inhaltsproblem: Vielleicht konnten Benutzer die Musik, die sie hören wollten, nicht finden? Es dauerte eine Weile, bis wir erkannten, dass das Problem woanders lag: Einige Benutzer wussten einfach nicht, was sie wählen sollten. Angesichts eines Katalogs von mehr als 90 Millionen Titeln wurde die Auswahl bald zu einer Last statt einem Geschenk. Eine neue Lösung musste her. Eine Lösung, um die Auswahl zu erleichtern.

 

Flow, die magische Play-Taste

Aus diesem Grund führte Deezer 2014 Flow ein, einen magischen Knopf, der Musik abspielt, die sich in Echtzeit an den Geschmack, die Stimmung, die Aktivität eines Benutzers, aber auch an Zeit, Wetter, Ort usw. anpasst. Ein magischer Play-Button, der unsere Benutzer von der Last der Wahl befreit.
Die erste Herausforderung – die Anpassung an den Musikgeschmack unserer Benutzer und ihre Entwicklung – wurde unserem Empfehlungsteam übergeben, Experten auf diesem Gebiet. Was die anderen Kriterien betrifft, waren wir uns nicht ganz sicher, ob wir die Benutzer um ihre Eingabe bitten oder sie „der KI“ überlassen sollten. Um den magischen Knopf so „magisch“ wie möglich zu gestalten und die Erfahrung so einfach wie möglich zu halten, haben wir uns entschieden, zu versuchen, Flow sie herausfinden zu lassen.
Diese Entscheidungen und die Bemühungen unseres Empfehlungsteams scheinen sich ausgezahlt zu haben, da Millionen von Musikfans Flow in den letzten sieben Jahren kontinuierlich genutzt haben, um ihre Lieblingsmusik zu spielen und zu entdecken.

 

Flow ist mit einem Klick oben auf der Startseite verfügbar.

 

Flow entwickelt sich jetzt

Aber wissen Sie, die Zeiten ändern sich… und was früher magisch war, wird heute von immer anspruchsvolleren Flow-Benutzern als selbstverständlich angesehen.
Heute erwarten sie, dass Flow sich besser an ihren Kontext anpasst… Und tatsächlich sind wir nach Jahren der Iterationen und AB-Tests zu dem Schluss gekommen, dass wir trotz aller Bemühungen das Versprechen von Flow, sich an die Stimmungen und Aktivitäten des Benutzers anzupassen, anscheinend nicht vollständig halten konnten.
Aus diesem Grund hat Deezer im Oktober 2021 die Moods von Flow eingeführt, eine neue Funktion, mit der Benutzer Flow sagen können, wie sie sich fühlen, und Musik zu genießen, die wirklich an ihre Stimmung angepasst ist. Lassen Sie uns die Entwicklung dieser neuen Funktion mit den damit verbundenen Herausforderungen des maschinellen Lernens zurückspulen.

 

Warum Stimmungen?

 

Benutzer um ihre Eingabe bitten

Zuerst dachten wir, Flow sollte „auf den Schlag deines Herzens hören und dir helfen, die passenden Songs zu finden“. Wir dachten, die KI würde Ihre Stimmung basierend auf Ihren Interaktionen mit den vorgeschlagenen Titeln erraten. Die Sache ist, dass Sie nur auf drei verschiedene Arten mit einem empfohlenen Titel interagieren können: entweder durch liken, disliken oder Überspringen. Wir hatten kein Problem damit, die ersten beiden zu interpretieren, da sie ziemlich explizit sind, aber es stellt sich heraus, dass die am häufigsten verwendete Echtzeit-Interaktion im Player die Schaltfläche zum Überspringen ist. Die Skip-Schaltfläche ist ein kompliziert zu interpretierendes Signal, da es implizit ist: Es gibt viele Gründe, warum Sie es verwenden würden. Du magst den Track vielleicht nicht, hast ihn schon zu oft gehört, das Timing könnte schlecht sein, es könnte dich an deine(n) Ex denken lassen, es passt nicht zu deiner aktuellen Stimmung…

Wenn das System also versucht, schwer zu erraten, was gespielt werden soll, nachdem Sie einen Titel übersprungen haben, stimmt es möglicherweise nicht auf Anhieb mit „dem Schlag Ihres Herzens“ überein.

Die einzige andere Möglichkeit bestand darin, die Benutzer um ihre Eingabe zu bitten, was, wie wir festgestellt haben, viele Flow-Benutzer gerne tun würden.

 

Emotional werden

Wie einzigartig und vielfältig ihr Musikgeschmack auch sein mag, die meisten Flow-Benutzer haben eine ziemlich ähnliche Herangehensweise an das Hören von Musik: Sie suchen nach Musik, die zu ihrer Stimmung und Aktivität passt. Sie kümmern sich nicht so sehr um den Künstler, das Genre oder die Geschichte der Musik, die gespielt wird, solange es ihnen hilft, das zu fühlen, was sie in diesem bestimmten Moment fühlen möchten. Für sie ist Musik ein Werkzeug, ein Katalysator für Leben und Emotionen, sie lässt sie besser arbeiten, härter laufen, länger feiern… Sie sehen Deezer als eine emotionale Jukebox, eine Fernbedienung, die ihnen hilft, ihre Stimmung durch Musik zu steuern.

Um Musik zu spielen, die zu Ihrer Stimmung oder Ihrem Kontext passt, müssen Sie jedoch mühsam eigene Wiedergabelisten erstellen oder auf Deezer nach manuell kuratierten Wiedergabelisten suchen, die nicht immer perfekt zu Ihrem persönlichen Musikgeschmack passen.

Wir haben uns entschieden, den Leuten zu erlauben, Flow explizit mitzuteilen, in welcher Stimmung sie sich befinden. Dies würde es Flow-Benutzern ermöglichen, mühelos Musik zu hören, die sowohl ihrem persönlichen Geschmack als auch ihrem emotionalen Kontext entspricht.

 

Was sind Flows Stimmungen?

 

Das Rad neu erfinden

Die Schönheit von Flow liegt in seiner Einfachheit: ein farbenfroher Play-Button oben auf der Deezer-Homepage. Flow bietet Ihnen mit einem Klick das perfekte Musikerlebnis: eine entzückende Zusammenstellung Ihrer Lieblingstitel und wunderschönen Entdeckungen. Flow passt sich immer Ihrer Geschmacksentwicklung an, ist immer relevant und erfordert kein Nachdenken. Öffne Deezer und drücke Play.
Wir mussten jetzt eine Lösung finden, die es den Benutzern ermöglicht, Flow mitzuteilen, wie sie sich fühlen, damit es Musik spielt, die perfekt an ihren emotionalen Kontext angepasst ist.

 

Motivations-Mood wurde ausgewählt.

Mit diesem Rad können Sie zwischen 6 Stimmungen wählen, die die Hauptsituationen abdecken, in denen Menschen normalerweise Musik hören. Benutzer können darauf zugreifen, indem sie auf der Startseite auf das Cover der Flow-Karte klicken.

 

Die Benutzeroberfläche für Stimmungen ist für Benutzer des klassischen Flow zugänglich und dennoch unauffällig.

 

Da die Benutzeroberfläche auf dem Desktop mehr Platz bietet, haben wir die Gelegenheit ergriffen, Flow und alle Stimmungsfilter oben auf der Startseite anzuzeigen, um bei Flows „One-Click-to-Play“-Erlebnis zu bleiben.

 

Der klassische Flow und alle 6 Stimmungen sind mit einem Klick verfügbar.

Flow konnte nun Eingaben zur Stimmung des Benutzers erhalten. Es blieb die Frage nach dem Verständnis und der Nutzung dieses Inputs.

 

Harvest Mood: Wie erkennt man eine Stimmung?

 

Die Beziehung zwischen Klang und Emotionen verstehen

Für das menschliche Ohr ist es leicht, die Stimmung eines Songs zu spüren. Die ersten Noten von Ne me quitte pas von Jacques Brel werden Sie melancholisch machen, während das Intro von Good Times von Chic Lust auf die Tanzfläche machen könnte. Mit einer solchen Macht über unsere Gefühle geht eine große Verantwortung für den Algorithmus einher!

 

 

Aber glücklicherweise hat die Klassifizierung von Musik nach Stimmung bei Deezer eine lange Tradition mit der manuellen Pflege von Tausenden von Wiedergabelisten. Unsere Benutzer haben ein besonderes Gespür für die riesige Playlist-Sammlung unseres Stimmungseditors Alice, die fast jede Situation abdeckt, mit der Sie jemals konfrontiert werden! Aber selbst mit größtem Willen und Motivation würde es mehr als ein Jahrhundert dauern, die 90 Millionen Songs des Deezer-Katalogs zu kategorisieren und die Tausenden von neuen Alben einzuholen, die jede Woche ausgeliefert werden.

Wenn die Beziehung zwischen Musik und Emotionen subjektiv sein kann, hängt die Wahrnehmung von Emotionen in der Musik normalerweise mit einer Kombination ihrer akustischen Eigenschaften zusammen. Das Vorhandensein bestimmter Arten von Instrumenten, die Wahl des Tempos, komplexe Harmonien und Lautstärke sind Beispiele für Attribute, die die musikalische Stimmung eines Liedes konstruieren.

Natürlich können Computer Emotionen (noch? 😱) nicht verstehen, aber wir dachten, es wäre möglich, sie für sie aufzuschlüsseln und sie die Beziehung zwischen typischen musikalischen Signaturen und den Emotionen, die sie vermitteln, lernen zu lassen.

 

Lernen Sie am Beispiel

Maschinelles Lernen schien für diese Aufgabe perfekt zu sein, da es einem Computer die Fähigkeit gibt, zu lernen, ohne explizit programmiert zu werden. Die Idee war, dass der Algorithmus lernen würde, die mit diesem Label verbundenen Audiodeskriptoren zu erkennen und zu verallgemeinern, indem ein wichtiger Satz von beschrifteten Beispielen zusammen mit ihren Attributen für den Algorithmus angezeigt wird. Das Ergebnismodell könnte dann verwendet werden, um die Bezeichnung für alle neuen Beispiele nur basierend auf den beschreibenden Attributen vorherzusagen, die für das Training verwendet wurden.

Die entscheidende Aufgabe bestand also darin, einen zuverlässigen Datensatz zu erstellen, der relevante musikalische Deskriptoren für jeden Song und seine kommentierte Stimmung enthielt. Für letzteres war die wichtige Sammlung von manuell kuratierten Playlists der hauseigenen Redakteure von Deezer ein guter Ausgangspunkt: Viele Playlists wurden mit Blick auf eine bestimmte Emotion kuratiert, was es einfach machte, eine Liste von Tracks für eine bestimmte Stimmung zu erstellen.

 

Dank des Forschungsteams von Deezer verfügen wir über eine riesige Auswahl an Audiodeskriptoren für jeden verfügbaren Song. Mithilfe von Techniken zum Abrufen von Musikinformationen und Audio-Fingerabdrücken konnten wir einen Einblick in die verschiedenen Klänge erhalten, aus denen Musik besteht. Dies ist die Art von Technologie hinter Spleeter, d.h. ein Quellentrennungsalgorithmus, der Instrumente oder Stimmen isolieren kann, wodurch noch mehr Audiodetails extrahiert werden können.

 

Ein Musiktitel, der mit einem logarithmischen Spektrogramm dargestellt wird.
In dieser Ansicht können die aufeinanderfolgenden Instrumenteneingaben visuell beobachtet werden.

 

Das rohe Audiosignal wird zur weiteren Analyse in ein besser verdauliches Format namens Spektrogramm umgewandelt. Diese Transformation erzeugt eine Explosionsansicht des Klangs, die die Intensität verschiedener Frequenzbereiche darstellt, sodass das Modell den Klang tatsächlich visualisieren und seine akustischen Komponenten enthüllen kann.
Die für die Tonerkennung verwendete Deep-Learning-Architektur ist der für die Bilderkennung verwendeten sehr ähnlich, hauptsächlich weil beide mit pseudovisuellen Darstellungen arbeiten.

 

 

Als unser Datensatz mit allen Songstimmungen und deren Attributen komplett war, konnten wir mit dem Lernprozess beginnen. Dieser Schritt mag einfach erscheinen, aber denken Sie daran, dass die Modellqualität im Allgemeinen so gut ist wie Ihre Eingabedaten! Viele Iterationen und Feinabstimmungen waren erforderlich, um ein zufriedenstellendes Ergebnis zu erzielen, und es wurde besondere Sorgfalt auf die Vielfalt der in den Trainingsdaten vertretenen Musikgenres verwendet. Wenn beispielsweise alle Beispiele für Chill - Samples Jazz- Songs gewesen wären, hätte das Modell schließlich gelernt, Jazz- statt Chill - Eigenschaften zu erkennen, verbunden mit einer schlechten Genauigkeit bei anderen Genres.

Nach einigen Trainings- und Anpassungsrunden war das Ausgabemodell in der Lage, Stimmungsmerkmale aus dem gesamten Katalog zu extrahieren und wertvolle Metadaten über den Audioinhalt des Songs hinzuzufügen.

 

Let it Flow

 

Beginnen Sie mit dem Musikprofil des Benutzers

Was passiert also, wenn ein Benutzer seine Flow-Stimmung startet? Der erste Schritt besteht darin, einen Ausgangspunkt für die musikalische Reise zu wählen, und um dies zu erreichen, erstellen wir eine Karte des Benutzerprofils, die seinen Musikgeschmack widerspiegelt. Dieses Modell stützt sich auf ein internes Ähnlichkeitsmodell zwischen Songs oder Künstlern, das aus Musikmetadaten und der kollektiven Intelligenz, die aus dem gesamten Hörverhalten der Benutzer extrahiert werden kann, gelernt wird. Sein Zweck besteht darin, einen Ähnlichkeitsraum zu schaffen, in dem Spuren mit denselben Eigenschaften nahe beieinander liegen, während unterschiedliche Spuren weit entfernt sind.

 

Beispiel für die Modellierung des musikalischen Raums für einen Benutzer. Diese Ansicht offenbart die unterschiedlichen musikalischen Interessensschwerpunkte des Benutzers.

 

Das Projizieren der Musiksammlung des Benutzers auf diesen Raum wird einige dichte Bereiche offenbaren, die seinem persönlichen Musikgeschmack entsprechen, was gute Orte darstellt, die vom Algorithmus besucht werden können. Die Karte enthält auch Informationen, die die wichtigsten Stimmungen in der Gegend anzeigen. Wenn ein Benutzer eine Flow-Stimmung auswählt, weiß das System auf diese Weise, wo der beste Ort ist, um die Hörsitzung zu beginnen.

Aber für einige Benutzer kann es schwierig sein, für jede Stimmung einen guten Ausgangspunkt zu finden. Nicht jeder hört Partysongs oder japanische Ambient-Musik! Um das Problem zu lösen, kann sich das System auf eine manuell kuratierte Sammlung von Titeln für jede Stimmung verlassen, die verwendet wird, um die Musiksammlung des Benutzers zu erweitern. Diese Tracks werden jedoch nicht zufällig ausgewählt: Sie werden basierend darauf neu geordnet, was Benutzer mit relativ ähnlichem Geschmack hören.

 

Entdecken und komponieren

Sobald wir den Startort haben, können wir damit beginnen, ihn zu erkunden, um einen Pool von Tracks zu erstellen, von denen wir glauben, dass sie dem Benutzer gefallen werden. Das zugrunde liegende Ähnlichkeitsmodell stellt sicher, dass Songs in der Nachbarschaft des gewählten Ortes gute Kandidaten für den Mix darstellen.

Dieser Pool kann Hunderte von Songs enthalten und wird durch ein endgültiges Ranking-Modell verfeinert, um nur die relevantesten Elemente zu behalten, je nachdem, wie sie zur ausgewählten Stimmung und den Benutzereigenschaften passen. Der letzte Stapel von Songs kann aus einigen der Lieblingstracks des Benutzers, alten Melodien, die er vergessen hat, dass er sie liebt, und Entdeckungstracks, die für den Benutzer neu sind, zusammengesetzt sein.

Natürlich wird der Mix kontinuierlich aktualisiert, wobei Benutzerinteraktionen als Feedback verwendet werden, um die nächste Reihe von Songs anzupassen. Wenn ein Benutzer beispielsweise einen Track aus einer aktuellen Sitzung überspringt, verwendet das System die Informationen, um sein Ranking-Modell zu aktualisieren oder sogar einen neuen Startort auszuwählen.

 

Fazit & zukünftige Arbeit

In diesem Beitrag haben wir Flow Moods vorgestellt, eine emotionale Jukebox, die personalisierte Musik in großem Umfang empfiehlt. Neben seiner vielversprechenden Leistung hilft uns dieses System, Interaktionen zwischen Benutzern und Musik zu untersuchen. Darüber hinaus werden zukünftige Arbeiten darauf abzielen, Flow-Stimmungen zu verbessern, indem fortschrittlichere Modelle zur Erkennung von Musikstimmungen untersucht werden. Während sich unsere derzeitigen Klassifikatoren beispielsweise nur auf Audiosignale stützen, könnten wir erwägen, sie mit Textdaten und Playlist-Vorkommen zu ergänzen.

 

Quelle: https://deezer.io/how-deezer-built-the-first-emotional-ai-a2ad1ffc7294


10 Antworten

Benutzerebene 7
Abzeichen +21

Spannender Artikel! Danke dir Dirk👍

Sehr interessant, was mit KI möglich ist. Danke für die Übersetzung. 💪

Benutzerebene 7
Abzeichen +17

Und der Flow entwickelt sich weiter...

Nun auf der Webversion auch mit genrespezifischen Flows. Danke deezer für die immer wieder neuen Funktionen :) 

Benutzerebene 7
Abzeichen +10

@EifachJustin jaaa, ihr dürft gespannt sein. Wir werden euch nächsten Monat mehr dazu erzählen 😍

@EifachJustin 

Jazz, guck mal an. 😉

Benutzerebene 7
Abzeichen +17

@dee_dirk 

Natürlich wird von mir nur gute Musik gehört 😉

Ich war sehr happy zu sehen, dass es Jazz in die Musikrichtungen vom Flow geschafft haben - obwohl es sehr wahrscheinlich andere Genres hat, die mehr Zuhörer auf deezer haben

Benutzerebene 7
Abzeichen +20

Und der Flow entwickelt sich weiter...

Nun auf der Webversion auch mit genrespezifischen Flows. Danke deezer für die immer wieder neuen Funktionen :) 

Und in der iOS App auch… 😎

 

Benutzerebene 7
Abzeichen +17

Interessant, auf meinen Geräten habe ich andere Genres als bei dir, @Superschlumpf 

@EifachJustin 

Es gibt ja sehr sehr viele Genres, die zudem je User unterschiedlich sind und auch nach gewisser Zeit wechseln.

Bei mir ist z.B. House durch Dance & EDM ersetzt worden, weil ich derzeit mehr aus diesem Genre höre.

Benutzerebene 7
Abzeichen +20

@EifachJustin 

Genau wie @dee_dirk sagt, ist das coole an Flow ja, dass er sich an DEINE pers. Gewohnheiten anpasst.  😎

Die Moods sind einheitlich, weil von der Anzahl überschaubar. Aber auch da wird der Inhalt eines Mood bei jedem User anders sein. 
Und da es halt sehr viele Genres gibt, werden hier sogar die angezeigten Genre selber und nicht nur deren Inhalte an den User angepasst. 
Für mich eine ziemlich geniale Personalisierung. 👍🏻

Antworten