Interaktive Medien BSc
Finn Heinrich
KI-gestützte Audiovisualisierung – Nutzergeführtes Verbinden von Klang und Bild mithilfe semantischer Audioanalyse
Diese Arbeit präsentiert ein neuartiges System zur Echtzeit-Audiovisualisierung, das die semantische Bedeutung von Klängen nutzt, um visuelle Inhalte zu steuern. Im Gegensatz zu herkömmlichen Visualisierungen, die oft nur auf physikalische Frequenzen reagieren, analysiert diese Anwendung den inhaltlichen Kontext des Audiosignals mittels Künstlicher Intelligenz.
Effiziente Analyse-Modelle wie YAMNet und CLAP klassifizieren Audio-Events, etwa Musikgenres oder spezifische Geräusche, und leiten diese Daten an eine prozedurale Grafik-Engine in TouchDesigner weiter. Über ein eigens entwickeltes Web-Interface werden die erkannten semantischen Klassen vom Nutzer selbst per Node-System verknüpft. Das System verkleinert damit die Lücke zwischen technischer Signalanalyse und menschlicher Wahrnehmung, indem es Audio nicht nur misst, sondern interpretiert.
Betreuung:
Prof. Dr.-Ing. Alexandra Teynor Prof. Daniel Rothaug