Drei Einreichungen zur DAGA 2026
Gemeinsam mit Kollegen vom Fraunhofer-Institut für Digitale Medientechnologie (IDMT), TU Ilmenau, Hochschule München und Universität Ulm wurden drei Papers zur DAGA 2026 eingereicht.
Hier eine Übersicht der drei Papers:
(1) Dilip Harish (Fraunhofer IDMT), Jakob Abeßer (Otto-Friedrich-Universität Bamberg): Towards Environmental Sound Analysis using Large Audio Language Models (LALMs)
Dieser Beitrag gibt einen Überblick über aktuelle Entwicklungen bei Large Audio Language Models (LALMs), die Sprachverständnis und akustische Szenenanalyse in einem multimodalen KI-Rahmen vereinen. Zudem werden bestehende Modelle, Benchmarks, Anwendungen und Feinabstimmungsstrategien vorgestellt, um ihre Leistungsfähigkeit bei der Analyse komplexer Umgebungsgeräusche zu bewerten.
(2) Yuxuan He (TU Ilmena), Aayushmi Mukherjee (Universität Ulm), Claudia Lenk (Universität Ulm), Jakob Abeßer (Otto-Friedrich-Universität Bamberg): Neuromorphic Sensor and Conventional Front-Ends for CNN-based Acoustic Scene Classification: A Comparative Study
Dieser Beitrag untersucht den Einfluss unterschiedlicher Eingabemodalitäten auf die Leistung der Acoustic Scene Classification (ASC), wobei ein konventionell vorverarbeitetes Audiosignal mit einem sensorbasierten MEMS-Cochlea-Signal verglichen wird. Dabei werden verschiedene CNN-Architekturen unter identischen Trainingsbedingungen evaluiert, um die Wechselwirkung zwischen Front-End und Back-End sowie die Eignung für hörgeräteorientierte, ressourcenbeschränkte Anwendungen zu analysieren.
(3) Jakob Abeßer (Otto-Friedrich-Universität Bamberg) & Anna Kruspe (Hochschule München): Detecting Urban Soundmarks: A Pilot Study Using Sound Event Detection and NLP on Recordings from European Cities
Dieser Beitrag stellt einen rechnergestützten Ansatz zur großskaligen Identifikation von Soundmarks vor, also charakteristischen Klangereignissen, die die akustische Identität eines Ortes prägen und als immaterielles Kulturerbe gelten. In einer Pilotstudie mit Aufnahmen aus zehn europäischen Städten wird gezeigt, wie sich Soundmarks durch die Kombination von Sound-Event-Detektion und sprachbasierten Analysen mittels Large Language Models automatisch erkennen und kulturell einordnen lassen.