Datensätze

Jakob Abeßer war bisher an der Erstellung und Veröffentlichung einer Vielzahl von Forschungsdatensätzen im Bereich der Audio- und Musikanalyse aktiv beteiligt, von denen auf dieser Seite exemplarisch drei näher vorgestellt werden.

Synthetic Pitch Contour (SPC) Dataset

Der SPC-Datensatz wurde 2024 gemeinsam mit Simon Schwär und Prof. Dr. Meinard Müller vom Lehrstuhl für Semantische Audiosignalverarbeitung der Friedrich-Alexander Universität Erlangen-Nürnberg an den International Audio Laboratories Erlangen erstellt.
Er beinhaltet 3.500 kurze Audioclips mit synthetisch erstellten Grundfrequenzkonturen aus den sieben Konturklassen stable (stabile Grundfrequenz), alternating (wechselnde Grundfrequenz wie z.B. bei einer Sirene), vibrato (periodische Grundfrequenzmodulation, z.B. in klassischem Gesang), glissando (kontinuierlicher Frequenzübergang), bend (einmalige Frequenzmodulation), sawtooth (Frequenzmodulation entsprechend einer Sägezahnfunktion) und triangle (Frequenzmodulation entsprechend einer Dreiecksschwingung).
Der Datensatz erlaubt das Training und die Evaluation von KI-Modellen zur Klassifikation von Grundfrequenzkonturen und wurde für Datensätze aus verschiedenen Audiodomänen (Musik, Sprache, Alltagsgeräusche, Tierlaute) erfolgreich eingesetzt. Der Datensatz wird in den kommenden Monaten veröffentlicht (bei Interesse bitte Kontakt aufnehmen).

Referenz:

Abeßer, J., Schwär, S., & Müller, M. (2025). Pitch contour exploration across audio domains: A vision-based transfer learning approach. arXiv. https://arxiv.org/abs/2503.19161

Urban Sound Monitoring (USM) Dataset

Der USM-Datensatz wurde als Referenz für verschiedene Teilaufgaben der Umweltgeräuschanalyse entwickelt, darunter die Trennung von Klangquellen (source separation), die Erkennung und Lokalisierung akustischer Ereignisse (sound event detection and localization) sowie die Schätzung der Anzahl gleichzeitiger Klangquellen (sound polyphony estimation). Der Schwerpunkt liegt auf typischen Klanglandschaften im städtischen Umfeld. Der Datensatz umfasst 24.000 kurze, künstlich erzeugte Stereo-Soundscapes. Diese wurden aus Mischungen von 2 bis 6 Einzelsounds erstellt, die sich in Lautstärke und räumlicher Positionierung innerhalb des Stereofelds unterscheiden.

Weitere Information:

https://github.com/jakobabesser/USM

Referenz

Abeßer, J. (2022). Classifying sounds in polyphonic urban sound scenes. In Proceedings of the 152nd Audio Engineering Society (AES) Convention. Online: https://aes2.org/publications/elibrary-page/?id=21683

Weimar Jazz Database (WJD)

Die Weimar Jazz Database (WJD) enthält 456 Transkriptionen improvisierter Jazz-Soli. Der Schwerpunkt liegt auf einzelstimmigen Blasinstrumenten wie Saxophon (Alt, Tenor, Sopran, Bariton), Trompete, Posaune und Klarinette. Die Auswahl der Musiker und Stücke orientiert sich an der Entwicklung der Jazzgeschichte – von traditionellem Jazz und Swing über Bebop, Cool Jazz und West Coast Jazz bis hin zu Hardbop, Modal Jazz und Postbop. Zu jedem Solo existieren manuelle Annotationen der Hauptmelodie, Spieltechniken, Beat-Positionen und Harmoniewechsel sowie umfangreiche zusätzliche Metadaten zur transkribierten Aufnahme. Die Originalaufnahmen dürfen aus urheberrechtlichen Gründen nicht direkt über die Webseite des Jazzomat Research Project bereitgestellt werden. Über die Online-Anwendung JazzTube (entwickelt von Stefan Balke und Meinard Müller) können die entsprechenden Aufnahmen jedoch über YouTube-Links abgerufen werden.

Weitere Informationen:

https://jazzomat.hfm-weimar.de/

Referenz:

Pfleiderer, M., Frieler, K., Abeßer, J., Zaddach, W.-G., & Burkhart, B. (Eds.). (2017). Inside the Jazzomat – New perspectives for jazz research. Schott Campus. schott-campus.com/jazzomat/

Weitere Datensätze

Forschungsdatensätze des Fraunhofer-Institut für Digitale Medientechnologie IDMT: https://www.idmt.fraunhofer.de/en/publications/datasets.html