Forschungsschwerpunkte

Wir beschäftigen uns insbesondere mit:

  • Entwicklung von robusten, generalisierbaren Neuronalen Netzen (CNNs, Deep Learning)
  • Daten-/Annotation-effiziente Modelle basierend auf Semi-/Self-supervised Learning
  • Outlier-Detektion und Imputation von unvollständige Datensätzen
  • Rekonstruktion von Bild- und Videodaten, eg. mit Hilfe von Super-Resolution
  • Segmentierungsprobleme, insbesondere MRI Brain Segmentation
  • Quantifizierung von Unsicherheiten von Klassifizierungsvorhersagen
  • Entwicklung von interpretierbaren Features zur Verbesserung der Anwender-/Patientenkommunikation
  • Evaluierung von Algorithmus Performance und Quantifizierung von Data-biases
  • Translation von Forschungsergebnissen in industrielle oder medizinische Kontexte
  • Quantifizierung von menschlicher Anatomie anhand von Bilddaten (MRI, X-Ray, CT) im Kontext von Erkrankungen wie Demenz, Tumoren und Traumata.

Ausgewählte Forschungsarbeiten

S. Doerrich, F. Di Salvo, J. Brockmann, C. Ledig, “Rethinking model prototyping through the MedMNIST+ dataset collection”, Scientific Reports, 15, 7669, 2025

Die Integration von auf Deep Learning basierenden Systemen in die klinische Praxis wird häufig durch Herausforderungen behindert, die in begrenzten und heterogenen medizinischen Datensätzen begründet sind. Darüber hinaus wird in diesem Bereich zunehmend marginalen Leistungssteigerungen bei einigen wenigen, eng gefassten Benchmarks Vorrang vor der klinischen Anwendbarkeit eingeräumt, wodurch sinnvolle algorithmische Fortschritte verlangsamt werden. Dieser Trend führt häufig zu einer übermäßigen Feinabstimmung bestehender Methoden an ausgewählten Datensätzen, anstatt klinisch relevante Innovationen zu fördern. Als Reaktion darauf wird in dieser Arbeit ein umfassender Benchmark für die MedMNIST+-Datensatzsammlung eingeführt, der die Bewertungslandschaft über mehrere Bildgebungsmodalitäten, anatomische Regionen, Klassifizierungsaufgaben und Stichprobengrößen hinweg diversifizieren soll. Wir bewerten systematisch häufig verwendete Convolutional Neural Networks (CNNs) und Vision Transformer (ViT)-Architekturen in verschiedenen medizinischen Datensätzen, Trainingsmethoden und Eingabeauflösungen, um bestehende Annahmen über die Effektivität und Entwicklung von Modellen zu validieren und zu verfeinern. Unsere Ergebnisse deuten darauf hin, dass rechnerisch effiziente Trainingsverfahren und moderne Foundation-modelle praktikable Alternativen zum kostspieligen End-to-End-Training bieten. Darüber hinaus stellen wir fest, dass höhere Bildauflösungen die Leistung ab einem bestimmten Schwellenwert nicht durchgängig verbessern. Dies unterstreicht die potenziellen Vorteile der Verwendung niedrigerer Auflösungen, insbesondere in der Prototyping-Phase, um den Rechenaufwand zu verringern, ohne die Genauigkeit zu beeinträchtigen. Insbesondere bestätigt unsere Analyse die Wettbewerbsfähigkeit von CNNs im Vergleich zu ViTs und unterstreicht, wie wichtig es ist, die intrinsischen Fähigkeiten der verschiedenen Architekturen zu verstehen. Schließlich wollen wir durch die Schaffung eines standardisierten Bewertungsrahmens die Transparenz, Reproduzierbarkeit und Vergleichbarkeit innerhalb der MedMNIST+-Datensatzsammlung sowie die zukünftige Forschung verbessern.

Autoren: Sebastian Doerrich, Francesco Di Salvo, Julius Brockmann, Christian Ledig

[Preprint], [Publication], [Code], [Benchmark], [BibTeX](612.0 B)

S. Doerrich, F. Di Salvo, C. Ledig, "Self-supervised Vision Transformer are Scalable Generative Models for Domain Generalization", MICCAI, 2024

Trotz bemerkenswerter Fortschritte wurde die Integration von Deep Learning (DL)-Techniken in wirkungsvolle klinische Anwendungen, insbesondere im Bereich der digitalen Histopathologie, durch die Herausforderungen behindert, die mit dem Erreichen einer robusten Generalisierung über verschiedene Bildgebungsdomänen und -merkmale verbunden sind. Traditionelle Strategien in diesem Bereich wie Datenerweiterung und Fleckenfarbnormalisierung haben sich als unzureichend erwiesen, um diese Einschränkung zu beheben, was die Erforschung alternativer Methoden erforderlich machte. Zu diesem Zweck schlagen wir eine neuartige generative Methode zur Generalisierung von Histopathologiebildern vor. Unsere Methode verwendet einen generativen, selbstüberwachten Vision Transformer, um dynamisch Merkmale von Bildfeldern zu extrahieren und sie nahtlos in die Originalbilder einzufügen, wodurch neue, synthetische Bilder mit verschiedenen Attributen entstehen. Indem wir den Datensatz mit solchen synthetischen Bildern anreichern, wollen wir seine Ganzheitlichkeit erhöhen und eine verbesserte Generalisierung von DL-Modellen auf unbekannte Bereiche ermöglichen. Ausführliche Experimente mit zwei verschiedenen Histopathologiedatensätzen zeigen die Effektivität des von uns vorgeschlagenen Ansatzes, der den Stand der Technik deutlich übertrifft, und zwar beim Camelyon17-Wilds-Datensatz (+2%) und bei einem zweiten Epithelium-Stroma-Datensatz (+26%). Darüber hinaus heben wir die Fähigkeit unserer Methode hervor, mit zunehmend verfügbaren unbeschrifteten Datenproben und komplexeren, höher parametrischen Architekturen zu skalieren.

Autoren: Sebastian Doerrich, Francesco Di Salvo, Christian Ledig

[Preprint], [Publication], [Code], [BibTeX](612.0 B)

S. Doerrich, T. Archut, F. Di Salvo, C. Ledig, "Integrating kNN with Foundation Models for Adaptable and Privacy-Aware Image Classification", IEEE ISBI, 2024

Herkömmliche Deep-Learning-Modelle kodieren Wissen implizit, was ihre Transparenz und ihre Fähigkeit zur Anpassung an Datenänderungen einschränkt. Diese Anpassungsfähigkeit ist jedoch entscheidend für den Schutz der Daten der Nutzer. Wir beheben diese Einschränkung, indem wir die Einbettungen der zugrunde liegenden Trainingsdaten unabhängig von den Modellgewichten speichern und so dynamische Datenänderungen ohne erneutes Training ermöglichen. Unser Ansatz integriert insbesondere den k-Nearest-Neighbor-Klassifikator (k-NN) mit einem bildbasierten Foundation-modell, das selbstüberwacht auf natürlichen Bildern trainiert wurde, was die Interpretierbarkeit und Anpassungsfähigkeit verbessert. Wir stellen Open-Source-Implementierungen einer bisher unveröffentlichten Basismethode sowie unsere leistungssteigernden Beiträge zur Verfügung. Quantitative Experimente bestätigen die verbesserte Klassifikation in etablierten Benchmark-Datensätzen und die Anwendbarkeit der Methode auf verschiedene medizinische Bildklassifikationsaufgaben. Darüber hinaus bewerten wir die Robustheit der Methode in Szenarien mit kontinuierlichem Lernen und Datenentfernung. Der Ansatz ist sehr vielversprechend, um die Lücke zwischen der Leistung von Foundation-modellen und den Herausforderungen des Datenschutzes zu schließen.

Autoren: Sebastian Doerrich, Tobias Archut, Francesco Di Salvo, Christian Ledig

[Preprint], [Publication], [Code], [BibTeX](612.0 B)