Skalierbare Software und reproduzierbare Workflows für die Datenanalyse

MultiOmics-Datensätze sind sehr komplex und werden durch bessere Messgeräte immer größer. Deshalb muss die Software zur Analyse dieser Datensätze flexibel sein und auch mit großen Datenmengen gut funktionieren.

Kommerzielle Programme sind oft eine „Blackbox“: Man lädt Daten hoch und bekommt Ergebnisse zurück, ohne genau zu wissen, was im Hintergrund passiert oder welche Methoden verwendet werden. Außerdem sind Ergebnisse – besonders bei Omics-Daten – häufig schwer zu wiederholen. Gründe sind zum Beispiel ungenaue Dokumentation, unzuverlässige Software oder fehlende Standards in der Datenanalyse. Um diese Probleme zu lösen, entwickeln und verbessern die Bioinformatikerinnen und Bioinformatiker des MOC aktiv Open-Source-Software im Bioconductor-Projekt. Bioconductor ist eine weltweite Plattform für Softwarepakete zur Analyse genomweiter Daten. Zusammen mit internationalen Partnern bauen wir eine Sammlung von Tools auf, die eine effiziente und skalierbare Datenanalyse ermöglicht. Diese Software wurde 2025 von über 190.000 verschiedenen Nutzerinnen und Nutzern heruntergeladen. Zusätzlich entwickeln wir gemeinsam Standards und Workflows, damit Analysen nachvollziehbar, transparent und gut reproduzierbar sind.

Mit unserem Fokus auf Open Science schaffen wir Software und Workflows, die transparente und offen zugängliche Forschung unterstützen – und so zu stabilen, verlässlichen und wiederholbaren Ergebnissen führen.