- De
- En
Die datengetriebene Wissenschaft erfordert nicht nur schnelle Speichersysteme, sondern auch Strategien zur effizienten Verwaltung dieser Daten in und zwischen Rechenzentren. Big-Data-Tools können den Bedarf an der Suche nach Daten auf der Grundlage benutzerspezifischer Metadaten befriedigen. Es gibt jedoch einen ganzen Zoo von Tools, und kein einziges Tool kann alle Anforderungen erfüllen, die ein HPC-System in einem Rechenzentrum benötigt. Data Lakes zum Beispiel sind ein sinnvoller Ansatz, aber es gibt auch alternative Konzepte und Tools, die in Betracht gezogen werden müssen. Eine einheitliche und konsistente Sicht auf die Millionen von Daten auf HPC-Systemen und deren effiziente Verarbeitung ist erforderlich, um die Verwertbarkeit zu maximieren und segmentierte Datensilos zwischen Nutzern oder Projekten zu verhindern.
Ziel des Projekts ist es, den Stand der Praxis von Datenmanagementkonzepten an NHR-Zentren kritisch zu untersuchen und gemeinsame Entwicklungen und Schulungen für den Bereich des Datenmanagements voranzutreiben. Wir erweitern die bisherigen Aktivitäten zur Nutzung von Data Lakes für HPC-Systeme um eine breite datenzentrische Sichtweise, die letztlich den Datenaustausch zwischen den Zentren fördern soll. Über einen Zeitraum von einem Jahr werden wir im Projekt a) Methoden zur effizienten Datenverarbeitung in NHR-Zentren untersuchen und entwickeln. Insbesondere werden die Eignung und Leistungsfähigkeit bestehender (allgemeiner und domänenspezifischer) Forschungsdatenmanagementlösungen für HPC-Systeme untersucht. b) Entwicklung eines Konzepts für den Datenaustausch zwischen Zentren. Dabei geht es um Leistungsaspekte des Datentransfers mit Schwerpunkt auf Netzwerktests zwischen Zentren mit Erprobung von Werkzeugen und Optimierungen sowie um organisatorische Aspekte, z. B. Benutzeridentitätsmanagement und die Genehmigung von Daten für die Transfers. c) Untersuchung der Leistung von Speichersystemen und deren Vergleich zwischen den Zentren. Ziel ist es, die bisher durchgeführten Tests mit HPC-Dateisystemen und Objektspeichersystemen zu erweitern und Erfahrungen und Leistungsergebnisse innerhalb des NHR auszutauschen. d) Bildung von Communities und Erstellung von Schulungsmaterial für typische Anwendungsfälle. Für die vorgenannten Bemühungen organisieren wir Workshops und erstellen Schulungsmaterial für die NHR-Zentren.
Die GWDG ist die Projektleiter:In und führt die einzelnen Aufgaben in enger Kooperation mit den Partner:Innen durch.
Wir haben ein monatliches Jour Fixe jeden dritten Dienstag eines Monats um 15 Uhr in BBB: https://meet.gwdg.de/b/hen-ogm-ktx-b7l Jeder ist herzlich willkommen!
Wir bedanken uns für die Finanzierung durch „Nationales Hochleistungsrechnen“ im Rahmen des Projekts „Large Scale Data Management“.
Data-Intensive Projects User Cheat-Sheet
Data Management Systems Report 2023
Data Transfer Report Report 2023