Eric B. Lipsky, Brian R. King, Gerard Tromp
Next Generation Sequencing (NGS)-Systeme produzieren riesige Datenmengen, die erhebliche Rechenressourcen für typische Analyseaufgaben. Darüber hinaus sind die von verschiedenen NGS-Systemen generierten Daten nicht homogen. Darüber hinaus gibt es eine überwältigende Anzahl von Tools zur Durchführung typischer Aufgaben. Die Verwaltung von NGS-Workflows beinhaltet das Schreiben benutzerdefinierter Skripte, deren Komplexität schnell zunimmt, was häufig zu unhandlichen Workflows führt, die typische Hochleistungs-Rechenressourcen nicht ausreichend nutzen und die Anforderungen an das Personal erhöhen, das diese Workflows verwaltet. Wir präsentieren Node-Oriented Workflow (NOW), eine dynamische Befehlsvorlagen-Workflow-Engine für Hochleistungs-Distributed-Computing-Systeme (HPC). Unser System bietet ein einfach zu verwendendes browserbasiertes Frontend zum Entwerfen und Verwalten komplexer Workflows. Workflows werden über eine einfache Browseroberfläche konfiguriert und von der integrierten Job-Engine verwaltet, die Knoten initialisiert, den Knotenstatus überwacht und die Ergebnisse einzelner Jobs über Knoten hinweg in einer HPC-Konfiguration verarbeitet. Wir reduzieren übermäßige Nachrichtenübermittlung über Knoten, indem die Last auf Knoten gelegt wird, Aufgaben in einem Workflow zu starten, wenn Abhängigkeiten erfüllt sind, d. h. knotenorientierter Workflow. Unser System wurde für die NGS-Verarbeitung im klinischen Forschungsumfeld entwickelt, wobei Benutzerfreundlichkeit, Skalierbarkeit der Tools und Minimierung von Redundanzen in Workflows im Vordergrund stehen, während der Durchsatz in einer HPC-Umgebung maximiert wird. Darüber hinaus ist NOW nicht auf die Verwaltung von NGS-Pipelines beschränkt, sondern kann zur Verwaltung jeder beliebigen Rechenpipeline verwendet werden.