Miroslaw J. Gilski und Rovshan G. Sadygov
Die Proteomics Standard Initiative der Human Proteome Organization (HUPO) wurde mit der Entwicklung von Dateiformaten zur Speicherung von Rohdaten (mzML) und den Ergebnissen der Spektralverarbeitung (Proteinidentifizierung und -quantifizierung) aus Proteomik-Experimenten (mzIndentML) beauftragt. Um komplexe Experimente vollständig zu charakterisieren, wurden spezielle Datentypen entwickelt. Standardisierte Dateiformate werden die Visualisierung, Validierung und Verbreitung von Daten unabhängig von den herstellerspezifischen binären Datenspeicherdateien fördern. Innovative programmatische Lösungen für einen robusten und effizienten Datenzugriff auf standardisierte Dateiformate werden zu einer schnelleren breiten Akzeptanz dieser Dateiformate durch die Proteomik-Community beitragen. In dieser Arbeit vergleichen wir Algorithmen für den Zugriff auf Spektraldaten im mzML-Dateiformat. Als XML-Datei ermöglichen mzML-Dateien eine effiziente Analyse von Datenstrukturen bei Verwendung XML-spezifischer Klassentypen. Diese Klassen bieten nur sequentiellen Zugriff auf Dateien. In vielen algorithmischen Anwendungen zur Verarbeitung von Proteomik-Datensätzen ist jedoch ein wahlfreier Zugriff auf Spektraldaten erforderlich. Hier demonstrieren wir die Implementierung von Speicherströmen, um einen sequentiellen Zugriff in einen wahlfreien Zugriff umzuwandeln. Unsere Anwendung behält die eleganten XML-Analysefunktionen bei. Benchmarking der Dateizugriffszeiten im sequentiellen und wahlfreien Zugriffsmodus zeigt, dass bei einer kleinen Anzahl von Spektren der wahlfreie Zugriff zeiteffizienter ist, beim Abrufen einer großen Anzahl von Spektren jedoch der sequentielle Zugriff effizienter wird. Wir bieten auch Vergleiche mit anderen Dateizugriffsmethoden aus Wissenschaft und Industrie.