Mingqi Wu, Monique Rijnkels und Faming Liang
Aufgrund seiner höher aufgelösten Kartierung und stärkeren ChIP-Anreicherungssignale ersetzt ChIP-Seq die ChIP-Chip-Technologie bei der Untersuchung genomweiter Protein-DNA-Interaktionen, während die massiven digitalen ChIP-Seq-Daten Statistiker vor neue Herausforderungen stellen. Bislang basieren die meisten in der Literatur vorgeschlagenen Methoden zur ChIP-Seq-Datenanalyse auf Modellen. Angesichts der Komplexität biologischer Systeme und der im Sequenzierungsprozess entstehenden Variationen ist es jedoch unmöglich, ein einziges Modell zu finden, das für alle Datensätze funktioniert. In diesem Artikel präsentieren wir einen modellfreien Ansatz zur ChIP-Seq-Datenanalyse, das sogenannte MICS (Model-free Inference for ChIP-Seq). MICS hat gegenüber bestehenden Methoden einige Vorteile: Erstens vermeidet MICS Annahmen zur Datenverteilung und behält daher eine hohe Aussagekraft, selbst wenn Modellannahmen für die Daten verletzt werden. Zweitens verwendet MICS eine simulationsbasierte Methode zur Schätzung der Falschentdeckungsrate. Da die simulationsbasierte Methode unabhängig von ChIP-Proben arbeitet, kann MICS bei einer Vielzahl von ChIP-Proben eine robuste Leistung erbringen; es kann eine genaue Identifizierung von Spitzenbereichen liefern, selbst bei solchen, bei denen die Anreicherung schwach ist. Drittens ist MICS sehr effizient bei der Berechnung, die auf einem PC für einen einigermaßen großen Datensatz nur wenige Sekunden dauert. In diesem Artikel stellen wir auch eine einfache semi-empirische Methode zur Simulation von ChIP-seq-Daten vor, die eine bessere Bewertung der Leistung verschiedener Ansätze für die ChIP-seq-Datenanalyse ermöglicht. MICS wird mit mehreren bestehenden Methoden verglichen, darunter MACS, CCAT, PICS, BayesPeak und QuEST, basierend auf realen und simulierten Datensätzen. Die numerischen Ergebnisse zeigen, dass MICS andere übertreffen kann. Verfügbarkeit: Ein R-Paket namens MICS ist verfügbar unter http://www.stat.tamu.edu/~mqwu.