Touati R, Mignotte M, Dahmane M
In diesem Artikel wird die Problematik der Erkennung von Änderungen in bitemporalen heterogenen Fernerkundungsbildpaaren behandelt. In verschiedenen Disziplinen ist Multimodalität die Schlüssellösung zur Leistungssteigerung im Kontext kollaborativer Sensorik. Insbesondere bei Fernerkundungsbildern besteht noch eine Forschungslücke, die mit der Vervielfachung der Sensoren, den Möglichkeiten zum Datenaustausch und der multitemporalen Datenverfügbarkeit geschlossen werden muss. Ziel dieser Studie ist es, die Multimodalität in einem multitemporalen Setup zu untersuchen, um die kollaborative sensorweite Informationsvervollständigung besser zu verstehen. Wir schlagen einen paarweisen Lernansatz vor, der auf einer pseudo-siamesischen Netzwerkarchitektur basiert, die auf zwei teilweise entkoppelten parallelen Netzwerkströmen basiert. Jeder Strom stellt selbst ein Convolutional Neural Network (CNN) dar, das die Eingabepatches kodiert. Das Gesamtmodell des Change Detector (CD) umfasst eine Fusionsphase, die die beiden Kodierungen in einer einzigen multimodalen Merkmalsdarstellung verknüpft, die dann mithilfe vollständig verbundener Schichten auf eine niedrigere Dimension reduziert wird, und schließlich wird eine Verlustfunktion basierend auf der binären Kreuzentropie als Entscheidungsschicht verwendet. Die vorgeschlagene pseudo-siamesische Architektur für paarweises Lernen ermöglicht es dem CD-Modell, die räumlichen und zeitlichen Abhängigkeiten zwischen multimodalen Eingabebildpaaren zu erfassen. Das Modell verarbeitet die beiden multimodalen Eingabepatches gleichzeitig unter unterschiedlichen räumlichen Auflösungen. Die Bewertungsleistung an verschiedenen realen multimodalen Datensätzen, die eine Mischung aus CD-Bedingungen mit unterschiedlichen räumlichen Auflösungen widerspiegeln, bestätigt die Wirksamkeit der vorgeschlagenen CD-Architektur.