Mohammed Terry Jack
Das Herzstück eines Roboters ist eine Richtlinie, die ihm sagt, was er in einer bestimmten Situation tun soll (d. h. welche Aktion er ausführen soll). Dies kann eine Sammlung einfacher Regeln oder eine komplexe mathematische Funktion sein. Aber woher wissen Sie, wie die Regeln oder die mathematische Funktion aussehen sollen? Glücklicherweise gibt es maschinelle Lernalgorithmen, um die Funktion anzunähern (z. B. Kernel-Maschinen, Deep Learning usw.) oder diese Regeln automatisch abzuleiten (z. B. induktive logische Programmierung, Random Forests usw.). Überwachte Lernalgorithmen erfordern jedoch viele Trainingsdaten, die möglicherweise nicht verfügbar sind. Evolutionäre Methoden (z. B. genetische Algorithmen) und andere Optimierungsalgorithmen erfordern keine Trainingsdaten, um einen Richtlinienraum auszuwerten und zu durchsuchen und die optimalen Regeln oder Funktionen zu finden. Alternativ kann durch direktes Gleichsetzen der Richtlinie mit einer Suche (durch einen Zustands-/Aktionszustandsraum), wie dies beim bestärkenden Lernen geschieht, die nächstbeste Aktion mithilfe einer erlernten Bewertungsfunktion (z. B. V- oder Q-Funktion) gefunden werden.