Vorhersage und Kontrolle mit Funktionsnäherung Das Universitätsnetzwerk

Beschreibung

In diesem Kurs lernen Sie, wie Sie Probleme mit großen, hochdimensionalen und möglicherweise unendlichen Zustandsräumen lösen. Sie werden sehen, dass das Schätzen von Wertfunktionen als überwachtes Lernproblem - Funktionsnäherung - betrachtet werden kann, mit dem Sie Agenten erstellen können, die Generalisierung und Diskriminierung sorgfältig ausbalancieren, um die Belohnung zu maximieren. Wir beginnen diese Reise mit der Untersuchung, wie unsere Methoden zur Bewertung oder Vorhersage von Richtlinien wie Monte Carlo und TD auf die Einstellung der Funktionsnäherung erweitert werden können. Sie lernen Feature-Konstruktionstechniken für RL und Repräsentationslernen über neuronale Netze und Backprop kennen. Wir schließen diesen Kurs mit einem tiefen Einblick in politische Gradientenmethoden ab. eine Möglichkeit, Richtlinien direkt zu lernen, ohne eine Wertefunktion zu erlernen. In diesem Kurs lösen Sie zwei Aufgaben zur kontinuierlichen Zustandssteuerung und untersuchen die Vorteile von Richtliniengradientenmethoden in einer Umgebung mit kontinuierlicher Aktion.

Voraussetzungen: Dieser Kurs baut stark auf den Grundlagen der Kurse 1 und 2 auf, und die Lernenden sollten diese vor Beginn dieses Kurses abgeschlossen haben. Die Lernenden sollten auch mit Wahrscheinlichkeiten und Erwartungen, der grundlegenden linearen Algebra, der Grundrechnung, Python 3.0 (mindestens 1 Jahr) und der Implementierung von Algorithmen aus Pseudocode vertraut sein.

Am Ende dieses Kurses können Sie:

- Verstehen Sie, wie Sie überwachte Lernansätze verwenden, um Wertfunktionen zu approximieren
-Verstehen Sie die Ziele für die Vorhersage (Wertschätzung) unter Funktionsnäherung
-Implementieren Sie TD mit Funktionsnäherung (Zustandsaggregation) in einer Umgebung mit einem unendlichen Zustandsraum (kontinuierlicher Zustandsraum).
- Verstehen Sie Ansätze für feste Basen und neuronale Netze zur Merkmalskonstruktion
-Implementieren Sie TD mit neuronaler Netzwerkfunktionsnäherung in einer Umgebung mit kontinuierlichem Zustand
-Verstehen Sie neue Schwierigkeiten bei der Exploration, wenn Sie zur Funktionsnäherung übergehen
-Kontrastieren Sie reduzierte Problemformulierungen zur Kontrolle im Vergleich zu einer durchschnittlichen Belohnungsproblemformulierung
- Implementierung von erwartetem Sarsa und Q-Learning mit Funktionsnäherung für eine kontinuierliche Zustandssteuerungsaufgabe
-Verstehen Sie die Ziele für die direkte Schätzung von Richtlinien (Richtliniengradientenziele)
- Implementieren Sie eine Richtliniengradientenmethode (Actor-Critic genannt) in einer Umgebung mit diskretem Status