Stichprobenbasierte Lernmethoden Das Universitätsnetzwerk

Beschreibung

In diesem Kurs lernen Sie verschiedene Algorithmen kennen, mit denen Sie auf der Grundlage der Interaktion von Versuch und Irrtum mit der Umgebung nahezu optimale Richtlinien erlernen können. Dabei lernen Sie aus den eigenen Erfahrungen des Agenten. Aus tatsächlichen Erfahrungen zu lernen ist bemerkenswert, da es keine Vorkenntnisse über die Dynamik der Umgebung erfordert und dennoch ein optimales Verhalten erzielen kann. Wir werden intuitiv einfache, aber leistungsstarke Monte-Carlo-Methoden und Lernmethoden für zeitliche Unterschiede einschließlich Q-Learning behandeln. Wir werden diesen Kurs abschließen und untersuchen, wie wir das Beste aus beiden Welten herausholen können: Algorithmen, die modellbasierte Planung (ähnlich wie dynamische Programmierung) und zeitliche Differenzaktualisierungen kombinieren können, um das Lernen radikal zu beschleunigen.

Am Ende dieses Kurses können Sie:

- Verstehen Sie das Lernen von Zeitdifferenzen und Monte Carlo als zwei Strategien zur Schätzung von Wertfunktionen aus Stichprobenerfahrungen
- Verstehen Sie die Bedeutung der Exploration, wenn Sie Stichprobenerfahrungen anstelle dynamischer Programmier-Sweeps innerhalb eines Modells verwenden
- Verstehen Sie die Verbindungen zwischen Monte Carlo und Dynamic Programming und TD.
- Implementieren und Anwenden des TD-Algorithmus zur Schätzung von Wertfunktionen
- Implementieren und Anwenden von Expected Sarsa und Q-Learning (zwei TD-Methoden zur Kontrolle)
- Verstehen Sie den Unterschied zwischen On-Policy- und Off-Policy-Kontrolle
- Planen mit simulierter Erfahrung verstehen (im Gegensatz zu klassischen Planungsstrategien)
- Implementieren Sie einen modellbasierten Ansatz für RL namens Dyna, der simulierte Erfahrungen verwendet
- Führen Sie eine empirische Studie durch, um die Verbesserungen der Probeneffizienz bei Verwendung von Dyna festzustellen